JP2004118010A - Automatic imparting apparatus for musical piece impression value - Google Patents

Automatic imparting apparatus for musical piece impression value Download PDF

Info

Publication number
JP2004118010A
JP2004118010A JP2002283389A JP2002283389A JP2004118010A JP 2004118010 A JP2004118010 A JP 2004118010A JP 2002283389 A JP2002283389 A JP 2002283389A JP 2002283389 A JP2002283389 A JP 2002283389A JP 2004118010 A JP2004118010 A JP 2004118010A
Authority
JP
Japan
Prior art keywords
music
impression
gram
impression value
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002283389A
Other languages
Japanese (ja)
Other versions
JP3697515B2 (en
Inventor
Tadahiko Kumamoto
熊本 忠彦
Kimiko Uchimoto
内元 公子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communications Research Laboratory
Original Assignee
Communications Research Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communications Research Laboratory filed Critical Communications Research Laboratory
Priority to JP2002283389A priority Critical patent/JP3697515B2/en
Publication of JP2004118010A publication Critical patent/JP2004118010A/en
Application granted granted Critical
Publication of JP3697515B2 publication Critical patent/JP3697515B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an automatic musical piece impression value imparting apparatus which automatically imparts a musical piece impression value by using musical piece data, specially, a high-precision imparting technology for musical piece impression values. <P>SOLUTION: Processes are carried out by a musical piece basic feature quantity extraction part 10 which inputs computer-processable musical piece data from a musical piece data input part 9 and extracts a physical feature quantity, an N-gram generation part 11 which generates its N gram, and an N-gram feature quantity generation part 12 which generates an N-gram feature quantity. The musical piece feature quantity is extracted from the N-gram feature quantity and a musical piece impression value arithmetic part 13 calculates a musical piece impression value. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、楽曲データの処理装置に関するものであり、特に楽曲データから該楽曲の印象値を自動的に付与する装置に関わる。
【0002】
【従来の技術】
音楽などの芸術作品に対する評価、例えばその作品に対する印象を決定することは、従来コンピュータなどの処理にはなじまないと考えられていた。そのため、例えば楽曲の印象によって作品の印象を分類するとしても、分類作業自体は人間が行うものであった。従って、まったく新しい楽曲に対して新しい印象値をコンピュータによって付与することが課題となっている。
【0003】
本件出願人らをはじめとして、従来までの研究によると、コンピュータにおいて楽曲印象値を自動的に付与するということは、コンピュータが処理可能な楽曲データから、どのような楽曲特徴量を抽出し、どのような計算式を用いて、どのような楽曲印象値を出力するのか、という問題を中心に議論が進められている。
ここで、楽曲印象値とは、楽曲印象を数値化したものであり、楽曲特徴量とは、楽曲データから抽出し、楽曲印象値を計算するために用いられる物理的特徴量を指している。
【0004】
従って、上記の課題は楽曲印象値の設計、楽曲特徴量の設計、楽曲印象値計算式の設計についての技術的課題と言うことができ、いくつかの研究が行われてきたが、いずれも断片的なものにとどまり、未だに全体的な設計が行われて的確な楽曲印象値を自動的に付与する装置は提供されていない。
【0005】
例えば、楽曲印象値の設計において、非特許文献1によれば、SD(Semantic Differential)法に基づく主観評価実験データに対する因子分析の結果から、音楽感性空間と呼ばれる5次元の因子空間を構成し、ユーザが入力する印象と楽曲が有する印象とをこの空間内の座標値として表している。
【0006】
しかしながら、因子軸の意味の解釈は人手によるので個人差があり、楽曲に付与された座標値が実際にどのような印象を表しているのかを端的に示すことは難しい。また、楽曲の印象を1つの点で表しているため、すべての印象尺度(非特許文献1のシステムでは8個)に何らかの値を入力しなければならず、印象尺度に対する評価として「どちらでもない(楽曲印象値が不定な状態)」を認めていない。
そのため、明るい楽曲を検索するつもりで、明るさに関する印象尺度の評価を「明るい」にしても、実際には明るさ以外の印象尺度に対して「どちらとも言えない」に相当する値(1点〜7点の7段階評価では4点)を持つ楽曲が検索されることになる。
【0007】
【非特許文献1】池添剛、梶川嘉延、野村康雄:「音楽感性空間を用いた感性語による音楽データベース検索システム」 情処学論,42,12,pp.3201−3212(2001)
【0008】
また、楽曲特徴量の設計においては、非特許文献1〜3に発表された研究などがある。これらの研究をはじめとする従来の楽曲データを対象とする楽曲検索研究では、楽曲特徴量として、音の高さや強さ、長さ、リズムやテンポ、拍子、調性(短調/長調)等の音楽構成要素に対する平均や分散、時間的割合といった静的な特徴量を用いていることが多い。
しかしながら、本来時系列データである楽曲を静的な特徴量だけで表現するのは本質的に限界があるものと考えられる。
【0009】
【非特許文献2】佐藤聡、菊地幸平、北上始:「音楽データを対象としたイメージ検索のための感情価の自動生成」、情処研報,データベースシステム118−8,情報学基礎54−8,pp.57−64(1999)
【非特許文献3】佐藤聡、小川潤、堀野義博、北上始:「感情に基づく音楽作品検索システムの実現に向けての検討」、信学技報(音声),SP2000−137,pp.51−56(2001)
【0010】
従来研究(非特許文献2〜4)でも、このような音の時間的推移を考慮した特徴量として、連続する3音の音の高さや長さの推移をパターン化したものなどが提案されているが、連続する音の数が一定であり、限定的な時間推移しか取り扱えなかった。
【0011】
【非特許文献4】辻康博、星守、大森匡:「曲の局所パターン特徴量を用いた類似曲検索・感性語による検索」、信学技報(音声),SP96−124,pp.17−24(1997)
【0012】
【発明が解決しようとする課題】
本発明は上記従来の技術が有する問題に鑑みて創出されたものであって、楽曲データを用いて楽曲印象値を自動的に付与する楽曲印象値自動付与装置を提供することを課題とし、特に高精度な楽曲印象値の付与技術の提供を目的とする。
【0013】
【課題を解決するための手段】
本発明は上記課題の解決を図るため、次のような手段を創出した。
すなわち、少なくともコンピュータ処理が可能な所定のデータ規格に基づく楽曲データに対して、当該楽曲が有する印象を自動的に数値化し、付与する楽曲印象値自動付与装置を提供する。
本装置は、楽曲データを入力する入力手段と、楽曲データにおける、楽曲印象に係る物理的特徴量である楽曲基本特徴量を抽出する楽曲基本特徴量抽出手段を備える。そして、楽曲基本特徴量から、Nグラムを生成するNグラム生成手段と、異なりNグラムを用いてNグラム特徴量を生成するNグラム特徴量生成手段と、Nグラム特徴量を用い、所定の楽曲印象値計算式による演算を行う楽曲印象値演算手段と、楽曲印象値を出力する出力手段とを備える。
【0014】
ここで、前記Nグラム特徴量生成手段が、前記異なりNグラムの相対出現頻度と、所定の重み値を乗じてNグラム特徴量を生成してもよい。
【0015】
前記楽曲印象値計算式が、重回帰式であってもよい。
【0016】
楽曲印象値自動付与装置が、複数の印象尺度についての印象値を付与する構成において、Nグラム特徴量生成手段が、印象尺度毎にNグラム特徴量を生成すると共に、楽曲印象値演算手段とが、該印象尺度毎に、該Nグラム特徴量を用いて演算を行う構成でもよい。
【0017】
前記データ規格が、MIDI(musical instrument digital interface)規格であってもよい。
【0018】
本発明の楽曲印象値自動付与装置は、入力手段から楽曲データを入力し、楽曲データが含む複数のトラックチャンク及び/又はチャネルを分割し、各トラックチャンク及び/又はチャネル毎に楽曲基本特徴量抽出手段に出力するストリーム分割手段を備えてもよい。
【0019】
楽曲基本特徴量が、音の高さ、音の強さ、音の長さ、音色情報とすることができる。
【0020】
前記Nグラム特徴量生成手段において、複数のN値についてNグラム特徴量を生成する構成でもよい。
【0021】
印象尺度に、「静かな」・「落ち着いた」・「爽やかな」・「明るい」・「荘厳な」・「ゆったりとした」・「綺麗な」・「楽しい」・「気持ちが落ち着く」・「心が癒される」の少なくともいずれかの文言、又はその同意語、又はその反意語としてもよい。
【0022】
【発明の実施の形態】
本発明の実施形態を図面に示した実施例に基づいて説明する。なお、実施形態は、本発明の主旨から逸脱しないかぎり適宜変更可能なものである。
図1には本発明による楽曲印象値自動付与装置(以下、本装置と呼ぶ。)の構成図を示すと共に、図2に該装置における処理のフローチャートを示す。
【0023】
本装置(1)は、主に演算等の処理を司る中核であるCPU(2)と、ユーザーに対して処理内容や結果を示す表示装置であるモニタ(3)、ユーザーが本装置(1)の操作を行うキーボード(4)、及びCPUと連動して作用するメモリ(5)や、データを記憶可能な外部記憶装置(6)から構成される。
このような構成の装置として公知のパーソナルコンピュータがあり、本装置(1)はパーソナルコンピュータ上に実装することが可能である。
【0024】
このような本装置(1)を用い、本発明では標準MIDIファイルを入力し、自動的に楽曲印象値を付与し、それを出力する技術を創出した。各処理は図2に示す通りであり、標準MIDIファイル(20)から楽曲の印象に係る物理的特徴量である楽曲基本特徴量を抽出(21)し、それを用いて連続する楽曲基本特徴量の組み合わせからNグラムを生成した後、必要に応じ、重みや出現頻度を用いてNグラム特徴量を生成する。(22)
楽曲の特徴を表すのに有効なものを選択して楽曲特徴量の抽出(23)を行い、楽曲印象値計算式に用いる。この演算処理を行うことで、本発明が目的とする楽曲印象値(25)が算出される。
本実施例において、実数値で各印象尺度毎に1個の楽曲印象値が出力される。
次に各処理について詳述する。
【0025】
標準MIDIファイル(20)は、本装置(1)に備えた外部記憶手段に楽曲MIDIデータ(7)として記録されている。図1においては別体としているが、同じく外部記憶手段であるハードディスク(6)内に記録してもよいし、ネットワーク接続された別のコンピュータにおける外部記憶手段に記録してもよい。
CPU(2)は楽曲データ入力部(9)の処理によって楽曲MIDIデータ(7)を読み出し、楽曲基本特徴量抽出部(10)に送る。
【0026】
楽曲基本特徴量抽出部(10)において、標準MIDIファイル形式(フォーマット0または1)のデータ(7)から各トラックチャンク及び各チャネル毎に楽曲基本特徴量を抽出するストリーム分割機能を有する。標準MIDIデータ(7)の場合には、トラックチャンク及びチャネルが並列的に記載されているため、各ストリームを別個に切り分けて抽出し、それぞれを1つのストリームデータとする。
【0027】
例えば、1トラックチャンク・3チャネルの楽曲からは3つのストリームデータが生成される。本実施例において、抽出される楽曲基本特徴量は、音の高さ、音の強さ、音の長さ、音色情報の4種類であり、それぞれノートナンバー値、オンベロシティ値、ノートオンメッセージからノートオフメッセージが到着するまでの時間(ミリ秒)、GM(General MIDI)規格に基づく音色番号に対応している。
【0028】
ここで、楽曲基本特徴量の抽出例としてストリームデータの一例を図3に示す。ストリームデータ(30)において、各行の第1列が音の長さ(31)、第2列が音の高さ(32)、第3列が音の強さ(33)、第4列が音色情報(34)に対応している。
また、同一トラックチャンク同一チャネルにおいて、2音以上が同時に発音している場合を「和音」と定義し、和音がある場合は、2音目以降の楽曲基本特徴量(音の長さを除く)を第5列以降(35)(36)(37)に繰り返し記述する。
各チャネルにおいて、そのチャネル(例えば38)の無音状態を休符と定義し、音の長さを0、音の長さ以外を記号「s」で表す。
このように楽曲基本特徴量抽出部(10)で抽出されたデータは、ハードディスク(6)に記録される。
【0029】
Nグラム特徴量の生成(22)は、Nグラム生成部(11)及びNグラム特徴量生成部(12)において処理する。Nグラム特徴量は、後処理で用いる楽曲特徴量の候補となる特徴量であり、以下の手順で楽曲基本特徴量から生成される。
まず、Nグラム生成部(11)では、ハードディスク(6)上の楽曲基本特徴量データを用い、各ストリ−ムデータから4種類の楽曲基本特徴量を分離し、音色情報からはunigram(1グラム、N=1)を、それ以外の特徴量からはNグラム(N=1,2,3,4,5)を生成する。
【0030】
例えば、図3に示されたストリームデータ(30)の音の高さからは図4のようなNグラム(40)(41)(42)(43)(44)が生成される。なお、和音(39a)(39b)(39c)は、値の大きい順に並べ替えられ、リスト形式の入れ子(45)として記述される。
生成された結果はハードディスク(6)などに記録する。
【0031】
次に、Nグラム特徴量生成部(12)において、音色情報以外の楽曲基本特徴量から生成されたNグラムの各要素(x・・x)を表1、表2の抽象化ルールに基づいて置換する。
【0032】
【表1】

Figure 2004118010
【0033】
【表2】
Figure 2004118010
【0034】
表1のルールは、各Nグラムの第1要素xに適用され、楽曲基本特徴量の種類に応じてその要素を置換する。このとき、リスト形式の入れ子を1つの記号(例えば79−71−62(45))で記述するとともに、楽曲基本特徴量の種類を示すためのタグとして、音の高さならh、音の強さならv、音の長さならd) を付加する(例えばh79−71−62)。
【0035】
一方、表2のルールは、各Nグラムの第2要素以降x(i=2,3,・・・,N)に適用され、その直前の要素xi−1との比較結果に応じてxを対応する記号で置換する。
このとき、xi−1とxの比較は、それぞれの最大値同士、最小値同士で行われるが、和音以外では最大値=最小値として扱われる。
以上の処理の結果、例えば、図4のNグラムは抽象化され、図5のようになる。
【0036】
以上のようにして抽象化されたNグラムの異なりNグラムを、本稿では「Nグラム特徴量」と呼ぶ。そして、それぞれのNグラム特徴量は、その相対出現頻度に重みwを掛けたものを値として持つ。
但し、相対出現頻度は、楽曲基本特徴量の種類毎、Nグラム統計量のN値毎に計算され、小数点第4位で四捨五入される。例えば、図5のbigram(50)からは4つのNグラム特徴量が生成され、(hs sx)(51)(52)の相対出現頻度は0.400、それ以外(53)(54)(55)の相対出現頻度は0.200となる。
【0037】
一方、重みwには表3に示すような3種類の重み付け方法を用意した。
本発明では以上のNグラム生成部(11)及びNグラム特徴量生成部(12)における処理によって、Nグラム特徴量を生成し、ハードディスク(6)に記録する。もっとも、本発明のNグラム特徴量生成プロセスは、上記の構成による相対出現頻度や重みを用いることに限定されるものではなく、公知のNグラム統計量の算出方法から逸脱しない範囲で任意に設定することができる。
【0038】
【表3】
Figure 2004118010
【0039】
ここで、本発明の楽曲印象値自動付与装置(1)は、前記した楽曲特徴量及び楽曲印象値計算式を決めるため、具体的には、図6に示した設計手順に従って設計している。図に明らかなように、本設計手順は、本装置(1)を使用する際と極めて近い工程を含んでいる。以下、この流れに沿って、各手順を説明する。
楽曲が有する印象を数値化する際の基準となるデータを得るために、SD法に基づく主観評価実験(65)として、以下のような印象評価実験を行った。
【0040】
被験者は、男性39名、女性61名の計100名であり、プロレベル(演奏家としての収入があるような人)1名、セミプロレベル(音楽大学などで専門的に勉強したような人)7名、アマチュアレベル(バンドやオーケストラ、合唱団などに入っているような人)20名、趣味レベル(以上の条件には該当しないけれども一応演奏できるような人)46名、未経験者(ほとんど演奏できないような人)26名と音楽経験が豊かでない人も多数含まれている。
【0041】
印象に基づく楽曲検索は、音楽経験の豊富な人というよりも、そうでない人に対して特に有効な検索手段であり、そういう人の音楽感性を反映したデータを利用することは本装置(1)を設計する上で重要なことと言える。
また、実験で用いた楽曲(60)は標準MIDIファイル形式のクラシック80曲であり、インターネット上で公開されていたものを採用している。但し、実験時間の都合により、楽曲聴取に要する平均試聴時間が1分前後となるよう楽曲の長さを調整する。被験者は、各楽曲を2回まで試聴することができ、その間にすべての印象尺度に対し7段階評価もしくは「どちらでもない」の評価を行うことが求められる。
【0042】
本装置(1)で用いる印象尺度は、任意に設定することができるが、例えば本件出願人が特願2002−203694号において開示した印象尺度の設計方法に基づいて設計することができ、表4に示す10個の印象尺度を用いる。
【0043】
【表4】
Figure 2004118010
【0044】
ここで、各印象尺度の7段階評価結果に対し点数を割り振った。例えば、明るさに関する印象尺度では、「とても明るい」を7点、「明るい」を6点、「少し明るい」を5点、「どちらとも言えない」を4点、「少し暗い」を3点、「暗い」を2点、「とても暗い」を1点とし、「どちらでもない」は無得点とした。
これにより、各印象尺度において楽曲印象値がどのような印象を表現しているのか明確になるし、ユーザが入力する「どちらでもない」という評価結果をその印象尺度に関しては点がない状態だと考えれば、「どちらでもない(無得点)」と「どちらとも言えない(4点)」の区別が可能となる。
以上の結果得られた80000個(100人×80曲×10印象尺度)のデータから各楽曲毎の平均を求め、印象値データ(800個=80曲×10印象尺度)(66)とした。但し、無得点のデータは事前に除外し、計算には用いなかった。
【0045】
一方、80曲の楽曲データ(60)は本装置(1)の楽曲データ入力部(9)から入力され、上記の処理により楽曲基本特徴量抽出部(10)において、楽曲基本特徴量の抽出(61)が行われる。
同様に、上記処理によりNグラム生成部(11)及びNグラム特徴量生成部(12)において、Nグラム特徴量の生成(62)を行う。
【0046】
ここで、Nグラム特徴量生成部(12)において、上記のように表1、表2の抽象化ルールに基づいて置換するが、表5には抽象化処理による異なりNグラム数の変化を音の高さの場合を例に示す。
【0047】
【表5】
Figure 2004118010
【0048】
表5に示したように、抽象化により異なりNグラム(すなわちNグラム特徴量)の数は約半分に減少しているが、それでもまだ1,000のオーダーである。
本発明の設計で用いる重回帰分析の性質上、説明変数となるNグラム特徴量の数は、目的変数である印象値データのサンプル数(ここでは楽曲データ数80である。)よりも2個以上(3個以上が推奨されている)少なくなければならない。(非特許文献5参照。)
【0049】
【非特許文献5】菅民郎:「多変量統計分析」、現代数学社、京都(2000)
【0050】
そこで本実施例においてはNグラム特徴量生成部(12)で、Nグラム特徴量の数が多くても77個を超えないよう、以下のような方法でNグラム特徴量の選択処理(63)を行う。
まず、各楽曲におけるNグラム特徴量の相対出現頻度がいずれの楽曲においても0.010未満であったNグラム特徴量を除外した。この操作により、Nグラム特徴量の数は表6のように変化した。但し、この操作は音色情報に対しては行っていない。
【0051】
【表6】
Figure 2004118010
【0052】
次に、Nグラム特徴量と印象値データとの相関係数を求め、その絶対値が大きかった特徴量(最大77個)を重回帰分析のための説明変数として選択(64)した。このとき、Nグラム特徴量のN値の組み合わせとして、unigramのみ、bigramのみ、bigramとtrigram、bigramから4−gramまで、bigramから5−gramまでの5通りを用意したので、この5グループのそれぞれにおいてNグラム特徴量の選択(64)を行った。
【0053】
楽曲特徴量及び楽曲印象値計算式を決定するために、上記で選択されたNグラム特徴量(64)を説明変数、印象尺度m(m=1,2,・・・、10)における楽曲印象値データ(SD法に基づく印象評価実験の結果)(66)を目的変数とする重回帰分析(変数増加法)(67)を行う。
このとき、説明変数に用いるNグラム特徴量のN値の組み合わせは、5通りあり、重みタイプには上記のw,w,wの3種類を用いるので、結局、各印象尺度毎に15回の重回帰分析(67)を行う。
【0054】
ここで、各印象尺度毎に15回の重回帰分析を行うが、その中で自由度修正済み決定係数R‘が最も大きかった重回帰式を楽曲印象値計算式として採用し(68)、その重回帰式を構成する説明変数(Nグラム特徴量)を楽曲特徴量(69)と定義する。
【0055】
自由度修正済み決定係数について簡単に説明すると、サンプル数と説明変数の数との差が小さい(すなわち自由度が低い)と、決定係数が大きくなる傾向がある。この不具合を修正したのが自由度修正済み決定係数であり、次の式で計算される。
【数式1】
Figure 2004118010
ただし、S:残差平方和、Syy:偏差平方和、n:サンプル数、q:説明変数の数
なお、自由度修正済み決定係数については、非特許文献5に記載されている。
【0056】
本設計方法において、各印象尺度において  R‘が最大となるN値の組み合わせ及び重みタイプを、そのときのR‘とともに表7に示す。なお、表7は、N=5のNグラム特徴量(5−gram)が用いられなかったことを示しており、Nグラム特徴量におけるN値としては4までで十分なことを示唆している。
【0057】
【表7】
Figure 2004118010
【0058】
ここで、印象尺度1の場合を例に、設計された楽曲特徴量と楽曲印象値計算式(69)の偏回帰係数及び定数項を表8に示す。印象尺度1の場合の重みタイプは表7よりwなので、楽曲から抽出される楽曲特徴量の相対出現頻度に重み1(表3参照)を掛けた値が楽曲印象値計算式(重回帰式)に代入され、その楽曲の印象尺度1における楽曲印象値が算出される。
【0059】
【表8】
Figure 2004118010
【0060】
以上の繰り返しにより、各印象尺度毎の楽曲特徴量、楽曲印象値計算式(69)が定義され、本装置(1)の設計が完了する。定義された印象尺度ごとの楽曲特徴量、楽曲印象値計算式は、外部記憶手段である印象値データベース(8)に記録され、本装置(1)の楽曲印象値演算部(13)から随時呼び出し可能とする。
印象値データベースは、ハードディスク(6)上に設けてもよい。
【0061】
以下、再び本装置(1)のフローチャート(図2)に基づいて説述する。
Nグラム特徴量生成部(12)において生成(22)され、ハードディスク(6)に記録されたNグラム特徴量を用いて、次の楽曲印象値演算部(13)において、楽曲印象値の演算を行う。
【0062】
楽曲印象値演算部(13)においては、まずNグラム特徴量から各印象尺度毎の楽曲特徴量を印象値データベース(8)を参照して抽出(23)し、同データベース(8)内の楽曲印象値計算式に代入し演算処理(24)する。
該演算の結果は、実数値で各印象尺度毎に1個の楽曲印象値(25)が楽曲印象値出力部(14)から出力される。
【0063】
図7には本発明で開発した楽曲印象値自動付与装置(1)のモニタ(3)に表示される画面(70)の一例を示す。
楽曲MIDIデータ(7)は楽曲1曲分のファイルを指定するときにはボタン(71)を、複数の楽曲を収容したフォルダごと指定するときはボタン(72)をキーボード(4)やマウス(図示しない)などで指示する。
【0064】
「印象値の自動付与」ボタン(73)を指示することにより、上記で指定されていれば当該楽曲MIDIデータ(7)を、指定されていなければ、デフォルトで定義されたフォルダ内の楽曲MIDIデータ(7)を、以上に説述したCPU(2)における各処理により処理し、最終的に楽曲印象値出力部(14)が、規定のファイルmidi.iwtとしてハードディスク(6)に保存する。
【0065】
ここで、midi.iwtは、csv(カンマ区切り)形式のファイルであり、1行1楽曲で、各行の第1要素に標準MIDIファイル名(拡張子は含まない)、第m+1要素に印象尺度mに対する楽曲印象値という並びで登録される。
なお、本装置(1)の出力は、ハードディスク(6)への記録に限らず、任意の外部記憶装置、モニタ(3)などへの表示により行うこともできる。
また、本装置(1)は単独で用いるだけでなく、他の任意の装置、例えばジュークボックスや楽曲を検索する装置などに付属させてもよい。また、本装置にネットワークアダプタを備えてネットワーク上に設け、他の端末からアクセスできるようにしてもよい。
【0066】
【発明の効果】
本発明は上記の構成を備えるので、次の効果を奏する。
本発明によれば、標準MIDIデータなど、コンピュータで処理可能な楽曲データから楽曲基本特徴量を抽出し、Nグラムを生成すると共に、Nグラムのうち、異なりNグラムを用いてNグラム特徴量を生成することにより、コンピュータ処理に適した形態で当該楽曲の楽曲特徴を抽出することができる。
そして、該楽曲特徴量から所定の楽曲印象値計算式による演算を行うため、高精度な楽曲印象値の算出を行うことができる。
これにより、簡便・高速な処理が可能な楽曲印象値自動付与装置を提供することができる。
【図面の簡単な説明】
【図1】本発明による楽曲印象値自動付与装置の一実施例の構成図である。
【図2】本発明における一実施例の処理のフローチャートである。
【図3】楽曲基本特徴量の抽出例である。
【図4】生成されたNグラムの一例である。
【図5】抽象化されたNグラムの一例である。
【図6】本発明による楽曲印象値自動付与装置の設計方法のフローチャートである。
【図7】本発明による楽曲印象値自動付与装置の表示画面の一例である。
【符号の説明】
1   楽曲印象値自動付与装置
2   CPU
3   モニタ
4   キーボード
5   メモリ
6   外部記憶手段(ハードディスク)
7   楽曲MIDIデータ
8   印象値データベース
9   楽曲データ入力部
10   楽曲基本特徴量抽出部
11   Nグラム生成部
12   Nグラム特徴量生成部
13   楽曲印象値演算部
14   楽曲印象値出力部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an apparatus for processing music data, and more particularly to an apparatus for automatically giving an impression value of a music piece from the music data.
[0002]
[Prior art]
Conventionally, it has been considered that evaluation of a work of art such as music, for example, determination of an impression of the work is not suitable for processing by a computer or the like. For this reason, for example, even if the impression of a work is classified based on the impression of a music piece, the classification operation itself is performed by a human. Therefore, it is an issue to give a computer a new impression value for a completely new song.
[0003]
According to the applicants and others, according to conventional research, automatically assigning a music impression value to a computer means that a music feature value is extracted from music data that can be processed by a computer, Discussions are underway mainly on the problem of what kind of music impression value is output using such a calculation formula.
Here, the music impression value is a numerical value of the music impression, and the music feature amount indicates a physical feature amount extracted from the music data and used for calculating the music impression value.
[0004]
Therefore, the above-mentioned problems can be said to be technical problems regarding the design of music impression values, the design of music feature values, and the design of music impression value calculation formulas. However, there has not yet been provided a device which is designed overall and which automatically gives an accurate music impression value.
[0005]
For example, in designing a music impression value, according to Non-Patent Document 1, a five-dimensional factor space called a music sensitivity space is configured from a result of a factor analysis on subjective evaluation experiment data based on the SD (Semantic Differential) method. The impression input by the user and the impression of the music are represented as coordinate values in this space.
[0006]
However, since the interpretation of the meaning of the factor axis is manually performed, there is an individual difference, and it is difficult to clearly indicate what impression the coordinate values given to the music actually represent. In addition, since the impression of the music is represented by one point, some value must be input to all impression scales (8 in the system of Non-Patent Document 1), and the evaluation of the impression scale is “neither. (Song impression value is indeterminate). "
Therefore, even if the evaluation of the impression scale related to brightness is set to “bright” in order to search for a bright song, a value equivalent to “neither” for an impression scale other than brightness (1 point) A song having a 7-point rating of 7 to 4) is searched.
[0007]
[Non-Patent Document 1] Tsuyoshi Ikezoe, Yoshinobu Kajikawa, Yasuo Nomura: "Music database search system using sensibility words using music sensibility space" Journal of Information Processing, 42,12, pp. 3201-3212 (2001)
[0008]
In addition, there are studies published in Non-Patent Literatures 1 to 3 in designing music feature quantities. In the music search research targeting conventional music data such as these researches, music features such as pitch, strength, length, rhythm, tempo, beat, tonality (minor / major), etc. In many cases, a static feature amount such as an average, a variance, and a temporal ratio with respect to a music component is used.
However, it is considered that there is an inherent limitation in expressing music that is originally time-series data using only static features.
[0009]
[Non-Patent Document 2] Satoshi Sato, Kohei Kikuchi, Hajime Kitakami: "Automatic generation of emotional valence for image search of music data", Jikken Kenho, Database System 118-8, Informatics Basic 54- 8, pp. 57-64 (1999)
[Non-Patent Document 3] Satoshi Sato, Jun Ogawa, Yoshihiro Horino, Hajime Kitakami: "Study for Realization of Music Work Search System Based on Emotion", IEICE Technical Report (Voice), SP2000-137, pp. 51-56 (2001)
[0010]
Conventional researches (Non-Patent Documents 2 to 4) have proposed a pattern in which the transition of the pitch and length of three consecutive sounds is patterned as a feature amount in consideration of such a temporal transition of the sound. However, the number of continuous sounds was constant, and only a limited time transition could be handled.
[0011]
[Non-Patent Document 4] Yasuhiro Tsuji, Tadashi Hoshimori, Tadashi Omori: "Similar song search using local pattern feature of song / search by kansei word", IEICE Tech. 17-24 (1997)
[0012]
[Problems to be solved by the invention]
The present invention has been created in view of the above-described problems of the related art, and has an object to provide a music impression value automatic assigning device that automatically assigns a song impression value using song data. An object of the present invention is to provide a technique for giving a high-accuracy music impression value.
[0013]
[Means for Solving the Problems]
The present invention has created the following means in order to solve the above problems.
In other words, the present invention provides an automatic music impression value assigning device for automatically digitizing the impression of a song and assigning it to song data based on a predetermined data standard that can be processed at least by a computer.
The present apparatus includes an input unit for inputting music data, and a music basic feature amount extracting unit for extracting a music basic feature amount which is a physical feature amount related to a music impression in the music data. Then, an N-gram generating means for generating an N-gram from the music basic feature quantity, an N-gram feature quantity generating means for generating the N-gram feature quantity using the N-gram, and a predetermined music piece using the N-gram feature quantity A music impression value calculating means for performing an operation based on the impression value calculation formula and an output means for outputting a music impression value are provided.
[0014]
Here, the N-gram feature amount generation means may generate an N-gram feature amount by multiplying the relative appearance frequency of the different N-gram by a predetermined weight value.
[0015]
The music impression value calculation formula may be a multiple regression formula.
[0016]
In the configuration in which the music impression value automatic giving device gives impression values for a plurality of impression scales, the N-gram feature value generation means generates an N-gram feature value for each impression scale, and the music impression value calculation means includes Alternatively, a configuration may be used in which the calculation is performed using the N-gram feature amount for each impression scale.
[0017]
The data standard may be a MIDI (musical instrument digital interface) standard.
[0018]
The music impression value automatic assigning device of the present invention inputs music data from input means, divides a plurality of track chunks and / or channels included in the music data, and extracts a music basic feature amount for each track chunk and / or channel. The apparatus may further comprise a stream dividing means for outputting the data to the means.
[0019]
The music basic feature amount can be a pitch, a sound intensity, a sound length, and timbre information.
[0020]
The N-gram feature generation unit may generate an N-gram feature for a plurality of N values.
[0021]
Impression scales include "quiet", "calm", "fresh", "bright", "mall", "slow", "beautiful", "fun", "calm", " At least one of the words "Heal the mind", or a synonym or antonym thereof may be used.
[0022]
BEST MODE FOR CARRYING OUT THE INVENTION
An embodiment of the present invention will be described based on an example shown in the drawings. The embodiments can be appropriately modified without departing from the gist of the present invention.
FIG. 1 shows a configuration diagram of a music impression value automatic giving device (hereinafter, this device) according to the present invention, and FIG. 2 shows a flowchart of processing in the device.
[0023]
The present device (1) includes a CPU (2), which is a core that mainly performs processing such as calculations, a monitor (3), which is a display device that shows processing contents and results to a user. , A memory (5) that works in conjunction with the CPU, and an external storage device (6) that can store data.
There is a known personal computer as an apparatus having such a configuration, and the apparatus (1) can be mounted on the personal computer.
[0024]
Using such a device (1), the present invention has created a technique for inputting a standard MIDI file, automatically assigning a music impression value, and outputting the music impression value. Each process is as shown in FIG. 2. A basic song amount is extracted from a standard MIDI file (20), which is a physical feature amount relating to the impression of the song (21). After the N-gram is generated from the combination of the N-grams, the N-gram feature is generated using the weight and the appearance frequency as necessary. (22)
A selection effective for representing the feature of the music is selected, and the music feature amount is extracted (23), and is used in the music impression value calculation formula. By performing this arithmetic processing, the music impression value (25) targeted by the present invention is calculated.
In the present embodiment, one music impression value is output for each impression scale as a real value.
Next, each process will be described in detail.
[0025]
The standard MIDI file (20) is recorded as music MIDI data (7) in external storage means provided in the apparatus (1). Although it is separate in FIG. 1, it may be recorded in the hard disk (6) which is also an external storage means, or may be recorded in the external storage means of another computer connected to the network.
The CPU (2) reads out the music MIDI data (7) by the processing of the music data input section (9) and sends it to the music basic feature quantity extraction section (10).
[0026]
The music basic feature extraction unit (10) has a stream division function for extracting the music basic feature for each track chunk and each channel from the data (7) in the standard MIDI file format (format 0 or 1). In the case of the standard MIDI data (7), since track chunks and channels are described in parallel, each stream is separately cut and extracted, and each stream is defined as one stream data.
[0027]
For example, three stream data are generated from music of one track chunk and three channels. In the present embodiment, the extracted basic music feature amounts are four types of pitch, sound intensity, sound length, and timbre information, and are respectively obtained from a note number value, an on-velocity value, and a note-on message. The time (millisecond) until the note-off message arrives, and corresponds to a tone color number based on the GM (General MIDI) standard.
[0028]
Here, an example of stream data is shown in FIG. 3 as an example of extracting the music basic feature amount. In the stream data (30), the first column of each row is a tone length (31), the second column is a tone pitch (32), the third column is a tone intensity (33), and the fourth column is a timbre. It corresponds to information (34).
In addition, a case where two or more sounds are generated simultaneously in the same track chunk and the same channel is defined as a “chord”, and when there is a chord, the basic feature amount of the music after the second sound (excluding the length of the sound). Are repeated in the fifth and subsequent columns (35), (36), and (37).
In each channel, the silence state of the channel (for example, 38) is defined as a rest, and the length of a sound is represented by 0, and the rest is represented by a symbol "s".
The data extracted by the music basic feature amount extraction unit (10) is recorded on the hard disk (6).
[0029]
The generation (22) of the N-gram feature is processed in the N-gram generator (11) and the N-gram feature generator (12). The N-gram feature amount is a feature amount that is a candidate for a song feature amount used in post-processing, and is generated from the song basic feature amount in the following procedure.
First, the N-gram generation unit (11) uses the music basic feature data on the hard disk (6), separates four types of music basic features from each stream data, and obtains unigram (1 gram, 1 gram, N = 1), and N-grams (N = 1, 2, 3, 4, 5) are generated from the other feature amounts.
[0030]
For example, N-grams (40) (41) (42) (43) (44) as shown in FIG. 4 are generated from the pitches of the stream data (30) shown in FIG. The chords (39a) (39b) (39c) are rearranged in descending order of value and described as nesting (45) in a list format.
The generated result is recorded on a hard disk (6) or the like.
[0031]
Next, in the N-gram feature generation unit (12), each element (x 1 x 2 ... X N ) of the N-gram generated from the music basic feature other than the timbre information is abstracted in Tables 1 and 2. Replace based on rules.
[0032]
[Table 1]
Figure 2004118010
[0033]
[Table 2]
Figure 2004118010
[0034]
Table 1 rule is applied to the first element x 1 of each N-gram, replacing the element in accordance with the type of music the basic feature amount. At this time, the nesting in the list format is described by one symbol (for example, 79-71-62 (45)), and the tag for indicating the type of the music basic feature amount is h if the pitch is a pitch, and the strength of the sound. Then, v is added if the length is a sound, and d) is added (for example, h79-71-62).
[0035]
On the other hand, the rule in Table 2 is applied to the second element and subsequent elements x i (i = 2, 3,..., N) of each N-gram, and according to the result of comparison with the element x i−1 immediately before the element. Replace xi with the corresponding symbol.
In this case, comparison of x i-1 and x i are the respective maximum values each other is carried out at a minimum value between, are treated as the maximum value = minimum value outside chords.
As a result of the above processing, for example, the N-gram in FIG. 4 is abstracted and becomes as shown in FIG.
[0036]
The N-gram, which is different from the N-gram abstracted as described above, is referred to as “N-gram feature quantity” in this paper. Then, each N-gram feature has a value obtained by multiplying the relative appearance frequency by a weight w.
However, the relative appearance frequency is calculated for each type of the music basic feature amount and for each N value of the N-gram statistic, and is rounded off to the fourth decimal place. For example, four N-gram features are generated from bigram (50) in FIG. 5, the relative frequency of occurrence of (hs sx) (51) (52) is 0.400, and the other (53) (54) (55) ) Is 0.200.
[0037]
On the other hand, three types of weighting methods as shown in Table 3 were prepared for the weight w.
In the present invention, an N-gram feature is generated by the processing in the N-gram generator (11) and the N-gram feature generator (12), and is recorded on the hard disk (6). However, the N-gram feature amount generation process of the present invention is not limited to the use of the relative appearance frequency and weight according to the above configuration, and may be arbitrarily set without departing from the known N-gram statistic calculation method. can do.
[0038]
[Table 3]
Figure 2004118010
[0039]
Here, in order to determine the above-mentioned music feature value and music impression value calculation formula, the music impression value automatic giving device (1) of the present invention is specifically designed according to the design procedure shown in FIG. As is clear from the figure, the present design procedure includes steps very similar to those when using the present apparatus (1). Hereinafter, each procedure will be described along this flow.
The following impression evaluation experiment was performed as a subjective evaluation experiment (65) based on the SD method in order to obtain data serving as a reference when quantifying the impression of the music.
[0040]
The subjects were 39 men and 61 women, 100 in total, one professional level (person who has income as a performer), semi-professional level (person who studied professionally at music colleges etc.) 7 people, amateur level (people who are in a band, orchestra, choir, etc.) 20 people, hobby level (people who do not meet the above conditions but who can play for the time being) 46 people, inexperienced people (mostly playing There are also 26 people who do not have enough music experience.
[0041]
The music search based on the impression is a particularly effective search means for those who are not experienced in music, rather than those who are experienced in music, and the device (1) uses data reflecting the music sensitivity of such people. It can be said that it is important in designing.
Also, the music (60) used in the experiment is a classic 80 music in a standard MIDI file format, which is published on the Internet. However, the length of the music is adjusted so that the average listening time required for listening to the music is about 1 minute depending on the experimental time. The test subject can listen to each song up to two times, during which time all the impression scales are required to be evaluated on a seven-point scale or “neither”.
[0042]
The impression scale used in the present apparatus (1) can be set arbitrarily. For example, the impression scale can be designed based on the design method of the impression scale disclosed in Japanese Patent Application No. 2002-203694 by the present applicant. 10 impression scales are used.
[0043]
[Table 4]
Figure 2004118010
[0044]
Here, scores were assigned to the seven-level evaluation results of each impression scale. For example, the impression scale for brightness is 7 points for “very bright”, 6 points for “bright”, 5 points for “slightly bright”, 4 points for “neither”, 3 points for “slightly dark”, "Dark" was given 2 points, "very dark" was given 1 point, and "neither" was given no score.
This clarifies what impression the music impression value expresses in each impression scale, and the evaluation result of "neither" input by the user is that there is no point for the impression scale Considering this, it is possible to distinguish between “neither (no score)” and “neither (4 points)”.
The average of each music piece was calculated from the data of 80000 pieces (100 people x 80 music pieces x 10 impression scales) obtained as the above results, and the result was taken as impression value data (800 pieces = 80 music pieces x 10 impression scales) (66). However, non-scoring data was excluded in advance and was not used in the calculation.
[0045]
On the other hand, 80 pieces of music data (60) are inputted from the music data input section (9) of the present apparatus (1), and the basic music quantity extraction section (10) extracts the basic music piece quantity (10) by the above processing. 61) is performed.
Similarly, the N-gram feature amount generation unit (11) and the N-gram feature amount generation unit (12) perform the generation (62) of the N-gram feature amount by the above processing.
[0046]
Here, the N-gram feature quantity generation unit (12) performs replacement based on the abstraction rules of Tables 1 and 2 as described above. An example of the case of the height is shown.
[0047]
[Table 5]
Figure 2004118010
[0048]
As shown in Table 5, the number of N-grams (that is, N-gram features) is reduced by about half depending on the abstraction, but is still on the order of 1,000.
Due to the nature of the multiple regression analysis used in the design of the present invention, the number of N-gram features as explanatory variables is two more than the number of samples of the impression value data as the objective variable (here, the number of music data is 80). Must be less (three or more are recommended). (See Non-Patent Document 5.)
[0049]
[Non-Patent Document 5] Tamio Suga: "Multivariate Statistical Analysis", Contemporary Mathematics, Kyoto (2000)
[0050]
Therefore, in the present embodiment, the N-gram feature amount selecting unit (12) selects the N-gram feature amount by the following method (63) so that the number of N-gram feature amounts does not exceed 77 at most. I do.
First, the N-gram feature amount in which the relative appearance frequency of the N-gram feature amount in each song was less than 0.010 in any song was excluded. By this operation, the number of N-gram feature quantities changed as shown in Table 6. However, this operation is not performed on the tone color information.
[0051]
[Table 6]
Figure 2004118010
[0052]
Next, the correlation coefficient between the N-gram feature value and the impression value data was obtained, and the feature value (maximum 77) whose absolute value was large was selected as an explanatory variable for multiple regression analysis (64). At this time, as the combinations of the N values of the N-gram feature amounts, only unigram, bigram only, bigram and trigram, bigram to 4-gram, and bigram to 5-gram were prepared. , The selection (64) of the N-gram feature amount was performed.
[0053]
In order to determine the music feature quantity and the music impression value calculation formula, the N-gram feature quantity (64) selected above is used as an explanatory variable and a music impression in an impression scale m (m = 1, 2,..., 10). Multiple regression analysis (variable increase method) (67) is performed using the value data (result of the impression evaluation experiment based on the SD method) (66) as the objective variable.
In this case, the combination of N values of the N-gram features for the explanatory variables, There are 5, since using three kinds of the above w 1, w 2, w 3 is the weight type, after all, for each Impression 15 multiple regression analyzes (67) are performed.
[0054]
Here, the multiple regression analysis is performed 15 times for each impression scale. Among them, the multiple regression equation having the largest determined coefficient of freedom R 2 ′ is adopted as the music impression value calculation equation (68). The explanatory variable (N-gram feature amount) constituting the multiple regression equation is defined as a music feature amount (69).
[0055]
To briefly explain the determination coefficient after the degree of freedom correction, the smaller the difference between the number of samples and the number of explanatory variables (ie, the lower the degree of freedom), the larger the determination coefficient tends to be. This defect is corrected by the degree of freedom corrected determination coefficient, which is calculated by the following equation.
[Formula 1]
Figure 2004118010
However, S e : sum of residual squares, S yy : sum of squares of deviation, n: number of samples, q: number of explanatory variables.
[0056]
In this design method, Table 7 shows combinations of N values and weight types that maximize R 2 ′ in each impression scale, along with R 2 ′ at that time. Table 7 shows that the N-gram feature amount (5-gram) of N = 5 was not used, and suggests that an N value of 4 in the N-gram feature amount is sufficient. .
[0057]
[Table 7]
Figure 2004118010
[0058]
Here, taking the case of the impression scale 1 as an example, Table 8 shows the designed music feature amounts and the partial regression coefficients and constant terms of the music impression value calculation formula (69). Weight type for the Impression 1 since w 1 from Table 7, the value obtained by multiplying the weight 1 (see Table 3) to the relative frequency of occurrence of the music feature quantity extracted from the music song impression value calculation formula (regression equation ) Is calculated, and the music impression value of the music in the impression scale 1 is calculated.
[0059]
[Table 8]
Figure 2004118010
[0060]
By repeating the above, the music feature amount and the music impression value calculation formula (69) for each impression scale are defined, and the design of the present apparatus (1) is completed. The defined music feature quantity and music impression value calculation formula for each impression scale are recorded in the impression value database (8) as external storage means, and are called from the music impression value calculation unit (13) of the present apparatus (1) as needed. Make it possible.
The impression value database may be provided on the hard disk (6).
[0061]
Hereinafter, description will be made again based on the flowchart (FIG. 2) of the present apparatus (1).
Using the N-gram feature value generated (22) in the N-gram feature value generation unit (12) and recorded on the hard disk (6), the next music impression value calculation unit (13) calculates the music impression value. Do.
[0062]
The music impression value calculation unit (13) first extracts (23) the music feature amount for each impression scale from the N-gram feature amount with reference to the impression value database (8), and then extracts the music in the database (8). Substitution is performed in the impression value calculation formula to perform an operation process (24).
As a result of the calculation, one music impression value (25) is output from the music impression value output unit (14) as a real value for each impression scale.
[0063]
FIG. 7 shows an example of a screen (70) displayed on the monitor (3) of the automatic music impression value giving device (1) developed in the present invention.
For the song MIDI data (7), a button (71) is used to designate a file for one song, and a button (72) is used to designate a folder containing a plurality of songs, using a keyboard (4) or a mouse (not shown). And so on.
[0064]
By instructing the "automatically assign impression value" button (73), the music MIDI data (7) is specified if specified, and the music MIDI data in the folder defined by default if not specified. (7) is processed by each process in the CPU (2) described above, and finally the music impression value output unit (14) outputs the specified file midi. It is stored in the hard disk (6) as iwt.
[0065]
Here, midi. iwt is a file in the csv (comma-separated) format, with one song per line, the first element of each line being the standard MIDI file name (not including the extension), and the (m + 1) th element being the song impression value for the impression scale m. Registered side by side.
The output of the device (1) is not limited to recording on the hard disk (6), but can also be performed by display on any external storage device, monitor (3) or the like.
Further, the present apparatus (1) may be used not only alone but also attached to any other apparatus, for example, a jukebox or a music retrieval apparatus. Further, the present apparatus may be provided with a network adapter and provided on a network so as to be accessible from another terminal.
[0066]
【The invention's effect】
The present invention has the above configuration, and has the following effects.
According to the present invention, a music basic feature is extracted from music data that can be processed by a computer, such as standard MIDI data, and an N-gram is generated. By generating, the music feature of the music can be extracted in a form suitable for computer processing.
Then, since a calculation based on the predetermined music impression value calculation formula is performed from the music feature amount, highly accurate calculation of the music impression value can be performed.
This makes it possible to provide a music impression value automatic assigning device capable of simple and high-speed processing.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of one embodiment of a music impression value automatic providing device according to the present invention.
FIG. 2 is a flowchart of a process according to an embodiment of the present invention.
FIG. 3 is an example of extracting a music basic feature amount.
FIG. 4 is an example of a generated N-gram.
FIG. 5 is an example of an abstracted N-gram.
FIG. 6 is a flowchart of a method for designing a music impression value automatic giving device according to the present invention.
FIG. 7 is an example of a display screen of the music impression value automatic giving device according to the present invention.
[Explanation of symbols]
1 Music impression value automatic giving device 2 CPU
3 monitor 4 keyboard 5 memory 6 external storage means (hard disk)
7 music MIDI data 8 impression value database 9 music data input unit 10 music basic feature amount extraction unit 11 N-gram generation unit 12 N-gram feature amount generation unit 13 music impression value calculation unit 14 music impression value output unit

Claims (9)

少なくともコンピュータ処理が可能な所定のデータ規格に基づく楽曲データに対して、当該楽曲が有する印象を自動的に数値化し、付与する楽曲印象値自動付与装置であって、該装置が、
楽曲データを入力する入力手段と、
該楽曲データにおける、楽曲印象に係る物理的特徴量である楽曲基本特徴量を抽出する楽曲基本特徴量抽出手段と、
該楽曲基本特徴量から、Nグラムを生成するNグラム生成手段と、
該Nグラムのうち、異なりNグラムを用いてNグラム特徴量を生成するNグラム特徴量生成手段と、
該Nグラム特徴量を用い、所定の楽曲印象値計算式による演算を行う楽曲印象値演算手段と、
楽曲印象値を出力する出力手段と
を備えることを特徴とする楽曲印象値自動付与装置。
For music data based on at least a predetermined data standard that can be processed by a computer, a music impression value automatic assigning device that automatically digitizes the impression of the song and assigns the impression,
Input means for inputting music data,
Music basic feature amount extraction means for extracting a music basic feature amount which is a physical feature amount related to a music impression in the music data;
N-gram generating means for generating an N-gram from the music basic feature amount;
N-gram feature generation means for generating an N-gram feature using a different N-gram among the N-grams;
Music impression value calculation means for performing an operation according to a predetermined music impression value calculation formula using the N-gram feature amount;
Output means for outputting a music impression value.
前記Nグラム特徴量生成手段が、
前記異なりNグラムの相対出現頻度と、所定の重み値を乗じてNグラム特徴量を生成する
請求項1に記載の楽曲印象値自動付与装置。
The N-gram feature quantity generation unit includes:
The music impression value automatic assigning apparatus according to claim 1, wherein the relative appearance frequency of the different N-gram is multiplied by a predetermined weight value to generate an N-gram feature amount.
前記楽曲印象値計算式が、
重回帰式である
請求項1又は2に記載の楽曲印象値自動付与装置。
The music impression value calculation formula is
The music impression value automatic giving device according to claim 1 or 2, which is a multiple regression formula.
前記楽曲印象値自動付与装置が、複数の印象尺度についての印象値を付与する構成において、
前記Nグラム特徴量生成手段が、該印象尺度毎にNグラム特徴量を生成すると共に、
前記楽曲印象値演算手段とが、該印象尺度毎に、該Nグラム特徴量を用いて演算を行う
請求項1ないし3に記載の楽曲印象値自動付与装置。
In the configuration in which the music impression value automatic giving device gives impression values for a plurality of impression scales,
The N-gram feature generation means generates an N-gram feature for each impression scale,
4. The music impression value automatic assigning device according to claim 1, wherein the music impression value calculation means performs calculation using the N-gram feature amount for each impression scale. 5.
前記データ規格が、MIDI(musical instrument digital interface)規格である
請求項1ないし4に記載の楽曲印象値自動付与装置。
The music impression value automatic assigning apparatus according to claim 1, wherein the data standard is a MIDI (musical instrument digital interface) standard.
前記楽曲印象値自動付与装置において、
入力手段から楽曲データを入力し、楽曲データが含む複数のトラックチャンク及び/又はチャネルを分割し、各トラックチャンク及び/又はチャネル毎に楽曲基本特徴量抽出手段に出力する
ストリーム分割手段を備えた
請求項1ないし5に記載の楽曲印象値自動付与装置。
In the music impression value automatic giving device,
A stream dividing means for inputting music data from the input means, dividing a plurality of track chunks and / or channels included in the music data, and outputting the divided track chunks and / or channels to the music basic feature amount extracting means for each track chunk and / or channel; Item 6. The music impression value automatic assigning device according to any one of Items 1 to 5.
前記楽曲基本特徴量が、音の高さ、音の強さ、音の長さ、音色情報である
請求項1ないし6に記載の楽曲印象値自動付与装置。
7. The music impression value automatic assigning apparatus according to claim 1, wherein the music basic feature amount is sound pitch, sound intensity, sound length, and timbre information.
前記Nグラム生成手段において、
複数のN値についてNグラムを生成する
請求項1ないし7に記載の楽曲印象値自動付与装置。
In the N-gram generating means,
8. The music impression value automatic assigning apparatus according to claim 1, wherein an N-gram is generated for a plurality of N values.
前記印象尺度が、
「静かな」・「落ち着いた」・「爽やかな」・「明るい」・「荘厳な」・「ゆったりとした」・「綺麗な」・「楽しい」・「気持ちが落ち着く」・「心が癒される」
の少なくともいずれかの文言、又はその同意語、又はその反意語である
請求項1ないし8に記載の楽曲印象値自動付与装置。
The impression scale is
"Quiet", "calm", "refreshing", "bright", "mall", "slow", "beautiful", "fun", "calm down", "healing the mind""
9. The music impression value automatic assigning apparatus according to claim 1, which is at least one of the following words, a synonym thereof, or an antonym thereof.
JP2002283389A 2002-09-27 2002-09-27 Music impression scale evaluation value automatic assigning device Expired - Lifetime JP3697515B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002283389A JP3697515B2 (en) 2002-09-27 2002-09-27 Music impression scale evaluation value automatic assigning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002283389A JP3697515B2 (en) 2002-09-27 2002-09-27 Music impression scale evaluation value automatic assigning device

Publications (2)

Publication Number Publication Date
JP2004118010A true JP2004118010A (en) 2004-04-15
JP3697515B2 JP3697515B2 (en) 2005-09-21

Family

ID=32277266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002283389A Expired - Lifetime JP3697515B2 (en) 2002-09-27 2002-09-27 Music impression scale evaluation value automatic assigning device

Country Status (1)

Country Link
JP (1) JP3697515B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2006106631A1 (en) * 2005-03-31 2008-09-11 パイオニア株式会社 Playback order change support unit, music information playback apparatus, and playback order change support method
JP2009042553A (en) * 2007-08-09 2009-02-26 Toshiba Corp Sensitivity evaluation device and method
JP2009251469A (en) * 2008-04-09 2009-10-29 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for estimating impression degree at content viewing time, and computer readable recording medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06290574A (en) * 1993-03-31 1994-10-18 Victor Co Of Japan Ltd Music retrieving device
JP2001306580A (en) * 2000-04-27 2001-11-02 Matsushita Electric Ind Co Ltd Music database retrieving device
JP2002123287A (en) * 2000-10-13 2002-04-26 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for generating music featured value, music information retrieval device, and recording medium for program for generating music featured value
JP2002183152A (en) * 2000-12-18 2002-06-28 Jinyama Shunichi Device and method for music retrieval and recording medium with recorded software for music retrieval
EP1244093A2 (en) * 2001-03-22 2002-09-25 Matsushita Electric Industrial Co., Ltd. Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
JP2002278547A (en) * 2001-03-22 2002-09-27 Matsushita Electric Ind Co Ltd Music piece retrieval method, music piece retrieval data registration method, music piece retrieval device and music piece retrieval data registration device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06290574A (en) * 1993-03-31 1994-10-18 Victor Co Of Japan Ltd Music retrieving device
JP2001306580A (en) * 2000-04-27 2001-11-02 Matsushita Electric Ind Co Ltd Music database retrieving device
JP2002123287A (en) * 2000-10-13 2002-04-26 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for generating music featured value, music information retrieval device, and recording medium for program for generating music featured value
JP2002183152A (en) * 2000-12-18 2002-06-28 Jinyama Shunichi Device and method for music retrieval and recording medium with recorded software for music retrieval
EP1244093A2 (en) * 2001-03-22 2002-09-25 Matsushita Electric Industrial Co., Ltd. Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
JP2002278547A (en) * 2001-03-22 2002-09-27 Matsushita Electric Ind Co Ltd Music piece retrieval method, music piece retrieval data registration method, music piece retrieval device and music piece retrieval data registration device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2006106631A1 (en) * 2005-03-31 2008-09-11 パイオニア株式会社 Playback order change support unit, music information playback apparatus, and playback order change support method
JP4616337B2 (en) * 2005-03-31 2011-01-19 パイオニア株式会社 Playback order change support unit, music information playback apparatus, and playback order change support method
JP2009042553A (en) * 2007-08-09 2009-02-26 Toshiba Corp Sensitivity evaluation device and method
JP2009251469A (en) * 2008-04-09 2009-10-29 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for estimating impression degree at content viewing time, and computer readable recording medium

Also Published As

Publication number Publication date
JP3697515B2 (en) 2005-09-21

Similar Documents

Publication Publication Date Title
Simonton Thematic fame and melodic originality in classical music: A multivariate computer‐content analysis 1
US20210335333A1 (en) Computing orders of modeled expectation across features of media
Gunjawate et al. Acoustic analysis of voice in singers: a systematic review
Aljanaki et al. A data-driven approach to mid-level perceptual musical feature modeling
Frieler et al. Midlevel analysis of monophonic jazz solos: A new approach to the study of improvisation
Kosta et al. Mazurkabl: score-aligned loudness, beat, expressive markings data for 2000 chopin mazurka recordings
Gilbers et al. Regional variation in West and East Coast African-American English prosody and rap flows
Yang et al. Examining emotion perception agreement in live music performance
Cella Orchidea: a comprehensive framework for target-based computer-assisted dynamic orchestration
Micallef Grimaud et al. Emotional expression through musical cues: A comparison of production and perception approaches
JP2007140165A (en) Karaoke device and program for karaoke device
JP2004118010A (en) Automatic imparting apparatus for musical piece impression value
Holder et al. Musiplectics: computational assessment of the complexity of music scores
Politis et al. Determining the chromatic index of music
JP4218066B2 (en) Karaoke device and program for karaoke device
Poudrier et al. Modeling rhythmic complexity in a corpus of polyrhythm examples from Europe and America, 1900-1950
Hartmann et al. Multi-scale modelling of segmentation: effect of music training and experimental task
Ornoy et al. Analysis of contemporary violin recordings of 19th century repertoire: Identifying trends and impacts
Kanato et al. An automatic singing impression estimation method using factor analysis and multiple regression
Politis et al. Modeling musical chromaticism: the algebra of cross-cultural music perception
JP4218064B2 (en) Karaoke device and program for karaoke device
Razali et al. Intercultural Creativity and Exploration through Gamelanistic Elements in Marzelan Salleh’s Puteri Gunung Ledang and John Cage’s Dream
JP2003108563A (en) Musical information providing method and device
Liu et al. Emotion Recognition of Violin Music based on Strings Music Theory for Mascot Robot System.
Pfleiderer Beyond Major and Minor? The Tonality of Popular Music after 1960

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050525

R150 Certificate of patent or registration of utility model

Ref document number: 3697515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term