JP2014026455A

JP2014026455A - メディアデータ解析装置、方法、及びプログラム

Info

Publication number: JP2014026455A
Application number: JP2012166138A
Authority: JP
Inventors: Shogo Kimura; 昭悟木村; Yasutomo Oishi; 康智大石; Masashi Sugiyama; 将杉山
Original assignee: Nippon Telegraph and Telephone Corp; Tokyo Institute of Technology NUC
Current assignee: Nippon Telegraph and Telephone Corp; Tokyo Institute of Technology NUC
Priority date: 2012-07-26
Filing date: 2012-07-26
Publication date: 2014-02-06

Abstract

【課題】十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができるようにする。
【解決手段】次元削減空間学習部３によって、半教師付き次元削減手法により、特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、次元を削減した特徴ベクトルを各々生成する。分類器学習部４によって、次元を削減した特徴ベクトルに基づいて、事後確率推定に基づく分類器をタグごとに学習する。特徴次元削減部６によって、入力されたメディアデータについて抽出された特徴べクトルから、次元を削減した特徴ベクトルを生成し、分類器評価部７によって、学習された分類器に基づいて、タグごとに、入力されたメディアデータにタグを付与するか否かを分類し、タグベクトルを出力する。
【選択図】図５

Description

本発明は、メディアデータ解析装置、方法、及びプログラムに関する。

与えられた画像や音楽などのメディアに含まれる構成要素・情景・行動、ひいてはそれらの混合連結によって成り立つ意味（semantics）を獲得し、言語情報を介してテキストラベルという形でユーザに提示する自動メディアアノテーションの問題（図１１（ａ））は、パターン認識分野における草創期からの重要課題の１つであるものの、未だ本質的な解決には至っていないのが現状である。

また、自動アノテーション問題に類似する問題として、ユーザが思い描くsemanticsをテキストの形で計算機に与え、そのテキストに適合する画像を提示するメディア検索の問題（図１１（ｂ））が挙げられる。この問題は、semantics・言語情報・メディアの相互の対応関係から考えると、自動メディアアノテーションの双対問題として捉えることができると共に、自動メディアアノテーション同様、パターン認識分野における重要課題の1つである。しかし、この問題もまだ本質的な解決には至っていない。また、この数年で、これら2つの双対問題を統一的な枠組で記述するメディアアノテーションリトリーバルについても盛んに研究されている。本発明は、機械学習的なアプローチに基づいてメディア（特に、音響信号）へのアノテーションの問題に関する。

機械学習的なアプローチにおける最重要課題の1つとして、良質な学習データをどれだけ数多く集められるか、という点が挙げられる。FlickrやLast.fmなど、近年著しい発展を遂げているメディア共有サイトを介して大量のラベル付メディアを取得できる環境が整いつつあるが、これらのサイトから収集したラベルの信頼性は必ずしも高くない。その一方で、信頼性の高いラベルが付与された大量のメディアを集めるもしくは作成することは多大な労力を伴う。これらの議論から、信頼性の高いラベルが付与された少数のメディアと、ラベルの信頼性に乏しい大量のメディアとを併用した機械学習手法が重要な役割を果たす。特に、信頼性が乏しいラベルを廃棄してラベルなしデータとして扱う半教師付学習に焦点を当てる。

従来、メディアとラベルとの共起関係を考慮した潜在変数空間を設計し、潜在変数空間内での隣接関係がラベルの類似性を強く反映させることで、半教師付学習を適用できる性質を学習データに与えた研究が知られている（例えば、非特許文献１、非特許文献２）。

木村昭悟、杉山将、中野拓帆、亀岡弘和、坂野鋭、"SSCDE：画像認識検索のための半教師正準密度推定法、"画像の認識・理解シンポジウム予稿集，2010年． J. Takagi, Y. Ohishi, A. Kimura, M. Sugiyama, M. Yamada, and H. Kameoka, " Automatic audio tag classification via semi-supervised canonical density estimation, "in Proc. ICASSP, pp.2232−2235, 2011年.

非特許文献１、２に示される従来研究では、アノテーションのために用いる分類器を事例ベースで設計しているため、非常に大規模な学習データを用意しなければ十分なアノテーション精度が得られない、という問題がある。

本発明は、上記の問題を解決するためになされたものである。その目的は、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができるメディアデータ解析装置、方法、及びプログラムを提供することにある。

上記の目的を達成するために本発明に係るメディアデータ解析装置は、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置であって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段と、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段と、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段と、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段と、入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段と、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段と、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段とを含んで構成されている。

本発明に係るメディアデータ解析方法は、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置におけるメディアデータ解析方法であって、学習用データ特徴抽出手段によって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出し、次元削減空間学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、次元削減特徴生成手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成し、分類モデル学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習し、入力データ特徴抽出手段によって、入力されたコンテンツデータから、前記特徴ベクトルを抽出し、特徴次元削減手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成し、分類手段によって、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する。

本発明に係るプログラムは、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するためのプログラムであって、コンピュータを、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段、入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段、及び前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段として機能させるためのプログラムである。

以上説明したように、本発明のメディアデータ解析装置、方法、及びプログラムによれば、タグ付き学習データ集合及びタグなし学習データ集合の各コンテンツデータについて抽出された特徴べクトルに基づいて、特徴ベクトルの次元数を削減するための写像を表わす行列を学習して、タグ付き学習データ集合の各コンテンツデータの特徴ベクトルに対して次元を削減した特徴ベクトルを用いて、事後確率推定に基づく分類モデルを学習し、入力されたコンテンツデータの特徴ベクトルに対して次元を削減した特徴ベクトルについて、学習された分類モデルに基づくタグ情報の分類を行うことにより、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができる、という効果が得られる。

（ａ）タグベクトルの作成を説明するための図、及び（ｂ）分類器の学習を説明するための図である。関数値q_i(a|x;α)の計算方法を説明するための図である。基底関数ベクトルφ(x,0)同士の乗算方法を説明するための図である。半教師学習の枠組み内での分類器の学習方法を説明するための図である。本発明の第１の実施の形態に係るメディアデータ解析装置の一構成例を示すブロック図である。特徴ベクトルを抽出する方法を説明するための図である。本発明の第１の実施の形態に係るメディアデータ解析装置における分類器学習処理ルーチンの内容を示すフローチャートである。本発明の第１の実施の形態に係るメディアデータ解析装置におけるタグ付与処理ルーチンの内容を示すフローチャートである。本発明の第２の実施の形態に係るメディアデータ解析装置の一構成例を示すブロック図である。ＲＯＣ曲線とＡＵＣを示す図である。（ａ)メディアアノテーションを説明するための図、及び（ｂ)メディア検索を説明するための図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

まず、コンテンツデータにタグベクトルを付与する原理について説明する。

＜概要＞
識別学習に基づくアプローチで教師付・半教師付分類器を設計することで、十分な規模の学習データが得られない状況でも高い精度を確保できるアプローチを取る。特に、分類器としてサポートベクターマシン(SVM)、最小二乗確率的分類器(LSPC)、ラプラシアンSVM を用いて、この分類器をメディアとラベルとの共起関係を考慮した潜在変数空間の上で駆動することにより、精度の高いアノテーションを可能にする。

＜教師付き学習に基づく自動タグ付け手法＞
＜問題の定式化＞
メディアデータへの自動タグ付けは、例えばメディアデータとして音響信号を考える場合、クエリとなる音素材s_qが入力された時、あらかじめ選定されたタグの種類の集合V={v₁,v₂,...,v_|V|}から、音素材s_qを説明する適切なタグを選んで付与するという問題である。ここで、s_qはフィールドレコーディングで録音された音源や効果音などの音響信号であり、それぞれのタグv_iは「鳥の声」、「雨」、「車」などのその音素材に含まれる音や、「森林」、「街」などの音素材全体を表す単語、あるいはループミュージック用の素材や効果音であれば「ループミュージック」や「効果音」などの用途を表す単語などである。入力s_qに対する出力は、タグの種類数|V|と等しい数の次元数を持つベクトルy_qで表す。すなわち、i番目のタグv_iを付与する場合には、ベクトルy_qのi番目の要素の値y_q,iを1とし、付与しない場合には0とする。以下では、このようなタグの情報を表すベクトルをタグベクトルと呼ぶ。メディアデータ（上記の説明では音素材）s_qから抽出される特徴ベクトルをx_qで表すと、上記の問題はx_qを入力として、適切なタグベクトルy_qを出力する関数f′(・)を求める問題として表すことができる。

f(・)は決定関数と呼ばれ、入力ベクトルx_qについて、各タグを付与すべきかどうかを決定する基準となるスコアを計算し、それをタグの種類数|V|と等しい数の次元数を持つ実数ベクトルとして出力する。また、g(・)は識別関数と呼ばれ、決定関数f(・)で得られた実数ベクトルから、タグの種類数|V|と等しい数の次元数を持つ2値ベクトルy_qを出力する。一般に、このような多次元の出力を行う関数を一度に求めようとすると問題が複雑になる。そのため、本発明ではこの出力の各次元を互いに独立であると仮定することで問題を簡単化する。すなわち、図１のように、タグを付与するかしないかの決定はタグ毎に行い、それらを全てまとめて、タグベクトルy_qを作成する。したがって、関数f′(・)は、タグごとの出力を決定する|V|個の関数f′_i(・)を使って下記のように表現できる。

ただし、Ｘ^Ｔは、ベクトルまたは行列Ｘの転置を表わす。

つまり、この問題は2値の出力を行う関数f′_i(・)を求める|V|個の問題の集合に分割される。個々の問題は入力x_qが与えられた時に、タグv_iを付与するかしないかを求める問題であるから、2値分類問題の枠組みで解くことができる。すなわち、タグv_iが付与されるクラスと、付与されないクラスのいずれかのクラスにx_qを分類する問題を解けばよい。本発明では、機械学習に基づく分類手法を用いてこの2値分類問題を解く。

機械学習に基づく分類手法の1つの例として、入力x_qに対して、まず分類を行う基準となる何らかのスコアを計算し、そのスコアと前もって定められた閾値を比較して分類を行う方法がある。すなわち、スコアを計算する関数f_i(・)に関する閾値をθ_iで表したとき、分類を行う関数f′_i(・)は

と表される。スコアを計算する関数f_i(・)は一般に決定関数と呼ばれる。教師付き学習に基づく分類手法では、あらかじめどちらのクラスに属するか分かっている学習用のデータを用いて決定関数f_i(・)を求める。つまり、学習用の音響信号データ（メディアデータ）に、タグ付けが行われているものとする。以下では、この学習用の音素材（メディアデータ）を

で表し、タグ付き訓練標本、あるいは単にタグ付き標本と呼ぶ。また、N_T:=|D^(T)|はタグ付き訓練標本の数を表す。i番目のタグに対する分類器の学習の際には、全てのタグの情報

が用いられることはなく、i番目のタグが付与されているかどうかを表す情報

のみを用いる。

＜教師付き次元削減手法＞
タグごとに分類器を学習する場合、そのタグがメディアデータに付与されるか否かという情報しか使えない。実際は、異なるタグの間には相関があり、例えば「雨」というタグであれば「嵐」や「風」、「雷」などのタグと同時に付与されることが多いが、「シンセサイザー」や「ループミュージック」といったようなタグと同時に付与されることはあまりない。このようなタグの共起情報を用いれば、よりタグ付けの精度を向上させられる可能性がある。タグの共起情報はタグを個別にではなく、一度に扱うようにすれば利用することができるが、全てのタグを付与するか否かを一度に出力する関数を学習しようとすると問題が複雑になる。そこで、本発明では、全てのタグを一度に扱える次元削減手法、正準相関分析（CCA:Canonical Correlation Analysis、文献：H. Hotelling, “ Analysis of complex of statistical variables into principal components ”, J. Educ. Psych., Vol.24, 1933.）を用いることで、タグの共起情報を利用する。

CCAは2つの確率変数の組が与えられたとき、その相関を最大化させる写像を求める手法である。今回扱っている問題においては、二つの確率変数は特徴ベクトルとタグベクトルに対応するため、それらを写像した先の（w^CCA _x）^Txと（w^CCA _ｙ）^Tyの相関を最大化するような写像w^CCA _x、w^CCA _yを求めることになる。ここで、w^CCA _xは特徴ベクトルと等しいdim_x次元、w^CCA _yはタグベクトルに等しいdim_y:=|V|次元のベクトルである。（w^CCA _x）^Txと（w^CCA _ｙ）^Tyの相関ρは次のように与えられる。

ただし、S_xx=Σ^NT _j=1x_jx^T _j、S_yy=Σ^NT _j=1y_jy^T _jはそれぞれ音響特徴ベクトルとタグベクトルの自己分散、S_xy=Σ^NT _j=1x_jy^T _jは音響特徴ベクトルとタグベクトルの共分散である。また、ｘやｙの平均ベクトルを０ベクトルと仮定する。そうでない場合にはあらかじめ平均ベクトルを各ベクトルから引き算することにより平均ベクトルを０にしておく。ρの値は写像w^CCA _x、w^CCA _yのスケールによらないため、適切にスケーリングすることで、ρの最大化問題は、

となる。これをさらにLagrangeの双対形に直し、w^CCA _xとw^CCA _yで偏微分した値を0と置くと、最大の相関を与える写像は下記の一般化固有値問題の解と等しくなる。

ただし、S_yx=S^T _xyである。

この固有値問題は、min(dim_x,dim_y)×2個の固有ベクトルを解として得ることができる。ただし、それらが全て相関を最大化させる写像として使えるわけではない。固有ベクトルの一つを(w^CCA(1) _x,w^CCA(1) _y)とすると、w^CCA(1) _xを−w^CCA(1) _xに置き換えたベクトル(−w^CCA(1) _x, w^CCA(1) _y)もまた固有ベクトルとなることは、式(8)から簡単に示される。この二対の固有ベクトルは絶対値が等しい正と負の固有値を持ち、正の固有値は正の相関を最大化する写像、負の固有値は負の相関を最大化する写像である。したがって、次元削減に用いることができるのは正の固有値を持つ固有ベクトルに対応するmin(dim_x,dim_y)個の写像のみとなる。CCAの解として得られた写像を大きい固有値を持つ固有ベクトルに対応するものから並べた行列をU=(w^CCA(1) _x,...,w^{CCA(min(dimx,dimy))} _x)と置く。この行列を下記のように変換行列として用いれば、次元削減を行うことができる。

ここで、次元削減後のベクトルを音響特徴ベクトルx′_jとし、その次元数はmin(dim_x,dim_y)となる。

＜教師付き学習に基づく分類器＞
メディアデータの自動タグ付けに適用する教師付き学習に基づく分類手法を説明する。一つ目の手法は、サポートベクターマシン(SVM:Support Vector Machine)である。SVMは音楽のジャンル分類や曲調認識などの問題に対しても適用され、良い成果を上げている。二つ目の手法は、確率的分類器である最小二乗確率的分類器（LSPC:Least-Squares Probabilistic Classifier、文献：M. Sugiyama,“Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”,in IEICE Transactions on Information and Systems,Vol.E93-D, pp.2690-2701, 2010. Revised on June 26, 2011.）を用いる。LSPCは近年提案された確率的分類手法であり、学習を行う際に解が解析的に求められるため、高速に学習を行うことができ分類精度も良い。

＜サポートベクターマシン(SVM)＞
SVMはマージンという概念を用いて決定関数を学習させる２値分類手法である。マージンとは、正のクラス(y_j,i=1)と負のクラス(y_j,i=0)を分ける超平面から、最も近い正例の訓練標本あるいは負例の訓練標本までの特徴空間における距離である。SVMはこのマージンの幅を最大化させるように決定関数の学習を行う。

SVMは決定関数として下記のような線形モデルを用いる。

ただし、ここでφ_SVM(・)は何らかの特徴空間への写像である。なお、マージンを最大化するu_SVMはu_SVM=Σ^NT _j=1α_jφ_SVM(x_j)という形で与えられることが知られているため、上記の決定関数は

と具体的に記述できる。ここで、φ_SVM(・)に対応するカーネル関数κ(・)を用いた。SVMはクラス分類の際の閾値はθ_i=0に定められているため、決定境界はf^SVM _i(x)=0によって表される超平面となる。したがって、決定関数から訓練標本x_jまでの距離は|f^SVM _i(x_j)|／||u_SVM||で計算できる（||u||はユークリッドノルムを表わす）。さらに全ての訓練標本を正しく分類する決定関数ではy_j,i=0のとき、f^SVM _i<0、y_j,i=1のとき、f^SVM _i>0となるので、全ての訓練標本x_jに対して(2y_j,i−1)f^SVM _i(x_j)>0が成り立つ。よってマージンの幅は

となる。この値はu_SVMのスケールには依存しないので、(2y_j,i−1)f^SVM _i(x_j)の最小値が1になるようにu_SVMのスケーリングを行うと、マージンの幅の最大化は1／||u_SVM||の最大化、すなわち||u_SVM||²を最小化することと等価になる。ただし、一般の分類問題は特徴空間での2つのクラスの間に重なりがあり、全ての正例と負例を完全に分ける決定境界を求めることはできないか、求めることができたとしても決定境界が複雑になりすぎて、分類器の汎化性能が低下する可能性がある。したがって、マージン境界はf^SVM _i(x)=±1となる2つの超平面に定め、(2y_j,i−1)f^SVM _i(x_j)<1となる訓練標本、すなわちマージンの内側あるいは決定境界の誤った側に存在する訓練標本に対してはペナルティを課すことで、誤分類を許すようにすることが一般的である。この場合のSVMはソフトマージンSVMと呼ばれる。ペナルティとして正しい側のマージン境界からの距離に等しいHinge損失ξ_j=max{0,1−(2y_j,i−1)f^SVM _i(x_j)}を用いる。ペナルティの項を加えたソフトマージンSVMの最適化問題は下記のようになる。

ただし、Cはマージンの大きさとペナルティの比重を決めるハイパーパラメータである。

この最適化問題はLagrangeの双対形で表した後、u_SVMとbでそれぞれ偏微分した結果を0と置くと、最終的に下記の最適化問題を得ることができる。

ここで、β_j:=(2y_j,i −1)α_jは決定関数を定めるパラメータであり、e_NTは全ての要素の値が1のN_T次元ベクトル、行列K^(T)はK^(T) _j,l:=κ(x_j,x_l)によって定義される(N_T×N_T)次元のGram行列、行列Yは対角成分がY_j,j:=2y_j,i−1によって定められる(N_T×N_T)次元の対角行列である。

SVMの最適化問題である式(14)は解析解を求めることができないため、2次計画法を用いて最適化を行う。最適解β^*=(β^* ₁,...,β^* _NT)^Tが求められれば、そこからα^* _j:=(2y_j,i−1)β^* _jとして決定関数のパラメータを求めることができ、式(11)を用いて決定関数の計算が行えるようになる。

＜最小二乗確率的分類器(LSPC)＞
LSPCは事後確率推定に基づく分類器であり、下記の線形モデルを用いて事後確率推定する。

ここで、φ_j,a′(・)はdimxを特徴ベクトルxの次元としたとき、すべての可能な入力(x,a)∈Ｒ^dimx×{0,1}に対してφ_j,a′(x,a)≧0を満たす基底関数であり、

はすべての基底関数をベクトル表現にしたもの、

は学習すべきパラメータである。なお、LSPCは多クラスの分類問題を扱うことのできる手法であるが、ここではクラスをa=0,1の2クラスとする。以下では基底関数として、文献：M.Sugiyama, “ Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”, in IEICE Transactions on Information and Systems, Vol.E93-D, pp.2690-2701, 2010. Revised on June 26, 2011. において用いられる下記のカーネルモデルを考える。

ただし、δ(・)は下記により与えられるクロネッカーのデルタである。

LSPCは下記の式から計算される、真のクラス事後確率と推定されたクラス事後確率の二乗誤差を最小化するようにパラメータαを決定する。

ただし、(2N_T×2N_T)次元行列Hと2N_T次元ベクトルhは下記により定義される。

この行列Hとhには未知の確率密度関数p(x)とp(x, y)が含まれるため、下記のように訓練標本を用いて近似される。

この近似した行列^Hと^hを用いて二乗誤差J(α)を近似したものに、さらに正規化項λα^Tαを加えた下記の式がLSPCの目的関数となる。

ただし、λは正規化項の大きさを決めるハイパーパラメータである。

この目的関数の最適解は、

となる。ここで、I_2NTは(2N_T×2N_T)次元の単位行列である。

基底関数に式(18)で表されるカーネルモデルを用いる場合、基底関数のベクトルφ(x, a)を上半分と下半分に分割すると、クラスの値aに対応する方は非ゼロ、もう一方はゼロベクトルとなる。このとき、関数値q_i(a|x;α)の計算は、パラメータαをα(0)とα(1)の等しい要素数の2つのベクトルに分割したとき、図２のように対応するクラスに対するパラメータα(a)のみを用いて計算される。

さらに、行列Hに用いられる基底関数ベクトルφ(x,0)同士の乗算の結果は、図３のように四分割した左上以外のブロックがすべてゼロ行列であるような(2N_T×2N_T)行列となる。

クラスの値の入力を1にした基底関数ベクトルφ(x,1)同士の乗算では、非ゼロのブロックが左上から右下に変わるだけなので、これらの総和で計算される行列＾Hは下記のようなブロック対角行列となる。

ここで、行列~Hは下記より定義される(N_T×N_T)次元行列である。

したがって、＾h^(a)を下記より定義されるN_T次元ベクトル

とすると、各クラスに対応するパラメータα^(a)の最適解は下記のようなクラス毎の最適化問題から個別に解くことができる。

ここで、I_NTは(N_T×N_T)次元単位行列である。

関数q_i(a|x;α)の最適化は式(30)を全てのクラスa∈{0,1}に対して解くことによって行うことができる。ただし、この関数の出力値をそのまま事後確率の推定値として使うことはできない。なぜならば、事後確率が負の値をとることはないが、関数q_i(a|x;α)の出力は負の値を取りうるからである。そのため、出力値が負の値となってしまった場合にはその値を0に補正する必要がある。また、関数q_i(a|x;α)の出力は、全てのクラスに対する事後確率の総和が常に1になるという性質も満たしていない。そこで、LSPCは最後にすべてのクラスに対して推定した関数q_i(a|x;α)の値の総和が1になるように正規化を行い、クラス事後確率の推定値がこの性質を満たすように調整する。結局、LSPCを用いて分類を行う際の決定関数f^LSPC _i(x)=~P(y_*,i=1|x)は下記のような式により計算される。

＜半教師付き学習に基づく自動タグ付け手法＞
＜問題の定式化＞
タグが付いていないメディアデータであれば容易に集めてくることができるが、教師付き学習の枠組みの中ではこれらの訓練標本を学習に用いることはできない。半教師付き学習に基づく手法を用いることで、タグ付き訓練標本とタグなし訓練標本の両方を学習に使った分類器の作成方法を説明する。

半教師付き学習を用いる際のメディアデータの自動タグ付け問題は、前章の定式化とほぼ同じ枠組みの中で扱うことができる。すなわち、特徴ベクトルの入力xに対するタグベクトルの出力yは式(2)のように各タグを個別に扱って決定する。また、個別のタグに対して、それを付与するか否かの決定は式(5)のように、実数値の出力を行う決定関数f_i(・)の出力を用いて行う。教師付き学習と異なる点は、決定関数f_i(・)の学習をタグ付きの訓練標本D(T)に加え、タグなし訓練標本も用いて行う。このような拡張により、上記図１の学習の部分は、図４のように変更される。以下では、タグなし訓練標本を

、その数をN_U:=|D^(U)|とする。また、タグ付きとタグなしの訓練標本を合わせた訓練標本の総数はN:=N_T+N_Uを用いて表す。

＜半教師付き次元削減手法SemiCCA＞
教師付きの次元削減手法として、タグ間の相関を扱うCCAについて述べたが、CCAで次元削減を行うと過学習が起きてしまって分類性能が低下してしまうことが分かっている。タグなし訓練標本を用いてこのような過学習を防ぐ、半教師付きの次元削減手法SemiCCA（文献：A.Kimura, H.Kameoka, M. Sugiyama, T. Nakano, E. Maeda, H. Sakano, K. Ishiguro,“ SemiCCA: Efficient semi-supervised learning of canonical correlations ”, in International Conference on Pattern Recognition(ICPR), pp. 2933-2936, Istanbul, Turkey, 2010.）を説明する。SemiCCAは、近年提案されたCCAに基づく半教師付きの次元削減手法である。SemiCCAは、主成分分析(PCA: Principal Component Analysis)をCCAに組み合わせることで、タグ付きとタグなしの全訓練標本の主成分に基づく補正を行い、過学習を防ぐ。特徴ベクトル、およびタグベクトルの主成分軸への写像をそれぞれw^PCA _x 、w^PCA _yとおくと、これらPCAの解は以下の固有値問題を解くことにより求めることができる。

ここで、S′_xx:=Σ^N _j=1x_jx_Tjはタグ付きとタグなしの全ての学習用特徴ベクトルの自己分散行列である。

SemiCCAでは式(8)にPCAの固有値問題である式(32)と式(33)を組み合わせた、下記の一般化固有値問題を解くことによって次元削減に用いる写像を得る。

ここで、DおよびEは以下の式により定義される行列であり、ηはCCAとPCAの重みを決めるパラメータである。

SemiCCAの一般化固有値問題はη=1のとき、CCAの一般化固有値問題と一致し、η=0のときにPCAの固有値問題と一致する。SemiCCAで次元削減を行う際に用いる写像は、CCAの解の個数に等しいmin(dim_x, dim_y)個の最も大きな固有値に対応する固有ベクトルである。これらの固有ベクトルを並べてU_Semiとすると、次元削減後の特徴ベクトルx′_jは、以下の式(37)のように求めることができる。

_＜半教師付き学習に基づく分類器＞
SVMを半教師化した分類手法はいくつか存在するが、本発明では、その中でも良く知られたLaplacian-SVM（文献：M. Belkin, P. Niyogi, and V. Sindhwani,“ On Manifold Regularization”,in Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics (AISTATS), Barbados, January 2005.）を用いる。Laplacian-SVMはLaplacian正規化によって半教師化を行ったSVMである。この半教師化の方法は、目的関数に対して関数をより滑らかにするLaplacian 正規化項と呼ばれる項を加える半教師化の手法である。

＜Laplacian-SVM＞
Laplacian正規化はタグ付きとタグなしの訓練標本を用いて決定関数を滑らかにする半教師化の手法である。半教師化に伴って具体的に行う操作は、分類器の決定関数のパラメータを決める際に解く最適化問題の目的関数に、関数の滑らかさに基づくペナルティの項を加えることである。決定関数f^LapSVM _iの滑らかさは下記に示すS_LapSVMで表すことができ、この値が0に近づくほど関数は滑らかとなる。

ただし、W_j,lは標本x_jとx_lの距離に基づいて定められる重みであり、

は全ての訓練標本に対する決定関数の出力値をベクトル表記したものである。また、LはGraph Laplacianと呼ばれる行列で、先ほどの重みW_j,lを行列表記にしたものをWとし、(N×N)次元行列DをD_j,j:=Σ_lW_j,lによって定義される対角行列とした時、L:=D−Wと定義される。式(38)は全ての訓練標本の対に対する決定関数の出力値の差の二乗を、重み付きで足し合わせた形となっている。したがって重みW_j,lを距離の近い標本の対に対しては大きな値、距離の遠い標本対に対しては小さな値となるようにすると、距離の近い標本に対する決定関数の出力値が近く滑らかな関数ほど、S_LapSVMの値が小さくなると言える。式(38) において注意すべきは、この計算にはタグ付き訓練標本だけでなく、タグなし訓練標本も使われていることである。

Laplacian-SVMでは、S_lapSVMの値が小さくなるように決定関数の学習を行うため、SVMの目的関数の式(13)にこの値を加えたうえで最適化を行う。すなわち

がLaplacian-SVMの目的関数となる。ここで、γはLaplacian正規化項の大きさを決めるハイパーパラメータである。このように目的関数を変更したことによって、最適となる決定関数のカーネルを用いた表現は式(11)のような形ではなく、タグ無し訓練標本の上にもカーネルを置いた関数

で表されることになる。

さらに、SVMと同様の操作をおこなって式(40)を変形すると、下記の目的関数が得られる。

ただし、(N×N)次元行列Kはタグ付きとタグ無しの全訓練標本のGram行列、(N_T×N)次元行列Bはすべてのj∈{1,...,N_T}に対してB_j,j=1であり、その他の要素が全て0となるような行列である。この解であるN次元ベクトルβ^Lap*を用いると、決定関数f^LapSVM _i(・)のパラメータα^*=(α^* ₁,...,α^* _N)^Tは下記のように計算される。

なお、式(42)の最適化問題はSVMの最適化問題である式(14)と同様に解析解を求めることができないため、α^*の計算に用いるベクトルβ^Lap*は2次計画法などを用いて求める必要がある。

〔第１の実施の形態〕
＜システム構成＞
図５は、本発明の第１の実施の形態に係るメディアデータ解析装置１００を示すブロック図である。メディアデータ解析装置１００は、メディアデータを説明する情報であるタグ情報が予め付与されたメディアデータの集合であるタグ付き学習用データ集合、及びタグ情報が与えられていないメディアデータの集合であるタグなし学習用データ集合を入力し、メディアデータに付与するタグ情報を分類するための分類器を学習すると共に、タグ情報が与えられていないメディアデータを入力し、メディアデータに付与するタグ情報を出力する装置であり、具体的にはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、ＲＡＭと、後述する分類器学習処理ルーチン及びタグ付与処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

メディアデータ解析装置１００は、入力部１０、演算部２０、及びタグベクトル出力部３０を備えている。

入力部１０は、メディアデータを説明する情報であるタグ情報が予め付与されたメディアデータの集合であるタグ付き学習用データ集合、及びタグ情報が与えられていないメディアデータの集合であるタグなし学習用データ集合の入力を受け付けると共に、タグ情報が与えられていないメディアデータの入力を受け付ける。

演算部２０は、学習用データベース１、学習用データ特徴抽出部２、次元削減空間学習部３、分類器学習部４、入力データ特徴抽出部５、特徴次元削減部６、及び分類器評価部７を備えている。分類器学習部４は、分類モデル学習手段の一例であり、分類器評価部７は、分類手段の一例である。

学習用データベース１は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースであり、入力されたタグ付き学習用データ集合、及びタグなし学習用データ集合を記憶する。

学習用データ特徴抽出部２は、学習用データのメディアデータから特徴ベクトルを算出する。以降の説明では、簡単のため、メディアデータの例として音響信号を採用した場合に限定して説明する。特徴抽出の方法を適切に変更することにより、音響信号以外のメディアデータ、例えば、画像信号、映像信号、テキスト、マイクロブログなどにも幅広く適用可能である。音響信号と対象とした場合、具体的には、音響信号をフレーム分析して、各フレームからメル周波数ケプストラム係数（MFCC:Mel-Frequency Cepstrum Coefficients、文献：P. Mermelstein“ DistanceMeasure for Speech Recognition, Psychological and Instrumental ”, in Pattern Recognitionand Artificial Intelligence, pp. 374-388, June 1976.）を算出する。MFCCは、人間の聴覚特性を考慮に入れた音響特徴量であり、音楽情報検索分野で標準的に用いられる。さらに音素材の音響信号は時間的に変化するため、動的特徴量としてMFCCの時間微分の近似値であるΔMFCCと、二次微分量の近似値であるΔMFCCを算出する。次に、このようにフレームごとに算出されるMFCC、ΔMFCC、ΔΔMFCCからなる局所特徴量を集めて、bag-of-features特徴量を作成し、これを特徴ベクトル（音響特徴ベクトル）とする。bag-of-features特徴量を作成するためには、まず全ての音素材から抽出した局所特徴量を集めて、LBGアルゴリズムによりコードブックを作成する（図６）。そして、一つの音素材から抽出した全ての局所特徴量を、コードブックを用いてベクトル量子化して、そのヒストグラムを作成する。これを正規化したものがbag-of-featuresであり、特徴ベクトルとして利用する。bag-of-features特徴量は画像の分野で標準的に用いられるほか、曲調認識の分野でもしばしば用いられている。一方、音素材に付与されたタグの扱いとして、i番目のタグv_iを付与する場合には、ベクトルy_jのi番目の要素の値y_j,iを1とし、付与しない場合には0とし、タグベクトルを作成する。

次元削減空間学習部３は、タグ付けされていないメディアデータを含む学習用データの各メディアデータから算出された特徴ベクトルx_jを用いて、上記の式(34)の一般化固有値問題を解いて、変換行列U_Semiを構成し、上記の式(37)によって、学習用データの各メディアデータについて、特徴ベクトルx′_jを作成する。

分類器学習部４は、タグごとにLSPCによる分類器を作成する。ここでは学習用データベース１において、タグ付けされたメディアデータを利用して分類器を学習する。具体的には、タグごとに、学習用データのタグ付けされた各メディアデータについて作成した特徴ベクトルx′_jに基づいて、上記の式(30)のα^(a)*を全てのクラスa∈{0,1}に対して算出する。カーネル関数は

となるガウスカーネルを用いる。

入力データ特徴抽出部５は、学習用データ特徴抽出部２と同様に、入力のメディアデータから特徴ベクトルx_qを作成する。

特徴次元削減部６は、次元削減空間学習部３で作成された変換行列U_Semiを用いて、入力である特徴ベクトルx_qを次元削減してx′_qを作成する。

分類器評価部７は、分類器学習部４でタグ毎に作成された、LSPCのパラメータαを用いて、タグ毎に、上記の式(31)の決定関数を計算する。これが0.5よりも大きければ、i番目のタグv_iを付与する。これをI個のLSPC分類器全てに対して行い、タグベクトルy_qのi番目の要素に0もしくは1を入力する。

生成されたタグベクトルy_qをタグベクトル出力部８により出力する。

＜メディアデータ解析装置の作用＞
次に、本実施の形態に係るメディアデータ解析装置１００の作用について説明する。まず、タグベクトルが与えられたタグ付き学習用データ集合、及びタグベクトルが与えられていないタグなし学習用データ集合が、メディアデータ解析装置１００に入力されると、メディアデータ解析装置１００によって、入力されたタグ付き学習用データ集合及びタグなし学習用データ集合が、学習用データベース１へ格納される。そして、メディアデータ解析装置１００によって、図７に示す分類器学習処理ルーチンが実行される。

まず、ステップＳ１０１において、タグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データから、特徴ベクトルを抽出すると共に、タグ付き学習用データ集合の各学習用データについてタグベクトルを作成する。そして、ステップＳ１０２において、上記ステップＳ１０１で抽出されたタグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの特徴ベクトルに基づいて、上記の式（３４）を解いて、変換行列Ｕ_semiを構成する。

そして、ステップＳ１０３において、上記ステップＳ１０１で抽出されたタグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの特徴ベクトルに対して、上記ステップＳ１０２で構成した変換行列Ｕ_semiを作用させて、タグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの、次元削減後の特徴ベクトルを作成する。

次のステップＳ１０４では、上記ステップＳ１０３で作成したタグ付き学習用データ集合の各学習用データの、次元削減後の特徴ベクトルに基づいて、タグ毎に、ＬＳＰＣによる分類器を学習し、上記の式（３０）のα^(a)*を求め、分類器学習処理ルーチンを終了する。

また、タグなしの音響信号が、メディアデータ解析装置１００に入力されると、メディアデータ解析装置１００によって、図８に示すタグ付与処理ルーチンが実行される。

ステップＳ１１１において、入力されたメディアデータを受け付け、ステップＳ１１２において、入力されたメディアデータから、特徴ベクトルを抽出する。

次のステップＳ１１３では、上記ステップＳ１１２で抽出された特徴ベクトルに対して、上記の分類器学習処理ルーチンで作成された変換行列Ｕ_semiを作用させて、次元削減後の特徴ベクトルを作成する。

そして、ステップＳ１１４において、タグ毎に、当該タグについて求めたα^(a)*と、上記ステップＳ１１３で作成した次元削減後の特徴ベクトルとに基づいて、上記の式（３１）の決定関数を計算する。ステップＳ１１５では、タグ毎に、上記ステップＳ１１４で計算した決定関数の値が、0.5よりも大きいか否かにより、当該タグを付与してタグベクトルを生成し、タグベクトル出力部３０により出力し、タグ付与処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係るメディアデータ解析装置によれば、タグ付き学習用データ集合及びタグなし学習用データ集合の各メディアデータについて抽出された特徴べクトルに基づいて、特徴ベクトルの次元数を削減するための写像を表わす行列を学習して、タグ付き学習用データ集合の各メディアデータの特徴ベクトルに対して次元を削減した特徴ベクトルを作成し、事後確率推定に基づく分類器を学習する。入力されたメディアデータの特徴ベクトルに対して次元を削減した特徴ベクトルを作成し、学習された分類器に基づいて、タグベクトルのタグ毎に、当該タグを付与するか否かの分類を行う。これによって、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができる。

〔第２の実施の形態〕
＜システム構成＞
次に、本発明の第２の実施の形態について説明する。なお、第２の実施の形態に係るメディアデータ解析装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第２の実施の形態では、タグ付き学習用データのみから、次元削減のための変換行列を学習している点と、ＳＶＭによる分類器を用いて、タグを付与している点とが、第１の実施の形態と異なっている。

第２の実施の形態に係るメディアデータ解析装置の学習用データベース１は、タグ付けされたメディアデータが蓄積されたデータベースであり、入力されたタグ付き学習用データ集合を記憶する。

学習用データ特徴抽出部２は、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグベクトルを作成する。

次元削減空間学習部３は、学習用データの各メディアデータから算出された特徴ベクトルx_jを用いて、上記の式(8)の一般化固有値問題を解いて、変換行列Uを構成し、上記式(9)によって、特徴ベクトルx′_jを作成する。

分類器学習部４は、タグごとにSVMによる分類器を作成する。具体的には、2次計画法を利用して、SVMの最適化問題である式(14)の最適解β^*=(β^* ₁,...,β^* _NT)^Tを求める。カーネル関数は、

となるガウスカーネルを用いる。

入力データ特徴抽出部５は、上記の第１の実施の形態と同様に、入力のメディアデータ（例えば、音響信号）をフレーム分析して、各フレームからMFCC、ΔMFCC、ΔMFCCを算出する。そして、学習用データ特徴抽出部２で作成したコードブックを利用して、MFCC、ΔMFCC、ΔΔMFCCの特徴量をベクトル量子化して特徴ベクトルx_qを作成する。特徴次元削減部６は、次元削減空間学習部３で作成された変換行列U を用いて、入力である特徴ベクトルx_qを次元削減してx′_qを作成する。

分類器評価部７は、分類器学習部４で作成された、SVMの最適解β^*を用いて、α^* _j:=(2y_j,i−1)β^* _jを計算し、入力特徴ベクトルx′_qに対する、上記の式(11)の決定関数を計算する。すなわち、i番目のタグv_iを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルy_qのi番目の要素に0もしくは1を入力し、タグベクトルy_qを生成する。

なお、第２の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

〔第３の実施の形態〕
＜システム構成＞
次に、本発明の第３の実施の形態について説明する。なお、第３の実施の形態に係るメディアデータ解析装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第３の実施の形態では、LSPCによる分類器を用いて、タグベクトルを付与している点が、第２の実施の形態と異なっている。

第３の実施の形態に係るメディアデータ解析装置の学習用データベース１は、上記の第２の実施の形態と同様に、タグ付けされたメディアデータが蓄積されるデータベースである。

学習用データ特徴抽出部２は、上記の第２の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグベクトルを作成する。次元削減空間学習部３は、上記の第２の実施の形態と同様に、上記の式(8) の一般化固有値問題を解いて、変換行列Uを構成し、上記の式(9)によって、特徴ベクトルx′_jを作成する。

分類器学習部４は、タグごとにLSPCによる分類器を作成する。具体的には、タグごとに、上記の式(30)のα^(a)*を全てのクラスa∈{0,1}に対して算出する。カーネル関数は

となるガウスカーネルを用いる。

入力データ特徴抽出部５は、上記の第１の実施の形態と同様に、入力のメディアデータから特徴ベクトルx_qを作成する。

特徴次元削減部６は、次元削減空間学習部３で作成された変換行列Uを用いて、入力である特徴ベクトルx_qを次元削減してx′_qを作成する。

分類器評価部７は、分類器学習部４でタグごとに作成された、LSPCのパラメータαを用いて、タグごとに、上記の式(31)の決定関数を計算する。これが0.5よりも大きければ、i番目のタグv_iを付与する。これをI個のLSPC分類器全てに対して行い、タグベクトルy_qのi番目の要素に0もしくは1を入力し、タグベクトルy_qを生成する。

なお、第３の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

〔第４の実施の形態〕
＜システム構成＞
次に、本発明の第４の実施の形態について説明する。なお、第４の実施の形態に係るメディアデータ解析装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第４の実施の形態では、Laplacian-SVMによる分類器を用いて、タグベクトルを付与している点が、第２の実施の形態と異なっている。

第４の実施の形態に係るメディアデータ解析装置の学習用データベース１は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。

分類器学習部４は、タグごとにLaplacian-SVMによる分類器を作成する。具体的には、2次計画法を利用して、Laplacian-SVMの最適化問題である式(42)の最適解β^Lap*を求める。カーネル関数は、

となるガウスカーネルを用いる。

分類器評価部７は、分類器学習部４でタグごとに作成された、Laplacian-SVMの最適解β^Lap*を用いて、式(43)のα^*を計算し、タグごとに、入力特徴ベクトルx′_qに対する、式(41)の決定関数を計算する。すなわち、i番目のタグv_iを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルy_qのi番目の要素に0もしくは1を入力し、タグベクトルy_qを生成する。

なお、第４の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

〔第５の実施の形態〕
＜システム構成＞
次に、本発明の第５の実施の形態について説明する。なお、第５の実施の形態に係るメディアデータ解析装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第５の実施の形態では、SVMによる分類器を用いて、タグベクトルを付与している点が、第１の実施の形態と異なっている。

第５の実施の形態に係るメディアデータ解析装置の学習用データベース１は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。学習用データ特徴抽出部２は、上記の第１の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグ付けされたメディアデータの各々についてタグベクトルを作成する。

次元削減空間学習部３は、上記の式(34)の一般化固有値問題を解いて、変換行列U_Semiを構成し、上記の式(37)によって、特徴ベクトルx′_jを作成する。

分類器学習部４は、タグごとにSVMによる分類器を作成する。ここでは学習用データベース１において、タグ付けされたメディアデータを利用して分類器を学習する。具体的には、2次計画法を利用して、SVMの最適化問題である式(14)の最適解β^*=(β^* ₁,...,β^* _NT)^Tを求める。カーネル関数は、

となるガウスカーネルを用いる。

分類器評価部７は、分類器学習部４でタグごとに作成された、SVMの最適解β^* を用いて、α^* _j:=(2y_j,i−1)β^* _jを計算し、タグごとに、入力特徴ベクトルx′_qに対する、式(11)の決定関数を計算する。すなわち、i番目のタグv_iを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルy_qのi番目の要素に0もしくは1を入力し、タグベクトルy_qを生成する。

なお、第５の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

〔第６の実施の形態〕
＜システム構成＞
次に、本発明の第６の実施の形態について説明する。なお、第６の実施の形態に係るメディアデータ解析装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第６の実施の形態では、Laplacian-SVMによる分類器を用いて、タグベクトルを付与している点が、第１の実施の形態と異なっている。

第６の実施の形態に係るメディアデータ解析装置の学習用データベース１は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。学習用データ特徴抽出部２は、上記の第１の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグ付けされたメディアデータの各々についてタグベクトルを作成する。次元削減空間学習部３は、上記の式(34)の一般化固有値問題を解いて、変換行列U_Semiを構成し、上記の式(37)によって、特徴ベクトルx′_jを作成する。

分類器学習部４は、タグごとにLaplacian-SVMによる分類器を作成する。具体的には、2次計画法を利用して、Laplacian-SVMの最適化問題である式(42)の最適解β^Lap*を求める。

カーネル関数は、

となるガウスカーネルを用いる。

なお、第６の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

〔第７の実施の形態〕
＜システム構成＞
次に、本発明の第７の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第７の実施の形態では、特徴ベクトルの次元削減は行わない点が、第２の実施の形態と異なっている。

図９に示すように、本発明の第７の実施の形態に係るメディアデータ解析装置７００の演算部７２０は、学習用データベース１、学習用データ特徴抽出部２、分類器学習部７０４、入力データ特徴抽出部５、及び分類器評価部７０７を備えている。

学習用データベース１は、タグ付けされたメディアデータが蓄積されたデータベースであり、入力されたタグ付き学習用データ集合を記憶する。

学習用データ特徴抽出部２は、学習用データの各メディアデータから特徴ベクトルx_jを算出すると共に、タグベクトルを作成する。

分類器学習部７０４は、タグごとにSVMによる分類器を作成する。具体的には、2次計画法を利用して、各学習用データの特徴ベクトルx_jに基づいて、SVMの最適化問題である式(14)の最適解β^*=(β^* ₁,...,β^* _NT)^Tを求める。

分類器評価部７０７は、分類器学習部４で作成された、SVMの最適解β^*を用いて、α^* _j:=(2y_j,i−1)β^* _jを計算し、入力特徴ベクトルx_qに対する、上記の式(11)の決定関数を計算する。すなわち、i番目のタグv_iを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルy_qのi番目の要素に0もしくは1を入力し、タグベクトルy_qを生成する。

なお、第７の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

上記の第７の実施の形態では、SVMによる分類器を学習する場合を例に説明したが、これに限定されるものではなく、上記の第３の実施の形態のように、LSPCによる分類器を学習し、LSPCによる分類器を用いて、タグベクトルを付与するように構成してもよい。また、上記の第４の実施の形態のように、Laplacian-SVMによる分類器を学習し、Laplacian-SVMによる分類器を用いて、タグベクトルを付与するように構成してもよい。

＜実験結果＞
教師付き学習および半教師付き学習に基づく分類手法と次元削減手法をそれぞれメディアデータの自動タグ付け問題に適用し、各手法の比較検討を行った。

ここで、実験条件について説明する。自動タグ付けの実験用のメディアデータとして、Freesound(http://www.freesound.org/)の音素材データを用いた。Freesoundは作成者が定めた条件の下での著作物の二次利用を認めるCreative Commons License(http://creativecommons.org/)に基づいて、音楽素材の共有を行っているwebサービスである。このwebサービスではユーザ登録を行えば誰でも自分で作成した、あるいは録音した音楽素材を登録して共有することができ、既に多くの音素材が登録されている。登録されている音楽素材の多くはフィールドレコーディングにより録音された街頭の音や山や雨などの自然の音、あるいはドアの開閉音や機械の動作音などである。この他にもシンセサイザーにより作曲されたループミュージック用の短い素材なども多数登録さている。また、音素材の登録を行う際には、素材に対して任意の複数個の単語をタグとして付与することができる。したがって、Freesound上には豊富な種類の検索用のタグが存在する。

実験の際には、ファイルがWAV形式、サンプリングレートが44.1kHz、量子化ビット数が16bitの音素材2012個をこのFreesoundのデータベースからダウンロードして用いた。ステレオになっているファイルに対しては、両チャネルの音の平均をとってモノラルの信号に変換した。

MFCC特徴量を抽出するフレームは23ミリ秒とし、各フレームを12.5ミリ秒ずつづらしてとることで、それぞれの前後のフレームと半分ずつ重複するようにした。また、各フレームから抽出するMFCC特徴量は最初の13次元までの係数とした。したがって、Δ成分及びΔΔ成分まで含めた局所特徴量の次元数は39である。ベクトル量子化のクラスタリングの際には、全ての局所特徴量を用いると膨大な計算時間がかかるため、全ての音響素材から局所特徴量を500個ずつランダムランプリングしたものを集めてクラスタリングを行った。クラスタリングにはベクトル量子化の手法として、標準的なLBGアルゴリズムを使用し、クラスタ数は2048次元とした。bag-of-features特徴量の次元数はクラスタ数と等しくなり、dim_x=2048である。

Freesoundの2012個の音素材には全部で1000を超える種類のタグが付与されていたが、このうちほとんどのタグは少数の音楽素材にしか付与されていなかったため、付与されている音楽素材の数が12以上ある230種類のタグのみを実験に用いることとした。すなわち、dim_y=|V|=230である。表1にこれらのタグの一例を示す。

実験には、2012個の音素材のうち、1000個のタグ付き訓練標本、712個のタグなし訓練標本、300個の評価用標本にランダムに分けて用いた。なお、各タグの付与された音素材が、1000個のタグ付き訓練標本中には少なくとも4個、300個の評価用標本の中には少なくとも1個は含まれるようにした。分類手法の性能評価は、上記のような標本の分け方で各標本を50回ランダムに選び直し、その全てで実験を行ったAUC（Area Under the Curve）の平均値を用いて行った。AUCとは、受信者動作特性曲線（ROC曲線:Reciever Operatorating Characteristic curve）の下の面積である。ROC曲線とは図１０のような曲線であり、閾値を大きな値から小さな値に変えていった時、正のクラスに分類された正例と負例の数によって描かれる。明らかに、正例に対して大きな値、負例に対して小さな値を出力する決定関数を用いた方が分類性能は良くなるため、AUCの値が高い分類器の方が分類性能が良いと言える。なお、SVMは閾値を0に定めた上で決定関数の学習を行うため、本来であれば分類の際の閾値は0に固定されるが、AUCを用いる際には閾値を動かしてその性能を評価することに注意すべきである。まず、教師付き学習に基づく分類手法および次元削減手法を自動タグ付けの問題に適用する。従来法として、カーネル密度推定法(KDE: Kernel Density Estimation、文献：M. Wang, X. Hua, T. Mei, R. Hong, G. Qi, Y. Song, and L. Dai, “ Semi-supervised kernel density estimation for video annotation ”, Computer Vision and Image Understanding, Vol. 113, No. 1, pp. 384-396, January 2009.)に基づく分類手法を利用する。

SVM、LSPC、KDEに基づく分類手法はいずれも内部にカーネル関数を含んでいる。ここではこのカーネル関数にはよく用いられるガウスカーネル

を用いた。ここで、σはカーネル幅と呼ばれるハイパーパラメータである。また、各分類手法が含むハイパーパラメータの値は、下記の（１）〜（３）の候補の中から2-fold交差確認法によって決定した。

（１）３つの手法全てのハイパーパラメータであるガウスカーネルの幅σの候補は{m/20,m/10,m/6,m/3,m/2,m,5m/2,5m,10m}とした。ただし、mは全訓練標本間の距離の中央値である。

（２）LSPCのハイパーパラメータである正規化項の係数λの候補値は{10⁻¹⁰,10⁻⁶,10⁻⁴,10⁻²,1}とした。

（３）SVMのマージンの大きさとHinge損失のトレードオフを決めるハイパーパラメータCの候補は{1/m′,0.5,1,10}を用いた。ここで、m′は||x_j||²の平均値の逆数である。

教師付き学習を用いた分類では、これらのパラメータを全てのタグの分類器に共通で用いるものと、各タグに対する分類器ごとに異なる値を用いるものの二つの方法で実験を行った。また、分類に用いる特徴ベクトルは、そのままのbag-of-features特徴量と、CCAによって次元削減を行った特徴量の二つを用いた。なお、SVMの学習にはライブラリSVM^light(文献：T.Joachims,“SVMlight:Support Vector Machine ”, http://svmlight.joachims.org/, University of Dortmund, November 1999.)を使った。

教師付き学習に基づく分類手法の実験結果を表2に示す。

CCAによる次元削減を行う場合と行わなかった場合を比較してみると、ほとんどの条件において、次元削減を適用した場合には性能が落ちてしまっていることが分かる。これは、次元削減を行った方が分類性能が良くなるという当初の予想に反した結果である。このように次元削減を行ったことで逆に分類性能が落ちてしまった大きな原因としては、タグ付きの訓練標本が少なすぎて過学習に陥っていることが挙げられる。

次に、次元削減に用いていたCCAの代わりに、半教師付きの次元削減手法SemiCCAを用いて実験を行った。SVMとLSPCのハイパーパラメータは全ての分類器で共通の値、KDEのカーネル幅はタグ毎に異なる値をそれぞれ用いることとした。また、SemiCCAのパラメータηは一律にη=0.99とした。

表3にその結果をまとめたものを示す。

この結果から、SemiCCAで次元削減を行った特徴ベクトルを用いた分類性能は、CCAで次元削減を行った場合の分類性能よりも常に良くなっていることが分かる。これら二つの分類性能を有意水準5％のt検定にかけたところ、実際に有意な差があることも示された。特に、LSPCとKDEは次元削減を行わなかった場合よりもSemiCCAで次元削減を行った場合の方が有意に良い結果となっており、次元削減により分類性能を向上させることに成功した。一方、SVMを用いた際には次元削減前と比べるとSemiCCAで次元削減を行った場合の方が分類性能が悪くなってしまっている。

最後に、半教師付きの分類手法であるLaplacian-SVMを自動タグ付けの問題に適用する。従来法として、半教師付きカーネル密度推定法(SSKDE: Kernel Density Estimation、文献：M. Wang, X. Hua, T. Mei, R. Hong, G. Qi, Y. Song, and L. Dai,“ Semi-supervised kernel density estimation for video annotation ”, Computer Vision and Image Understanding, Vol. 113, No. 1, pp. 384-396, January 2009.)に基づく分類手法を利用する。

実験に用いるタグ付き・タグなしの訓練標本、および評価用標本はこれまでと同じものとする。また、各手法で用いるカーネル関数は教師付きの分類器と同じガウスカーネルとした。Laplacian-SVMでGraph Laplacianの計算に用いる重み行列Wは、

で定義される２値重みを用いた。また、SSKDEのタグ情報の信頼度τの値は良く使われる0.95を用いた。その他のハイパーパラメータは下記の（１）〜（５）の候補の中から2-fold交差確認法を用いて決定した。

（１）SSKDEのカーネルの幅は{m/20,m/10,m/6,m/4,m/3,m/2,m,5m/2,5m,10m}を候補とした。

（２）Laplacian-SVMのカーネルの幅は教師付きのSVMにおいて選ばれていた{m/4,m/3,m/2}を候補とした。

（３）Laplacian-SVMにおける重み行列W、およびSSKDEの疎な隣接行列M′の近傍数kはそれぞれ{1,5,10,20,30}を候補とした。

（４）Laplacian-SVMのLaplacian正規化項の係数γは{N/100,N/10,N/2}を候補とした。

（５）Laplacian-SVMのマージンの幅とHinge損失のトレードオフを決めるパラメータCは{0.5,1,10}を候補とした。

次元削減手法としては、SSKDEではそれぞれの半教師化前の手法において最も良い結果を示したSemiCCAを用い、Laplacian-SVMは半教師化前のSVMでは次元削減を行うと分類性能が下がってしまっていたため、次元削減を行わないそのままの特徴ベクトルを用いた。表4にこの結果をまとめたものを示す。

SSKDEの分類性能は、教師付きの分類手法に比べて大きく向上していると言える。一方で、Laplacian-SVMの分類性能は教師付きのSVMのものとほぼ変わらず、有意水準5％のt検定においても有意な差とはならなかった。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、メディアデータが、音素材（音響信号）以外であってもよい。例えば、画像データ、映像データ、テキストデータなどのコンテンツデータに対して、タグを付与するようにしてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１学習用データベース
２学習用データ特徴抽出部
３次元削減空間学習部
４、７０４分類器学習部
５入力データ特徴抽出部
６特徴次元削減部
７、７０７分類器評価部
８タグベクトル出力部
１０入力部
２０、７２０演算部
３０タグベクトル出力部
１００、７００メディアデータ解析装置

Claims

与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置であって、
前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段と、
前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段と、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段と、
前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段と、
入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段と、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段と、
前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段と、
を含むメディアデータ解析装置。
与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置におけるメディアデータ解析方法であって、
学習用データ特徴抽出手段によって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出し、
次元削減空間学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、
次元削減特徴生成手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成し、
分類モデル学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習し、
入力データ特徴抽出手段によって、入力されたコンテンツデータから、前記特徴ベクトルを抽出し、
特徴次元削減手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成し、
分類手段によって、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する
メディアデータ解析方法。
与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するためのプログラムであって、
コンピュータを、
前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段、
前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段、
前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段、
入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段、及び
前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段
として機能させるためのプログラム。