JP2014026455A - メディアデータ解析装置、方法、及びプログラム - Google Patents

メディアデータ解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP2014026455A
JP2014026455A JP2012166138A JP2012166138A JP2014026455A JP 2014026455 A JP2014026455 A JP 2014026455A JP 2012166138 A JP2012166138 A JP 2012166138A JP 2012166138 A JP2012166138 A JP 2012166138A JP 2014026455 A JP2014026455 A JP 2014026455A
Authority
JP
Japan
Prior art keywords
learning
content data
feature
data
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012166138A
Other languages
English (en)
Inventor
Shogo Kimura
昭悟 木村
Yasutomo Oishi
康智 大石
Masashi Sugiyama
将 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokyo Institute of Technology NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012166138A priority Critical patent/JP2014026455A/ja
Publication of JP2014026455A publication Critical patent/JP2014026455A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができるようにする。
【解決手段】次元削減空間学習部3によって、半教師付き次元削減手法により、特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、次元を削減した特徴ベクトルを各々生成する。分類器学習部4によって、次元を削減した特徴ベクトルに基づいて、事後確率推定に基づく分類器をタグごとに学習する。特徴次元削減部6によって、入力されたメディアデータについて抽出された特徴べクトルから、次元を削減した特徴ベクトルを生成し、分類器評価部7によって、学習された分類器に基づいて、タグごとに、入力されたメディアデータにタグを付与するか否かを分類し、タグベクトルを出力する。
【選択図】図5

Description

本発明は、メディアデータ解析装置、方法、及びプログラムに関する。
与えられた画像や音楽などのメディアに含まれる構成要素・情景・行動、ひいてはそれらの混合連結によって成り立つ意味(semantics)を獲得し、言語情報を介してテキストラベルという形でユーザに提示する自動メディアアノテーションの問題(図11(a))は、パターン認識分野における草創期からの重要課題の1つであるものの、未だ本質的な解決には至っていないのが現状である。
また、自動アノテーション問題に類似する問題として、ユーザが思い描くsemanticsをテキストの形で計算機に与え、そのテキストに適合する画像を提示するメディア検索の問題(図11(b))が挙げられる。この問題は、semantics・言語情報・メディアの相互の対応関係から考えると、自動メディアアノテーションの双対問題として捉えることができると共に、自動メディアアノテーション同様、パターン認識分野における重要課題の1つである。しかし、この問題もまだ本質的な解決には至っていない。また、この数年で、これら2つの双対問題を統一的な枠組で記述するメディアアノテーションリトリーバルについても盛んに研究されている。本発明は、機械学習的なアプローチに基づいてメディア(特に、音響信号)へのアノテーションの問題に関する。
機械学習的なアプローチにおける最重要課題の1つとして、良質な学習データをどれだけ数多く集められるか、という点が挙げられる。FlickrやLast.fmなど、近年著しい発展を遂げているメディア共有サイトを介して大量のラベル付メディアを取得できる環境が整いつつあるが、これらのサイトから収集したラベルの信頼性は必ずしも高くない。その一方で、信頼性の高いラベルが付与された大量のメディアを集めるもしくは作成することは多大な労力を伴う。これらの議論から、信頼性の高いラベルが付与された少数のメディアと、ラベルの信頼性に乏しい大量のメディアとを併用した機械学習手法が重要な役割を果たす。特に、信頼性が乏しいラベルを廃棄してラベルなしデータとして扱う半教師付学習に焦点を当てる。
従来、メディアとラベルとの共起関係を考慮した潜在変数空間を設計し、潜在変数空間内での隣接関係がラベルの類似性を強く反映させることで、半教師付学習を適用できる性質を学習データに与えた研究が知られている(例えば、非特許文献1、非特許文献2)。
木村昭悟、杉山将、中野拓帆、亀岡弘和、坂野鋭、"SSCDE:画像認識検索のための半教師正準密度推定法、"画像の認識・理解シンポジウム予稿集,2010年. J. Takagi, Y. Ohishi, A. Kimura, M. Sugiyama, M. Yamada, and H. Kameoka, " Automatic audio tag classification via semi-supervised canonical density estimation, "in Proc. ICASSP, pp.2232−2235, 2011年.
非特許文献1、2に示される従来研究では、アノテーションのために用いる分類器を事例ベースで設計しているため、非常に大規模な学習データを用意しなければ十分なアノテーション精度が得られない、という問題がある。
本発明は、上記の問題を解決するためになされたものである。その目的は、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができるメディアデータ解析装置、方法、及びプログラムを提供することにある。
上記の目的を達成するために本発明に係るメディアデータ解析装置は、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置であって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段と、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段と、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段と、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段と、入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段と、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段と、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段とを含んで構成されている。
本発明に係るメディアデータ解析方法は、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置におけるメディアデータ解析方法であって、学習用データ特徴抽出手段によって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出し、次元削減空間学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、次元削減特徴生成手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成し、分類モデル学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習し、入力データ特徴抽出手段によって、入力されたコンテンツデータから、前記特徴ベクトルを抽出し、特徴次元削減手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成し、分類手段によって、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する。
本発明に係るプログラムは、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するためのプログラムであって、コンピュータを、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段、入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段、及び前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段として機能させるためのプログラムである。
以上説明したように、本発明のメディアデータ解析装置、方法、及びプログラムによれば、タグ付き学習データ集合及びタグなし学習データ集合の各コンテンツデータについて抽出された特徴べクトルに基づいて、特徴ベクトルの次元数を削減するための写像を表わす行列を学習して、タグ付き学習データ集合の各コンテンツデータの特徴ベクトルに対して次元を削減した特徴ベクトルを用いて、事後確率推定に基づく分類モデルを学習し、入力されたコンテンツデータの特徴ベクトルに対して次元を削減した特徴ベクトルについて、学習された分類モデルに基づくタグ情報の分類を行うことにより、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができる、という効果が得られる。
(a)タグベクトルの作成を説明するための図、及び(b)分類器の学習を説明するための図である。 関数値qi(a|x;α)の計算方法を説明するための図である。 基底関数ベクトルφ(x,0)同士の乗算方法を説明するための図である。 半教師学習の枠組み内での分類器の学習方法を説明するための図である。 本発明の第1の実施の形態に係るメディアデータ解析装置の一構成例を示すブロック図である。 特徴ベクトルを抽出する方法を説明するための図である。 本発明の第1の実施の形態に係るメディアデータ解析装置における分類器学習処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係るメディアデータ解析装置におけるタグ付与処理ルーチンの内容を示すフローチャートである。 本発明の第2の実施の形態に係るメディアデータ解析装置の一構成例を示すブロック図である。 ROC曲線とAUCを示す図である。 (a)メディアアノテーションを説明するための図、及び(b)メディア検索を説明するための図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
まず、コンテンツデータにタグベクトルを付与する原理について説明する。
<概要>
識別学習に基づくアプローチで教師付・半教師付分類器を設計することで、十分な規模の学習データが得られない状況でも高い精度を確保できるアプローチを取る。特に、分類器としてサポートベクターマシン(SVM)、最小二乗確率的分類器(LSPC)、ラプラシアンSVM を用いて、この分類器をメディアとラベルとの共起関係を考慮した潜在変数空間の上で駆動することにより、精度の高いアノテーションを可能にする。
<教師付き学習に基づく自動タグ付け手法>
<問題の定式化>
メディアデータへの自動タグ付けは、例えばメディアデータとして音響信号を考える場合、クエリとなる音素材sqが入力された時、あらかじめ選定されたタグの種類の集合V={v1,v2,...,v|V|}から、音素材sqを説明する適切なタグを選んで付与するという問題である。ここで、sqはフィールドレコーディングで録音された音源や効果音などの音響信号であり、それぞれのタグviは「鳥の声」、「雨」、「車」などのその音素材に含まれる音や、「森林」、「街」などの音素材全体を表す単語、あるいはループミュージック用の素材や効果音であれば「ループミュージック」や「効果音」などの用途を表す単語などである。入力sqに対する出力は、タグの種類数|V|と等しい数の次元数を持つベクトルyqで表す。すなわち、i番目のタグviを付与する場合には、ベクトルyqのi番目の要素の値yq,iを1とし、付与しない場合には0とする。以下では、このようなタグの情報を表すベクトルをタグベクトルと呼ぶ。メディアデータ(上記の説明では音素材)sqから抽出される特徴ベクトルをxqで表すと、上記の問題はxqを入力として、適切なタグベクトルyqを出力する関数f′(・)を求める問題として表すことができる。
f(・)は決定関数と呼ばれ、入力ベクトルxqについて、各タグを付与すべきかどうかを決定する基準となるスコアを計算し、それをタグの種類数|V|と等しい数の次元数を持つ実数ベクトルとして出力する。また、g(・)は識別関数と呼ばれ、決定関数f(・)で得られた実数ベクトルから、タグの種類数|V|と等しい数の次元数を持つ2値ベクトルyqを出力する。一般に、このような多次元の出力を行う関数を一度に求めようとすると問題が複雑になる。そのため、本発明ではこの出力の各次元を互いに独立であると仮定することで問題を簡単化する。すなわち、図1のように、タグを付与するかしないかの決定はタグ毎に行い、それらを全てまとめて、タグベクトルyqを作成する。したがって、関数f′(・)は、タグごとの出力を決定する|V|個の関数f′i(・)を使って下記のように表現できる。

ただし、Xは、ベクトルまたは行列Xの転置を表わす。
つまり、この問題は2値の出力を行う関数f′i(・)を求める|V|個の問題の集合に分割される。個々の問題は入力xqが与えられた時に、タグviを付与するかしないかを求める問題であるから、2値分類問題の枠組みで解くことができる。すなわち、タグviが付与されるクラスと、付与されないクラスのいずれかのクラスにxqを分類する問題を解けばよい。本発明では、機械学習に基づく分類手法を用いてこの2値分類問題を解く。
機械学習に基づく分類手法の1つの例として、入力xqに対して、まず分類を行う基準となる何らかのスコアを計算し、そのスコアと前もって定められた閾値を比較して分類を行う方法がある。すなわち、スコアを計算する関数fi(・)に関する閾値をθiで表したとき、分類を行う関数f′i(・)は
と表される。スコアを計算する関数fi(・)は一般に決定関数と呼ばれる。教師付き学習に基づく分類手法では、あらかじめどちらのクラスに属するか分かっている学習用のデータを用いて決定関数fi(・)を求める。つまり、学習用の音響信号データ(メディアデータ)に、タグ付けが行われているものとする。以下では、この学習用の音素材(メディアデータ)を

で表し、タグ付き訓練標本、あるいは単にタグ付き標本と呼ぶ。また、NT:=|D(T)|はタグ付き訓練標本の数を表す。i番目のタグに対する分類器の学習の際には、全てのタグの情報

が用いられることはなく、i番目のタグが付与されているかどうかを表す情報

のみを用いる。
<教師付き次元削減手法>
タグごとに分類器を学習する場合、そのタグがメディアデータに付与されるか否かという情報しか使えない。実際は、異なるタグの間には相関があり、例えば「雨」というタグであれば「嵐」や「風」、「雷」などのタグと同時に付与されることが多いが、「シンセサイザー」や「ループミュージック」といったようなタグと同時に付与されることはあまりない。このようなタグの共起情報を用いれば、よりタグ付けの精度を向上させられる可能性がある。タグの共起情報はタグを個別にではなく、一度に扱うようにすれば利用することができるが、全てのタグを付与するか否かを一度に出力する関数を学習しようとすると問題が複雑になる。そこで、本発明では、全てのタグを一度に扱える次元削減手法、正準相関分析(CCA:Canonical Correlation Analysis、文献:H. Hotelling, “ Analysis of complex of statistical variables into principal components ”, J. Educ. Psych., Vol.24, 1933.)を用いることで、タグの共起情報を利用する。
CCAは2つの確率変数の組が与えられたとき、その相関を最大化させる写像を求める手法である。今回扱っている問題においては、二つの確率変数は特徴ベクトルとタグベクトルに対応するため、それらを写像した先の(wCCA xTxと(wCCA Tyの相関を最大化するような写像wCCA x、wCCA yを求めることになる。ここで、wCCA xは特徴ベクトルと等しいdimx次元、wCCA yはタグベクトルに等しいdimy:=|V|次元のベクトルである。(wCCA xTxと(wCCA Tyの相関ρは次のように与えられる。
ただし、SxxNT j=1xjxT j、SyyNT j=1yjyT jはそれぞれ音響特徴ベクトルとタグベクトルの自己分散、SxyNT j=1xjyT jは音響特徴ベクトルとタグベクトルの共分散である。また、xやyの平均ベクトルを0ベクトルと仮定する。そうでない場合にはあらかじめ平均ベクトルを各ベクトルから引き算することにより平均ベクトルを0にしておく。ρの値は写像wCCA x、wCCA yのスケールによらないため、適切にスケーリングすることで、ρの最大化問題は、
となる。これをさらにLagrangeの双対形に直し、wCCA xとwCCA yで偏微分した値を0と置くと、最大の相関を与える写像は下記の一般化固有値問題の解と等しくなる。
ただし、Syx=ST xyである。
この固有値問題は、min(dimx,dimy)×2個の固有ベクトルを解として得ることができる。ただし、それらが全て相関を最大化させる写像として使えるわけではない。固有ベクトルの一つを(wCCA(1) x,wCCA(1) y)とすると、wCCA(1) xを−wCCA(1) xに置き換えたベクトル(−wCCA(1) x, wCCA(1) y)もまた固有ベクトルとなることは、式(8)から簡単に示される。この二対の固有ベクトルは絶対値が等しい正と負の固有値を持ち、正の固有値は正の相関を最大化する写像、負の固有値は負の相関を最大化する写像である。したがって、次元削減に用いることができるのは正の固有値を持つ固有ベクトルに対応するmin(dimx,dimy)個の写像のみとなる。CCAの解として得られた写像を大きい固有値を持つ固有ベクトルに対応するものから並べた行列をU=(wCCA(1) x,...,wCCA(min(dimx,dimy)) x)と置く。この行列を下記のように変換行列として用いれば、次元削減を行うことができる。
ここで、次元削減後のベクトルを音響特徴ベクトルx′jとし、その次元数はmin(dimx,dimy)となる。
<教師付き学習に基づく分類器>
メディアデータの自動タグ付けに適用する教師付き学習に基づく分類手法を説明する。一つ目の手法は、サポートベクターマシン(SVM:Support Vector Machine)である。SVMは音楽のジャンル分類や曲調認識などの問題に対しても適用され、良い成果を上げている。二つ目の手法は、確率的分類器である最小二乗確率的分類器(LSPC:Least-Squares Probabilistic Classifier、文献:M. Sugiyama,“Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”,in IEICE Transactions on Information and Systems,Vol.E93-D, pp.2690-2701, 2010. Revised on June 26, 2011.)を用いる。LSPCは近年提案された確率的分類手法であり、学習を行う際に解が解析的に求められるため、高速に学習を行うことができ分類精度も良い。
<サポートベクターマシン(SVM)>
SVMはマージンという概念を用いて決定関数を学習させる2値分類手法である。マージンとは、正のクラス(yj,i=1)と負のクラス(yj,i=0)を分ける超平面から、最も近い正例の訓練標本あるいは負例の訓練標本までの特徴空間における距離である。SVMはこのマージンの幅を最大化させるように決定関数の学習を行う。
SVMは決定関数として下記のような線形モデルを用いる。
ただし、ここでφSVM(・)は何らかの特徴空間への写像である。なお、マージンを最大化するuSVMはuSVMNT j=1αjφSVM(xj)という形で与えられることが知られているため、上記の決定関数は
と具体的に記述できる。ここで、φSVM(・)に対応するカーネル関数κ(・)を用いた。SVMはクラス分類の際の閾値はθi=0に定められているため、決定境界はfSVM i(x)=0によって表される超平面となる。したがって、決定関数から訓練標本xjまでの距離は|fSVM i(xj)|/||uSVM||で計算できる(||u||はユークリッドノルムを表わす)。さらに全ての訓練標本を正しく分類する決定関数ではyj,i=0のとき、fSVM i<0、yj,i=1のとき、fSVM i>0となるので、全ての訓練標本xjに対して(2yj,i−1)fSVM i(xj)>0が成り立つ。よってマージンの幅は
となる。この値はuSVMのスケールには依存しないので、(2yj,i−1)fSVM i(xj)の最小値が1になるようにuSVMのスケーリングを行うと、マージンの幅の最大化は1/||uSVM||の最大化、すなわち||uSVM||2を最小化することと等価になる。ただし、一般の分類問題は特徴空間での2つのクラスの間に重なりがあり、全ての正例と負例を完全に分ける決定境界を求めることはできないか、求めることができたとしても決定境界が複雑になりすぎて、分類器の汎化性能が低下する可能性がある。したがって、マージン境界はfSVM i(x)=±1となる2つの超平面に定め、(2yj,i−1)fSVM i(xj)<1となる訓練標本、すなわちマージンの内側あるいは決定境界の誤った側に存在する訓練標本に対してはペナルティを課すことで、誤分類を許すようにすることが一般的である。この場合のSVMはソフトマージンSVMと呼ばれる。ペナルティとして正しい側のマージン境界からの距離に等しいHinge損失ξj=max{0,1−(2yj,i−1)fSVM i(xj)}を用いる。ペナルティの項を加えたソフトマージンSVMの最適化問題は下記のようになる。
ただし、Cはマージンの大きさとペナルティの比重を決めるハイパーパラメータである。
この最適化問題はLagrangeの双対形で表した後、uSVMとbでそれぞれ偏微分した結果を0と置くと、最終的に下記の最適化問題を得ることができる。
ここで、βj:=(2yj,i −1)αjは決定関数を定めるパラメータであり、eNTは全ての要素の値が1のNT次元ベクトル、行列K(T)はK(T) j,l:=κ(xj,xl)によって定義される(NT×NT)次元のGram行列、行列Yは対角成分がYj,j:=2yj,i−1によって定められる(NT×NT)次元の対角行列である。
SVMの最適化問題である式(14)は解析解を求めることができないため、2次計画法を用いて最適化を行う。最適解β*=(β* 1,...,β* NT)Tが求められれば、そこからα* j:=(2yj,i−1)β* jとして決定関数のパラメータを求めることができ、式(11)を用いて決定関数の計算が行えるようになる。
<最小二乗確率的分類器(LSPC)>
LSPCは事後確率推定に基づく分類器であり、下記の線形モデルを用いて事後確率推定する。
ここで、φj,a′(・)はdimxを特徴ベクトルxの次元としたとき、すべての可能な入力(x,a)∈Rdimx×{0,1}に対してφj,a′(x,a)≧0を満たす基底関数であり、
はすべての基底関数をベクトル表現にしたもの、
は学習すべきパラメータである。なお、LSPCは多クラスの分類問題を扱うことのできる手法であるが、ここではクラスをa=0,1の2クラスとする。以下では基底関数として、文献:M.Sugiyama, “ Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”, in IEICE Transactions on Information and Systems, Vol.E93-D, pp.2690-2701, 2010. Revised on June 26, 2011. において用いられる下記のカーネルモデルを考える。
ただし、δ(・)は下記により与えられるクロネッカーのデルタである。
LSPCは下記の式から計算される、真のクラス事後確率と推定されたクラス事後確率の二乗誤差を最小化するようにパラメータαを決定する。
ただし、(2NT×2NT)次元行列Hと2NT次元ベクトルhは下記により定義される。
この行列Hとhには未知の確率密度関数p(x)とp(x, y)が含まれるため、下記のように訓練標本を用いて近似される。
この近似した行列^Hと^hを用いて二乗誤差J(α)を近似したものに、さらに正規化項λαTαを加えた下記の式がLSPCの目的関数となる。
ただし、λは正規化項の大きさを決めるハイパーパラメータである。
この目的関数の最適解は、
となる。ここで、I2NTは(2NT×2NT)次元の単位行列である。
基底関数に式(18)で表されるカーネルモデルを用いる場合、基底関数のベクトルφ(x, a)を上半分と下半分に分割すると、クラスの値aに対応する方は非ゼロ、もう一方はゼロベクトルとなる。このとき、関数値qi(a|x;α)の計算は、パラメータαをα(0)とα(1)の等しい要素数の2つのベクトルに分割したとき、図2のように対応するクラスに対するパラメータα(a)のみを用いて計算される。
さらに、行列Hに用いられる基底関数ベクトルφ(x,0)同士の乗算の結果は、図3のように四分割した左上以外のブロックがすべてゼロ行列であるような(2NT×2NT)行列となる。
クラスの値の入力を1にした基底関数ベクトルφ(x,1)同士の乗算では、非ゼロのブロックが左上から右下に変わるだけなので、これらの総和で計算される行列^Hは下記のようなブロック対角行列となる。
ここで、行列~Hは下記より定義される(NT×NT)次元行列である。
したがって、^h(a)を下記より定義されるNT次元ベクトル
とすると、各クラスに対応するパラメータα(a)の最適解は下記のようなクラス毎の最適化問題から個別に解くことができる。
ここで、INTは(NT×NT)次元単位行列である。
関数qi(a|x;α)の最適化は式(30)を全てのクラスa∈{0,1}に対して解くことによって行うことができる。ただし、この関数の出力値をそのまま事後確率の推定値として使うことはできない。なぜならば、事後確率が負の値をとることはないが、関数qi(a|x;α)の出力は負の値を取りうるからである。そのため、出力値が負の値となってしまった場合にはその値を0に補正する必要がある。また、関数qi(a|x;α)の出力は、全てのクラスに対する事後確率の総和が常に1になるという性質も満たしていない。そこで、LSPCは最後にすべてのクラスに対して推定した関数qi(a|x;α)の値の総和が1になるように正規化を行い、クラス事後確率の推定値がこの性質を満たすように調整する。結局、LSPCを用いて分類を行う際の決定関数fLSPC i(x)=~P(y*,i=1|x)は下記のような式により計算される。
<半教師付き学習に基づく自動タグ付け手法>
<問題の定式化>
タグが付いていないメディアデータであれば容易に集めてくることができるが、教師付き学習の枠組みの中ではこれらの訓練標本を学習に用いることはできない。半教師付き学習に基づく手法を用いることで、タグ付き訓練標本とタグなし訓練標本の両方を学習に使った分類器の作成方法を説明する。
半教師付き学習を用いる際のメディアデータの自動タグ付け問題は、前章の定式化とほぼ同じ枠組みの中で扱うことができる。すなわち、特徴ベクトルの入力xに対するタグベクトルの出力yは式(2)のように各タグを個別に扱って決定する。また、個別のタグに対して、それを付与するか否かの決定は式(5)のように、実数値の出力を行う決定関数fi(・)の出力を用いて行う。教師付き学習と異なる点は、決定関数fi(・)の学習をタグ付きの訓練標本D(T)に加え、タグなし訓練標本も用いて行う。このような拡張により、上記図1の学習の部分は、図4のように変更される。以下では、タグなし訓練標本を

、その数をNU:=|D(U)|とする。また、タグ付きとタグなしの訓練標本を合わせた訓練標本の総数はN:=NT+NUを用いて表す。
<半教師付き次元削減手法SemiCCA>
教師付きの次元削減手法として、タグ間の相関を扱うCCAについて述べたが、CCAで次元削減を行うと過学習が起きてしまって分類性能が低下してしまうことが分かっている。タグなし訓練標本を用いてこのような過学習を防ぐ、半教師付きの次元削減手法SemiCCA(文献:A.Kimura, H.Kameoka, M. Sugiyama, T. Nakano, E. Maeda, H. Sakano, K. Ishiguro,“ SemiCCA: Efficient semi-supervised learning of canonical correlations ”, in International Conference on Pattern Recognition(ICPR), pp. 2933-2936, Istanbul, Turkey, 2010.)を説明する。SemiCCAは、近年提案されたCCAに基づく半教師付きの次元削減手法である。SemiCCAは、主成分分析(PCA: Principal Component Analysis)をCCAに組み合わせることで、タグ付きとタグなしの全訓練標本の主成分に基づく補正を行い、過学習を防ぐ。特徴ベクトル、およびタグベクトルの主成分軸への写像をそれぞれwPCA x 、wPCA yとおくと、これらPCAの解は以下の固有値問題を解くことにより求めることができる。
ここで、S′xx:=ΣN j=1xjxTjはタグ付きとタグなしの全ての学習用特徴ベクトルの自己分散行列である。
SemiCCAでは式(8)にPCAの固有値問題である式(32)と式(33)を組み合わせた、下記の一般化固有値問題を解くことによって次元削減に用いる写像を得る。
ここで、DおよびEは以下の式により定義される行列であり、ηはCCAとPCAの重みを決めるパラメータである。
SemiCCAの一般化固有値問題はη=1のとき、CCAの一般化固有値問題と一致し、η=0のときにPCAの固有値問題と一致する。SemiCCAで次元削減を行う際に用いる写像は、CCAの解の個数に等しいmin(dimx, dimy)個の最も大きな固有値に対応する固有ベクトルである。これらの固有ベクトルを並べてUSemiとすると、次元削減後の特徴ベクトルx′jは、以下の式(37)のように求めることができる。
半教師付き学習に基づく分類器>
SVMを半教師化した分類手法はいくつか存在するが、本発明では、その中でも良く知られたLaplacian-SVM(文献:M. Belkin, P. Niyogi, and V. Sindhwani,“ On Manifold Regularization”,in Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics (AISTATS), Barbados, January 2005.)を用いる。Laplacian-SVMはLaplacian正規化によって半教師化を行ったSVMである。この半教師化の方法は、目的関数に対して関数をより滑らかにするLaplacian 正規化項と呼ばれる項を加える半教師化の手法である。
<Laplacian-SVM>
Laplacian正規化はタグ付きとタグなしの訓練標本を用いて決定関数を滑らかにする半教師化の手法である。半教師化に伴って具体的に行う操作は、分類器の決定関数のパラメータを決める際に解く最適化問題の目的関数に、関数の滑らかさに基づくペナルティの項を加えることである。決定関数fLapSVM iの滑らかさは下記に示すSLapSVMで表すことができ、この値が0に近づくほど関数は滑らかとなる。
ただし、Wj,lは標本xjとxlの距離に基づいて定められる重みであり、
は全ての訓練標本に対する決定関数の出力値をベクトル表記したものである。また、LはGraph Laplacianと呼ばれる行列で、先ほどの重みWj,lを行列表記にしたものをWとし、(N×N)次元行列DをDj,j:=ΣlWj,lによって定義される対角行列とした時、L:=D−Wと定義される。式(38)は全ての訓練標本の対に対する決定関数の出力値の差の二乗を、重み付きで足し合わせた形となっている。したがって重みWj,lを距離の近い標本の対に対しては大きな値、距離の遠い標本対に対しては小さな値となるようにすると、距離の近い標本に対する決定関数の出力値が近く滑らかな関数ほど、SLapSVMの値が小さくなると言える。式(38) において注意すべきは、この計算にはタグ付き訓練標本だけでなく、タグなし訓練標本も使われていることである。
Laplacian-SVMでは、SlapSVMの値が小さくなるように決定関数の学習を行うため、SVMの目的関数の式(13)にこの値を加えたうえで最適化を行う。すなわち
がLaplacian-SVMの目的関数となる。ここで、γはLaplacian正規化項の大きさを決めるハイパーパラメータである。このように目的関数を変更したことによって、最適となる決定関数のカーネルを用いた表現は式(11)のような形ではなく、タグ無し訓練標本の上にもカーネルを置いた関数
で表されることになる。
さらに、SVMと同様の操作をおこなって式(40)を変形すると、下記の目的関数が得られる。
ただし、(N×N)次元行列Kはタグ付きとタグ無しの全訓練標本のGram行列、(NT×N)次元行列Bはすべてのj∈{1,...,NT}に対してBj,j=1であり、その他の要素が全て0となるような行列である。この解であるN次元ベクトルβLap*を用いると、決定関数fLapSVM i(・)のパラメータα*=(α* 1,...,α* N)Tは下記のように計算される。
なお、式(42)の最適化問題はSVMの最適化問題である式(14)と同様に解析解を求めることができないため、α*の計算に用いるベクトルβLap*は2次計画法などを用いて求める必要がある。
〔第1の実施の形態〕
<システム構成>
図5は、本発明の第1の実施の形態に係るメディアデータ解析装置100を示すブロック図である。メディアデータ解析装置100は、メディアデータを説明する情報であるタグ情報が予め付与されたメディアデータの集合であるタグ付き学習用データ集合、及びタグ情報が与えられていないメディアデータの集合であるタグなし学習用データ集合を入力し、メディアデータに付与するタグ情報を分類するための分類器を学習すると共に、タグ情報が与えられていないメディアデータを入力し、メディアデータに付与するタグ情報を出力する装置であり、具体的にはCPU(Central Processing Unit)と、RAMと、後述する分類器学習処理ルーチン及びタグ付与処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
メディアデータ解析装置100は、入力部10、演算部20、及びタグベクトル出力部30を備えている。
入力部10は、メディアデータを説明する情報であるタグ情報が予め付与されたメディアデータの集合であるタグ付き学習用データ集合、及びタグ情報が与えられていないメディアデータの集合であるタグなし学習用データ集合の入力を受け付けると共に、タグ情報が与えられていないメディアデータの入力を受け付ける。
演算部20は、学習用データベース1、学習用データ特徴抽出部2、次元削減空間学習部3、分類器学習部4、入力データ特徴抽出部5、特徴次元削減部6、及び分類器評価部7を備えている。分類器学習部4は、分類モデル学習手段の一例であり、分類器評価部7は、分類手段の一例である。
学習用データベース1は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースであり、入力されたタグ付き学習用データ集合、及びタグなし学習用データ集合を記憶する。
学習用データ特徴抽出部2は、学習用データのメディアデータから特徴ベクトルを算出する。以降の説明では、簡単のため、メディアデータの例として音響信号を採用した場合に限定して説明する。特徴抽出の方法を適切に変更することにより、音響信号以外のメディアデータ、例えば、画像信号、映像信号、テキスト、マイクロブログなどにも幅広く適用可能である。音響信号と対象とした場合、具体的には、音響信号をフレーム分析して、各フレームからメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients、文献:P. Mermelstein“ DistanceMeasure for Speech Recognition, Psychological and Instrumental ”, in Pattern Recognitionand Artificial Intelligence, pp. 374-388, June 1976.)を算出する。MFCCは、人間の聴覚特性を考慮に入れた音響特徴量であり、音楽情報検索分野で標準的に用いられる。さらに音素材の音響信号は時間的に変化するため、動的特徴量としてMFCCの時間微分の近似値であるΔMFCCと、二次微分量の近似値であるΔMFCCを算出する。次に、このようにフレームごとに算出されるMFCC、ΔMFCC、ΔΔMFCCからなる局所特徴量を集めて、bag-of-features特徴量を作成し、これを特徴ベクトル(音響特徴ベクトル)とする。bag-of-features特徴量を作成するためには、まず全ての音素材から抽出した局所特徴量を集めて、LBGアルゴリズムによりコードブックを作成する(図6)。そして、一つの音素材から抽出した全ての局所特徴量を、コードブックを用いてベクトル量子化して、そのヒストグラムを作成する。これを正規化したものがbag-of-featuresであり、特徴ベクトルとして利用する。bag-of-features特徴量は画像の分野で標準的に用いられるほか、曲調認識の分野でもしばしば用いられている。一方、音素材に付与されたタグの扱いとして、i番目のタグviを付与する場合には、ベクトルyjのi番目の要素の値yj,iを1とし、付与しない場合には0とし、タグベクトルを作成する。
次元削減空間学習部3は、タグ付けされていないメディアデータを含む学習用データの各メディアデータから算出された特徴ベクトルxjを用いて、上記の式(34)の一般化固有値問題を解いて、変換行列USemiを構成し、上記の式(37)によって、学習用データの各メディアデータについて、特徴ベクトルx′jを作成する。
分類器学習部4は、タグごとにLSPCによる分類器を作成する。ここでは学習用データベース1において、タグ付けされたメディアデータを利用して分類器を学習する。具体的には、タグごとに、学習用データのタグ付けされた各メディアデータについて作成した特徴ベクトルx′jに基づいて、上記の式(30)のα(a)*を全てのクラスa∈{0,1}に対して算出する。カーネル関数は
となるガウスカーネルを用いる。
入力データ特徴抽出部5は、学習用データ特徴抽出部2と同様に、入力のメディアデータから特徴ベクトルxqを作成する。
特徴次元削減部6は、次元削減空間学習部3で作成された変換行列USemiを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。
分類器評価部7は、分類器学習部4でタグ毎に作成された、LSPCのパラメータαを用いて、タグ毎に、上記の式(31)の決定関数を計算する。これが0.5よりも大きければ、i番目のタグviを付与する。これをI個のLSPC分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力する。
生成されたタグベクトルyqをタグベクトル出力部8により出力する。
<メディアデータ解析装置の作用>
次に、本実施の形態に係るメディアデータ解析装置100の作用について説明する。まず、タグベクトルが与えられたタグ付き学習用データ集合、及びタグベクトルが与えられていないタグなし学習用データ集合が、メディアデータ解析装置100に入力されると、メディアデータ解析装置100によって、入力されたタグ付き学習用データ集合及びタグなし学習用データ集合が、学習用データベース1へ格納される。そして、メディアデータ解析装置100によって、図7に示す分類器学習処理ルーチンが実行される。
まず、ステップS101において、タグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データから、特徴ベクトルを抽出すると共に、タグ付き学習用データ集合の各学習用データについてタグベクトルを作成する。そして、ステップS102において、上記ステップS101で抽出されたタグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの特徴ベクトルに基づいて、上記の式(34)を解いて、変換行列Usemiを構成する。
そして、ステップS103において、上記ステップS101で抽出されたタグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの特徴ベクトルに対して、上記ステップS102で構成した変換行列Usemiを作用させて、タグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの、次元削減後の特徴ベクトルを作成する。
次のステップS104では、上記ステップS103で作成したタグ付き学習用データ集合の各学習用データの、次元削減後の特徴ベクトルに基づいて、タグ毎に、LSPCによる分類器を学習し、上記の式(30)のα(a)*を求め、分類器学習処理ルーチンを終了する。
また、タグなしの音響信号が、メディアデータ解析装置100に入力されると、メディアデータ解析装置100によって、図8に示すタグ付与処理ルーチンが実行される。
ステップS111において、入力されたメディアデータを受け付け、ステップS112において、入力されたメディアデータから、特徴ベクトルを抽出する。
次のステップS113では、上記ステップS112で抽出された特徴ベクトルに対して、上記の分類器学習処理ルーチンで作成された変換行列Usemiを作用させて、次元削減後の特徴ベクトルを作成する。
そして、ステップS114において、タグ毎に、当該タグについて求めたα(a)*と、上記ステップS113で作成した次元削減後の特徴ベクトルとに基づいて、上記の式(31)の決定関数を計算する。ステップS115では、タグ毎に、上記ステップS114で計算した決定関数の値が、0.5よりも大きいか否かにより、当該タグを付与してタグベクトルを生成し、タグベクトル出力部30により出力し、タグ付与処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係るメディアデータ解析装置によれば、タグ付き学習用データ集合及びタグなし学習用データ集合の各メディアデータについて抽出された特徴べクトルに基づいて、特徴ベクトルの次元数を削減するための写像を表わす行列を学習して、タグ付き学習用データ集合の各メディアデータの特徴ベクトルに対して次元を削減した特徴ベクトルを作成し、事後確率推定に基づく分類器を学習する。入力されたメディアデータの特徴ベクトルに対して次元を削減した特徴ベクトルを作成し、学習された分類器に基づいて、タグベクトルのタグ毎に、当該タグを付与するか否かの分類を行う。これによって、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができる。
〔第2の実施の形態〕
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第2の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第2の実施の形態では、タグ付き学習用データのみから、次元削減のための変換行列を学習している点と、SVMによる分類器を用いて、タグを付与している点とが、第1の実施の形態と異なっている。
第2の実施の形態に係るメディアデータ解析装置の学習用データベース1は、タグ付けされたメディアデータが蓄積されたデータベースであり、入力されたタグ付き学習用データ集合を記憶する。
学習用データ特徴抽出部2は、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグベクトルを作成する。
次元削減空間学習部3は、学習用データの各メディアデータから算出された特徴ベクトルxjを用いて、上記の式(8)の一般化固有値問題を解いて、変換行列Uを構成し、上記式(9)によって、特徴ベクトルx′jを作成する。
分類器学習部4は、タグごとにSVMによる分類器を作成する。具体的には、2次計画法を利用して、SVMの最適化問題である式(14)の最適解β*=(β* 1,...,β* NT)Tを求める。カーネル関数は、
となるガウスカーネルを用いる。
入力データ特徴抽出部5は、上記の第1の実施の形態と同様に、入力のメディアデータ(例えば、音響信号)をフレーム分析して、各フレームからMFCC、ΔMFCC、ΔMFCCを算出する。そして、学習用データ特徴抽出部2で作成したコードブックを利用して、MFCC、ΔMFCC、ΔΔMFCCの特徴量をベクトル量子化して特徴ベクトルxqを作成する。特徴次元削減部6は、次元削減空間学習部3で作成された変換行列U を用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。
分類器評価部7は、分類器学習部4で作成された、SVMの最適解β*を用いて、α* j:=(2yj,i−1)β* jを計算し、入力特徴ベクトルx′qに対する、上記の式(11)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。
生成されたタグベクトルyqをタグベクトル出力部8により出力する。
なお、第2の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
〔第3の実施の形態〕
<システム構成>
次に、本発明の第3の実施の形態について説明する。なお、第3の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第3の実施の形態では、LSPCによる分類器を用いて、タグベクトルを付与している点が、第2の実施の形態と異なっている。
第3の実施の形態に係るメディアデータ解析装置の学習用データベース1は、上記の第2の実施の形態と同様に、タグ付けされたメディアデータが蓄積されるデータベースである。
学習用データ特徴抽出部2は、上記の第2の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグベクトルを作成する。次元削減空間学習部3は、上記の第2の実施の形態と同様に、上記の式(8) の一般化固有値問題を解いて、変換行列Uを構成し、上記の式(9)によって、特徴ベクトルx′jを作成する。
分類器学習部4は、タグごとにLSPCによる分類器を作成する。具体的には、タグごとに、上記の式(30)のα(a)*を全てのクラスa∈{0,1}に対して算出する。カーネル関数は
となるガウスカーネルを用いる。
入力データ特徴抽出部5は、上記の第1の実施の形態と同様に、入力のメディアデータから特徴ベクトルxqを作成する。
特徴次元削減部6は、次元削減空間学習部3で作成された変換行列Uを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。
分類器評価部7は、分類器学習部4でタグごとに作成された、LSPCのパラメータαを用いて、タグごとに、上記の式(31)の決定関数を計算する。これが0.5よりも大きければ、i番目のタグviを付与する。これをI個のLSPC分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。
生成されたタグベクトルyqをタグベクトル出力部8により出力する。
なお、第3の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
〔第4の実施の形態〕
<システム構成>
次に、本発明の第4の実施の形態について説明する。なお、第4の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第4の実施の形態では、Laplacian-SVMによる分類器を用いて、タグベクトルを付与している点が、第2の実施の形態と異なっている。
第4の実施の形態に係るメディアデータ解析装置の学習用データベース1は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。
学習用データ特徴抽出部2は、上記の第2の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグベクトルを作成する。次元削減空間学習部3は、上記の第2の実施の形態と同様に、上記の式(8) の一般化固有値問題を解いて、変換行列Uを構成し、上記の式(9)によって、特徴ベクトルx′jを作成する。
分類器学習部4は、タグごとにLaplacian-SVMによる分類器を作成する。具体的には、2次計画法を利用して、Laplacian-SVMの最適化問題である式(42)の最適解βLap*を求める。カーネル関数は、
となるガウスカーネルを用いる。
入力データ特徴抽出部5は、学習用データ特徴抽出部2と同様に、入力のメディアデータから特徴ベクトルxqを作成する。
特徴次元削減部6は、次元削減空間学習部3で作成された変換行列Uを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。
分類器評価部7は、分類器学習部4でタグごとに作成された、Laplacian-SVMの最適解βLap*を用いて、式(43)のα*を計算し、タグごとに、入力特徴ベクトルx′qに対する、式(41)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。
生成されたタグベクトルyqをタグベクトル出力部8により出力する。
なお、第4の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
〔第5の実施の形態〕
<システム構成>
次に、本発明の第5の実施の形態について説明する。なお、第5の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第5の実施の形態では、SVMによる分類器を用いて、タグベクトルを付与している点が、第1の実施の形態と異なっている。
第5の実施の形態に係るメディアデータ解析装置の学習用データベース1は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。学習用データ特徴抽出部2は、上記の第1の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグ付けされたメディアデータの各々についてタグベクトルを作成する。
次元削減空間学習部3は、上記の式(34)の一般化固有値問題を解いて、変換行列USemiを構成し、上記の式(37)によって、特徴ベクトルx′jを作成する。
分類器学習部4は、タグごとにSVMによる分類器を作成する。ここでは学習用データベース1において、タグ付けされたメディアデータを利用して分類器を学習する。具体的には、2次計画法を利用して、SVMの最適化問題である式(14)の最適解β*=(β* 1,...,β* NT)Tを求める。カーネル関数は、
となるガウスカーネルを用いる。
入力データ特徴抽出部5は、学習用データ特徴抽出部2と同様に、入力のメディアデータから特徴ベクトルxqを作成する。
特徴次元削減部6は、次元削減空間学習部3で作成された変換行列USemiを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。
分類器評価部7は、分類器学習部4でタグごとに作成された、SVMの最適解β* を用いて、α* j:=(2yj,i−1)β* jを計算し、タグごとに、入力特徴ベクトルx′qに対する、式(11)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。
生成されたタグベクトルyqをタグベクトル出力部8により出力する。
なお、第5の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
〔第6の実施の形態〕
<システム構成>
次に、本発明の第6の実施の形態について説明する。なお、第6の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第6の実施の形態では、Laplacian-SVMによる分類器を用いて、タグベクトルを付与している点が、第1の実施の形態と異なっている。
第6の実施の形態に係るメディアデータ解析装置の学習用データベース1は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。学習用データ特徴抽出部2は、上記の第1の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグ付けされたメディアデータの各々についてタグベクトルを作成する。次元削減空間学習部3は、上記の式(34)の一般化固有値問題を解いて、変換行列USemiを構成し、上記の式(37)によって、特徴ベクトルx′jを作成する。
分類器学習部4は、タグごとにLaplacian-SVMによる分類器を作成する。具体的には、2次計画法を利用して、Laplacian-SVMの最適化問題である式(42)の最適解βLap*を求める。
カーネル関数は、
となるガウスカーネルを用いる。
入力データ特徴抽出部5は、学習用データ特徴抽出部2と同様に、入力のメディアデータから特徴ベクトルxqを作成する。
特徴次元削減部6は、次元削減空間学習部3で作成された変換行列USemiを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。
分類器評価部7は、分類器学習部4でタグごとに作成された、Laplacian-SVMの最適解βLap*を用いて、式(43)のα*を計算し、タグごとに、入力特徴ベクトルx′qに対する、式(41)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。
生成されたタグベクトルyqをタグベクトル出力部8により出力する。
なお、第6の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
〔第7の実施の形態〕
<システム構成>
次に、本発明の第7の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第7の実施の形態では、特徴ベクトルの次元削減は行わない点が、第2の実施の形態と異なっている。
図9に示すように、本発明の第7の実施の形態に係るメディアデータ解析装置700の演算部720は、学習用データベース1、学習用データ特徴抽出部2、分類器学習部704、入力データ特徴抽出部5、及び分類器評価部707を備えている。
学習用データベース1は、タグ付けされたメディアデータが蓄積されたデータベースであり、入力されたタグ付き学習用データ集合を記憶する。
学習用データ特徴抽出部2は、学習用データの各メディアデータから特徴ベクトルxjを算出すると共に、タグベクトルを作成する。
分類器学習部704は、タグごとにSVMによる分類器を作成する。具体的には、2次計画法を利用して、各学習用データの特徴ベクトルxjに基づいて、SVMの最適化問題である式(14)の最適解β*=(β* 1,...,β* NT)Tを求める。
入力データ特徴抽出部5は、上記の第1の実施の形態と同様に、入力のメディアデータから特徴ベクトルxqを作成する。
分類器評価部707は、分類器学習部4で作成された、SVMの最適解β*を用いて、α* j:=(2yj,i−1)β* jを計算し、入力特徴ベクトルxqに対する、上記の式(11)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。
生成されたタグベクトルyqをタグベクトル出力部8により出力する。
なお、第7の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
上記の第7の実施の形態では、SVMによる分類器を学習する場合を例に説明したが、これに限定されるものではなく、上記の第3の実施の形態のように、LSPCによる分類器を学習し、LSPCによる分類器を用いて、タグベクトルを付与するように構成してもよい。また、上記の第4の実施の形態のように、Laplacian-SVMによる分類器を学習し、Laplacian-SVMによる分類器を用いて、タグベクトルを付与するように構成してもよい。
<実験結果>
教師付き学習および半教師付き学習に基づく分類手法と次元削減手法をそれぞれメディアデータの自動タグ付け問題に適用し、各手法の比較検討を行った。
ここで、実験条件について説明する。自動タグ付けの実験用のメディアデータとして、Freesound(http://www.freesound.org/)の音素材データを用いた。Freesoundは作成者が定めた条件の下での著作物の二次利用を認めるCreative Commons License(http://creativecommons.org/)に基づいて、音楽素材の共有を行っているwebサービスである。このwebサービスではユーザ登録を行えば誰でも自分で作成した、あるいは録音した音楽素材を登録して共有することができ、既に多くの音素材が登録されている。登録されている音楽素材の多くはフィールドレコーディングにより録音された街頭の音や山や雨などの自然の音、あるいはドアの開閉音や機械の動作音などである。この他にもシンセサイザーにより作曲されたループミュージック用の短い素材なども多数登録さている。また、音素材の登録を行う際には、素材に対して任意の複数個の単語をタグとして付与することができる。したがって、Freesound上には豊富な種類の検索用のタグが存在する。
実験の際には、ファイルがWAV形式、サンプリングレートが44.1kHz、量子化ビット数が16bitの音素材2012個をこのFreesoundのデータベースからダウンロードして用いた。ステレオになっているファイルに対しては、両チャネルの音の平均をとってモノラルの信号に変換した。
MFCC特徴量を抽出するフレームは23ミリ秒とし、各フレームを12.5ミリ秒ずつづらしてとることで、それぞれの前後のフレームと半分ずつ重複するようにした。また、各フレームから抽出するMFCC特徴量は最初の13次元までの係数とした。したがって、Δ成分及びΔΔ成分まで含めた局所特徴量の次元数は39である。ベクトル量子化のクラスタリングの際には、全ての局所特徴量を用いると膨大な計算時間がかかるため、全ての音響素材から局所特徴量を500個ずつランダムランプリングしたものを集めてクラスタリングを行った。クラスタリングにはベクトル量子化の手法として、標準的なLBGアルゴリズムを使用し、クラスタ数は2048次元とした。bag-of-features特徴量の次元数はクラスタ数と等しくなり、dimx=2048である。
Freesoundの2012個の音素材には全部で1000を超える種類のタグが付与されていたが、このうちほとんどのタグは少数の音楽素材にしか付与されていなかったため、付与されている音楽素材の数が12以上ある230種類のタグのみを実験に用いることとした。すなわち、dimy=|V|=230である。表1にこれらのタグの一例を示す。
実験には、2012個の音素材のうち、1000個のタグ付き訓練標本、712個のタグなし訓練標本、300個の評価用標本にランダムに分けて用いた。なお、各タグの付与された音素材が、1000個のタグ付き訓練標本中には少なくとも4個、300個の評価用標本の中には少なくとも1個は含まれるようにした。分類手法の性能評価は、上記のような標本の分け方で各標本を50回ランダムに選び直し、その全てで実験を行ったAUC(Area Under the Curve)の平均値を用いて行った。AUCとは、受信者動作特性曲線(ROC曲線:Reciever Operatorating Characteristic curve)の下の面積である。ROC曲線とは図10のような曲線であり、閾値を大きな値から小さな値に変えていった時、正のクラスに分類された正例と負例の数によって描かれる。明らかに、正例に対して大きな値、負例に対して小さな値を出力する決定関数を用いた方が分類性能は良くなるため、AUCの値が高い分類器の方が分類性能が良いと言える。なお、SVMは閾値を0に定めた上で決定関数の学習を行うため、本来であれば分類の際の閾値は0に固定されるが、AUCを用いる際には閾値を動かしてその性能を評価することに注意すべきである。まず、教師付き学習に基づく分類手法および次元削減手法を自動タグ付けの問題に適用する。従来法として、カーネル密度推定法(KDE: Kernel Density Estimation、文献:M. Wang, X. Hua, T. Mei, R. Hong, G. Qi, Y. Song, and L. Dai, “ Semi-supervised kernel density estimation for video annotation ”, Computer Vision and Image Understanding, Vol. 113, No. 1, pp. 384-396, January 2009.)に基づく分類手法を利用する。
SVM、LSPC、KDEに基づく分類手法はいずれも内部にカーネル関数を含んでいる。ここではこのカーネル関数にはよく用いられるガウスカーネル
を用いた。ここで、σはカーネル幅と呼ばれるハイパーパラメータである。また、各分類手法が含むハイパーパラメータの値は、下記の(1)〜(3)の候補の中から2-fold交差確認法によって決定した。
(1)3つの手法全てのハイパーパラメータであるガウスカーネルの幅σの候補は{m/20,m/10,m/6,m/3,m/2,m,5m/2,5m,10m}とした。ただし、mは全訓練標本間の距離の中央値である。
(2)LSPCのハイパーパラメータである正規化項の係数λの候補値は{10−10,10−6,10−4,10−2,1}とした。
(3)SVMのマージンの大きさとHinge損失のトレードオフを決めるハイパーパラメータCの候補は{1/m′,0.5,1,10}を用いた。ここで、m′は||xj||2の平均値の逆数である。
教師付き学習を用いた分類では、これらのパラメータを全てのタグの分類器に共通で用いるものと、各タグに対する分類器ごとに異なる値を用いるものの二つの方法で実験を行った。また、分類に用いる特徴ベクトルは、そのままのbag-of-features特徴量と、CCAによって次元削減を行った特徴量の二つを用いた。なお、SVMの学習にはライブラリSVMlight(文献:T.Joachims,“SVMlight:Support Vector Machine ”, http://svmlight.joachims.org/, University of Dortmund, November 1999.)を使った。
教師付き学習に基づく分類手法の実験結果を表2に示す。
CCAによる次元削減を行う場合と行わなかった場合を比較してみると、ほとんどの条件において、次元削減を適用した場合には性能が落ちてしまっていることが分かる。これは、次元削減を行った方が分類性能が良くなるという当初の予想に反した結果である。このように次元削減を行ったことで逆に分類性能が落ちてしまった大きな原因としては、タグ付きの訓練標本が少なすぎて過学習に陥っていることが挙げられる。
次に、次元削減に用いていたCCAの代わりに、半教師付きの次元削減手法SemiCCAを用いて実験を行った。SVMとLSPCのハイパーパラメータは全ての分類器で共通の値、KDEのカーネル幅はタグ毎に異なる値をそれぞれ用いることとした。また、SemiCCAのパラメータηは一律にη=0.99とした。
表3にその結果をまとめたものを示す。
この結果から、SemiCCAで次元削減を行った特徴ベクトルを用いた分類性能は、CCAで次元削減を行った場合の分類性能よりも常に良くなっていることが分かる。これら二つの分類性能を有意水準5%のt検定にかけたところ、実際に有意な差があることも示された。特に、LSPCとKDEは次元削減を行わなかった場合よりもSemiCCAで次元削減を行った場合の方が有意に良い結果となっており、次元削減により分類性能を向上させることに成功した。一方、SVMを用いた際には次元削減前と比べるとSemiCCAで次元削減を行った場合の方が分類性能が悪くなってしまっている。
最後に、半教師付きの分類手法であるLaplacian-SVMを自動タグ付けの問題に適用する。従来法として、半教師付きカーネル密度推定法(SSKDE: Kernel Density Estimation、文献:M. Wang, X. Hua, T. Mei, R. Hong, G. Qi, Y. Song, and L. Dai,“ Semi-supervised kernel density estimation for video annotation ”, Computer Vision and Image Understanding, Vol. 113, No. 1, pp. 384-396, January 2009.)に基づく分類手法を利用する。
実験に用いるタグ付き・タグなしの訓練標本、および評価用標本はこれまでと同じものとする。また、各手法で用いるカーネル関数は教師付きの分類器と同じガウスカーネルとした。Laplacian-SVMでGraph Laplacianの計算に用いる重み行列Wは、
で定義される2値重みを用いた。また、SSKDEのタグ情報の信頼度τの値は良く使われる0.95を用いた。その他のハイパーパラメータは下記の(1)〜(5)の候補の中から2-fold交差確認法を用いて決定した。
(1)SSKDEのカーネルの幅は{m/20,m/10,m/6,m/4,m/3,m/2,m,5m/2,5m,10m}を候補とした。
(2)Laplacian-SVMのカーネルの幅は教師付きのSVMにおいて選ばれていた{m/4,m/3,m/2}を候補とした。
(3)Laplacian-SVMにおける重み行列W、およびSSKDEの疎な隣接行列M′の近傍数kはそれぞれ{1,5,10,20,30}を候補とした。
(4)Laplacian-SVMのLaplacian正規化項の係数γは{N/100,N/10,N/2}を候補とした。
(5)Laplacian-SVMのマージンの幅とHinge損失のトレードオフを決めるパラメータCは{0.5,1,10}を候補とした。
次元削減手法としては、SSKDEではそれぞれの半教師化前の手法において最も良い結果を示したSemiCCAを用い、Laplacian-SVMは半教師化前のSVMでは次元削減を行うと分類性能が下がってしまっていたため、次元削減を行わないそのままの特徴ベクトルを用いた。表4にこの結果をまとめたものを示す。
SSKDEの分類性能は、教師付きの分類手法に比べて大きく向上していると言える。一方で、Laplacian-SVMの分類性能は教師付きのSVMのものとほぼ変わらず、有意水準5%のt検定においても有意な差とはならなかった。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、メディアデータが、音素材(音響信号)以外であってもよい。例えば、画像データ、映像データ、テキストデータなどのコンテンツデータに対して、タグを付与するようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 学習用データベース
2 学習用データ特徴抽出部
3 次元削減空間学習部
4、704 分類器学習部
5 入力データ特徴抽出部
6 特徴次元削減部
7、707 分類器評価部
8 タグベクトル出力部
10 入力部
20、720 演算部
30 タグベクトル出力部
100、700 メディアデータ解析装置

Claims (3)

  1. 与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置であって、
    前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段と、
    前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段と、
    前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段と、
    前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段と、
    入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段と、
    前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段と、
    前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段と、
    を含むメディアデータ解析装置。
  2. 与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置におけるメディアデータ解析方法であって、
    学習用データ特徴抽出手段によって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出し、
    次元削減空間学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、
    次元削減特徴生成手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成し、
    分類モデル学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習し、
    入力データ特徴抽出手段によって、入力されたコンテンツデータから、前記特徴ベクトルを抽出し、
    特徴次元削減手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成し、
    分類手段によって、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する
    メディアデータ解析方法。
  3. 与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するためのプログラムであって、
    コンピュータを、
    前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段、
    前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段、
    前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段、
    前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段、
    入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段、
    前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段、及び
    前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段
    として機能させるためのプログラム。
JP2012166138A 2012-07-26 2012-07-26 メディアデータ解析装置、方法、及びプログラム Pending JP2014026455A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012166138A JP2014026455A (ja) 2012-07-26 2012-07-26 メディアデータ解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012166138A JP2014026455A (ja) 2012-07-26 2012-07-26 メディアデータ解析装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2014026455A true JP2014026455A (ja) 2014-02-06

Family

ID=50200041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012166138A Pending JP2014026455A (ja) 2012-07-26 2012-07-26 メディアデータ解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2014026455A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550172A (zh) * 2016-01-13 2016-05-04 夏峰 一种分布式文本检测方法及***
EP3016033A1 (en) 2014-10-29 2016-05-04 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
CN105701077A (zh) * 2016-01-13 2016-06-22 夏峰 一种多语种文献检测方法及***
CN105701075A (zh) * 2016-01-13 2016-06-22 夏峰 一种文献联合检测方法及***
CN105701086A (zh) * 2016-01-13 2016-06-22 夏峰 一种滑动窗口文献检测方法及***
CN105701087A (zh) * 2016-01-13 2016-06-22 夏峰 一种公式抄袭检测方法及***
JP2019133496A (ja) * 2018-02-01 2019-08-08 日本電信電話株式会社 コンテンツ特徴量抽出装置、方法、及びプログラム
CN110781906A (zh) * 2018-07-31 2020-02-11 中国工程物理研究院电子工程研究所 一种基于半监督支持向量机的n-γ甄别方法
CN111639540A (zh) * 2020-04-30 2020-09-08 中国海洋大学 基于相机风格和人体姿态适应的半监督人物重识别方法
CN113392642A (zh) * 2021-06-04 2021-09-14 北京师范大学 一种基于元学习的育人案例自动标注***及方法
CN114582366A (zh) * 2022-03-02 2022-06-03 浪潮云信息技术股份公司 一种基于LapSVM实现音频分段打标签的方法
US11367003B2 (en) 2017-04-17 2022-06-21 Fujitsu Limited Non-transitory computer-readable storage medium, learning method, and learning device
JP7410334B2 (ja) 2020-05-27 2024-01-09 ロブロックス・コーポレーション ゲームタグの自動生成

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282980A (ja) * 2008-05-20 2009-12-03 Ricoh Co Ltd 画像学習、自動注釈、検索方法及び装置
JP2010250391A (ja) * 2009-04-10 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> データ分類方法及び装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282980A (ja) * 2008-05-20 2009-12-03 Ricoh Co Ltd 画像学習、自動注釈、検索方法及び装置
JP2010250391A (ja) * 2009-04-10 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> データ分類方法及び装置及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG201001047001; 高木 潤: '半教師付き正準密度推定法に基づく音響信号の自動タグ付けと検索' 電子情報通信学会技術研究報告 Vol.110 No.330, 20101202, 1-6ページ, 社団法人電子情報通信学会 *
JPN6015003223; 高木 潤: '半教師付き正準密度推定法に基づく音響信号の自動タグ付けと検索' 電子情報通信学会技術研究報告 Vol.110 No.330, 20101202, 1-6ページ, 社団法人電子情報通信学会 *
JPN6015003224; Takagi: 'Automatic audio tag classification via semi-supervised canonical density estimation' Acoustics, Speech and Signal Processing (ICASSP) , 20110522, 2232 - 2235ページ *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3016033A1 (en) 2014-10-29 2016-05-04 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
US10284583B2 (en) 2014-10-29 2019-05-07 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
CN105701077A (zh) * 2016-01-13 2016-06-22 夏峰 一种多语种文献检测方法及***
CN105701075A (zh) * 2016-01-13 2016-06-22 夏峰 一种文献联合检测方法及***
CN105701086A (zh) * 2016-01-13 2016-06-22 夏峰 一种滑动窗口文献检测方法及***
CN105701087A (zh) * 2016-01-13 2016-06-22 夏峰 一种公式抄袭检测方法及***
CN105550172A (zh) * 2016-01-13 2016-05-04 夏峰 一种分布式文本检测方法及***
US11367003B2 (en) 2017-04-17 2022-06-21 Fujitsu Limited Non-transitory computer-readable storage medium, learning method, and learning device
JP6993250B2 (ja) 2018-02-01 2022-01-13 日本電信電話株式会社 コンテンツ特徴量抽出装置、方法、及びプログラム
JP2019133496A (ja) * 2018-02-01 2019-08-08 日本電信電話株式会社 コンテンツ特徴量抽出装置、方法、及びプログラム
CN110781906A (zh) * 2018-07-31 2020-02-11 中国工程物理研究院电子工程研究所 一种基于半监督支持向量机的n-γ甄别方法
CN111639540A (zh) * 2020-04-30 2020-09-08 中国海洋大学 基于相机风格和人体姿态适应的半监督人物重识别方法
CN111639540B (zh) * 2020-04-30 2023-08-04 中国海洋大学 基于相机风格和人体姿态适应的半监督人物重识别方法
JP7410334B2 (ja) 2020-05-27 2024-01-09 ロブロックス・コーポレーション ゲームタグの自動生成
CN113392642A (zh) * 2021-06-04 2021-09-14 北京师范大学 一种基于元学习的育人案例自动标注***及方法
CN113392642B (zh) * 2021-06-04 2023-06-02 北京师范大学 一种基于元学习的育人案例自动标注***及方法
CN114582366A (zh) * 2022-03-02 2022-06-03 浪潮云信息技术股份公司 一种基于LapSVM实现音频分段打标签的方法

Similar Documents

Publication Publication Date Title
JP2014026455A (ja) メディアデータ解析装置、方法、及びプログラム
Sun et al. Domain adversarial training for accented speech recognition
US9311609B2 (en) Techniques for evaluation, building and/or retraining of a classification model
Zhuang et al. Real-world acoustic event detection
Wang et al. Using parallel tokenizers with DTW matrix combination for low-resource spoken term detection
Babaee et al. An overview of audio event detection methods from feature extraction to classification
Dekel et al. An online algorithm for hierarchical phoneme classification
Bouguila A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity
US20220309292A1 (en) Growing labels from semi-supervised learning
Zou et al. Improved voice activity detection based on support vector machine with high separable speech feature vectors
US20210357704A1 (en) Semi-supervised learning with group constraints
Cho et al. Non-contrastive self-supervised learning for utterance-level information extraction from speech
Egas-López et al. Predicting a cold from speech using fisher vectors; svm and xgboost as classifiers
Borgström Bayesian estimation of PLDA in the presence of noisy training labels, with applications to speaker verification
Cipli et al. Multi-class acoustic event classification of hydrophone data
US20210192318A1 (en) System and method for training deep-learning classifiers
US8185490B1 (en) Class-specific iterated subspace classifier
CN114547264A (zh) 一种基于马氏距离和对比学习的新意图数据识别方法
JP4256314B2 (ja) 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体
US11107460B2 (en) Adversarial speaker adaptation
Wilkinson Robust voice activity detection for low-resource automatic speech recognition
Hammami et al. Tree distributions approximation model for robust discrete speech recognition
Kangala et al. A Fractional Ebola Optimization Search Algorithm Approach for Enhanced Speaker Diarization.
Sholokhov Improving machine learning methods for speaker recognition and segmentation
Affek et al. Open-Set Speaker Identification Using Closed-Set Pretrained Embeddings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150721