JP5477635B2 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP5477635B2
JP5477635B2 JP2010030178A JP2010030178A JP5477635B2 JP 5477635 B2 JP5477635 B2 JP 5477635B2 JP 2010030178 A JP2010030178 A JP 2010030178A JP 2010030178 A JP2010030178 A JP 2010030178A JP 5477635 B2 JP5477635 B2 JP 5477635B2
Authority
JP
Japan
Prior art keywords
label
discriminator
cluster
content
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010030178A
Other languages
English (en)
Other versions
JP2011165131A (ja
Inventor
真里 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010030178A priority Critical patent/JP5477635B2/ja
Priority to US12/931,568 priority patent/US8812503B2/en
Priority to CN2011100348938A priority patent/CN102163208A/zh
Publication of JP2011165131A publication Critical patent/JP2011165131A/ja
Application granted granted Critical
Publication of JP5477635B2 publication Critical patent/JP5477635B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、所定のコンテンツに対して、国や文化が異なる場合であっても、感性的な情報を正確に付与することができるようにした情報処理装置および方法、並びにプログラムに関する。
従来、コンテンツに対して、そのコンテンツの特徴を表すメタデータ(例えば、ジャンルなど)を付与することで、大量のコンテンツの中から所望のコンテンツを検索することがなされている。
特に、近年、コンテンツに対して、感性的な情報(以下、ラベルという)をメタデータとして付与するなどして、ユーザの感情(ムード)に適したコンテンツを検索して推薦するようにしたもの(例えば、特許文献1参照)や、ユーザの指定したコンテクスト(ユーザの状況、状態を表すもの)に対応するムードのラベルを有するコンテンツを検索して推薦するようにしたものが提案されている(例えば、特許文献2参照)。
特開2007−172523号公報 特開2007−207218号公報
しかしながら、上述したようなコンテンツの検索に用いられるラベルの候補として、どのようなラベルを用意すべきかを一概に決めることは容易ではない。
具体的には、ラベルの候補として重複(類似)のないものを用意するのが望ましいが、類似の有無を評価することは、手間がかかり面倒である。
また、国や文化が異なる場合、ラベルを表す単語を翻訳することで、コンテンツの検索に用いることが考えられた。例えば、コンテンツとしての楽曲に、日本語の「幸せ」がメタデータとして付与されている場合、アメリカにおいては、辞書によって日本語の「幸せ」に対応付けられている英語の「Happy」により、そのコンテンツが検索される。
しかしながら、日本において「幸せ」が付与されている楽曲は、テンポが遅く、打楽器が少なく、コード進行が緩やかである一方、アメリカにおいて「happy」が付与されている楽曲は、テンポが速く、打楽器が多い。このように、国や文化が異なると、人間の感性も異なるため、ラベルの単純な翻訳で、所望のコンテンツを正確に検索できるとは限らない。
そこで、国や文化圏毎にラベルを予め用意してコンテンツに付与することが考えられるが、これもまた手間がかかる上に、その国の言語や文化を理解していないとラベルを正確に扱うことすらできない。
本発明はこのような状況に鑑みてなされたものであり、所定のコンテンツに対して、国や文化が異なる場合であっても、感性的な情報を正確に付与することができるようにするものである。
本発明の一側面の情報処理装置は、コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、前記コンテンツへの評価の信頼度が高い前記ラベルを選択する選択手段と、前記選択手段によって選択された前記ラベル間の類似度を算出する算出手段と、前記算出手段によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリング手段と、前記クラスタリング手段によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成手段と、前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリング手段によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶手段とを備える。
前記算出手段には、前記選択手段によって選択された前記ラベルと、前記クラスタリング手段によって予め得られた既存クラスタとの間の類似度を算出させ、前記クラスタリング手段には、前記類似度に基づいて、前記ラベルを前記既存クラスタにクラスタリングさせることができる。
前記生成手段には、前記ラベルが前記既存クラスタにクラスタリングされた新規クラスタについての判別器である新規クラスタ判別器を生成させ、前記記憶手段には、前記既存クラスタについての前記クラスタ判別器の判別精度より、前記新規クラスタ判別器の判別精度の方が良い場合、前記新規クラスタを1つのラベルとして記憶させることができる。
前記情報処理装置には、コンテンツを評価するために入力された前記ラベルが、前記クラスタリング手段によるクラスタリングの結果得られた前記クラスタに含まれる場合、前記クラスタに含まれる、入力された前記ラベル以外のラベルを前記コンテンツに付与する付与手段をさらに設けることができる。
前記ラベルは、複数の異なる言語で与えられるようにすることができる。
本発明の一側面の情報処理方法は、コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、前記コンテンツへの評価の信頼度が高い前記ラベルを選択する選択手段と、前記選択手段によって選択された前記ラベル間の類似度を算出する算出手段と、前記算出手段によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリング手段と、前記クラスタリング手段によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成手段と、前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリング手段によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶手段とを備える情報処理装置の情報処理方法であって、前記選択手段が、コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、評価の信頼度が高い前記ラベルを選択する選択ステップと、前記算出手段が、前記選択ステップの処理によって選択された前記ラベル間の類似度を算出する算出ステップと、前記クラスタリング手段が、前記算出ステップの処理によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリングステップと、前記生成手段が、前記クラスタリングステップの処理によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成ステップと、前記記憶手段が、前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリングステップの処理によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶ステップとを含む。
本発明の一側面のプログラムは、コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、前記コンテンツへの評価の信頼度が高い前記ラベルを選択する選択手段と、前記選択手段によって選択された前記ラベル間の類似度を算出する算出手段と、前記算出手段によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリング手段と、前記クラスタリング手段によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成手段と、前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリング手段によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶手段とを備える情報処理装置を制御するコンピュータに、前記選択手段が、コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、評価の信頼度が高い前記ラベルを選択する選択ステップと、前記算出手段が、前記選択ステップの処理によって選択された前記ラベル間の類似度を算出する算出ステップと、前記クラスタリング手段が、前記算出ステップの処理によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリングステップと、前記生成手段が、前記クラスタリングステップの処理によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成ステップと、前記記憶手段が、前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリングステップの処理によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶ステップとを含む処理実行させる。
本発明の一側面においては、コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数のコンテンツに付与されているラベルのうち、評価の信頼度が高いラベルが選択され、選択されたラベル間の類似度が算出され、算出された類似度に基づいて、ラベルがクラスタリングされ、クラスタリングされたラベルが付与されているコンテンツの特徴量に基づいて、コンテンツのクラスタへの該当を判別するための判別器であるクラスタ判別器、および、コンテンツの、クラスタリングされたラベルへの該当を判別するための判別器であるラベル判別器が生成され、ラベル判別器の判別精度より、クラスタ判別器の判別精度の方が良い場合、クラスタリングの結果得られたクラスタが1つのラベルとして記憶される。
本発明の一側面によれば、所定のアイテムに対して、国や文化が異なる場合であっても、感性的な情報を正確に付与することが可能となる。
本発明を適用したシステムの一実施の形態の構成を示すブロック図である。 サーバのハードウェア構成例を示すブロック図である。 サーバの機能構成例を示すブロック図である。 ラベル管理部の構成例を示す図である。 類似度算出部の処理について説明する図である。 類似度算出部の処理について説明する図である。 ラベルの例を示す図である。 精度計算部の処理について説明する図である。 翻訳リストについて説明する図である。 ラベルのクラスタリング処理の例について説明するフローチャートである。 ラベルのクラスタリング処理の他の例について説明するフローチャートである。 ラベルの付与処理について説明するフローチャートである。
以下、本発明の実施の形態について図を参照して説明する。
[システムの構成について]
図1は、本発明を適用したシステムの一実施の形態の構成を示す図である。ネットワーク1には、サーバ2、端末3−1乃至3−Nが接続されている。図1に示されるシステムは、ユーザによって検索された所定のコンテンツ(例えば、楽曲、番組、商品など)を、ユーザに提示するシステムである。ネットワーク1は、インターネットやLAN(Local Area Network)などから構成される。
サーバ2は、ユーザによって検索されるコンテンツを蓄積したり、ユーザがコンテンツを検索するための情報をコンテンツに付与したりする。端末3−1乃至3−Nは、ユーザ側の端末である。例えば、ユーザが、端末3−1によりコンテンツを検索するための情報を入力したとき、サーバ2では、その情報に基づいてコンテンツが検索され、ネットワーク1を介して端末3−1に供給される。
以下の説明において、端末3−1乃至3−Nを個々に区別する必要がない場合、単に、端末3という。また、図1においては、サーバ2を1つしか記載していないが、複数設けることももちろん可能である。
[サーバのハードウェア構成について]
次に、図2を参照して、サーバ2のハードウェア構成について説明する。
CPU(Central Processing Unit)21は、ROM(Read Only Memory)22、または記憶部28に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)23には、CPU21が実行するプログラムやデータなどが適宜記憶される。これらのCPU21、ROM22、およびRAM23は、バス24により相互に接続されている。
CPU21にはまた、バス24を介して入出力インタフェース25が接続されている。入出力インタフェース25には、キーボード、マウス、マイクロホンなどよりなる入力部26、ディスプレイ、スピーカなどよりなる出力部27が接続されている。CPU21は、入力部26から入力される指令に対応して各種の処理を実行する。そして、CPU21は、処理の結果を出力部27に出力する。
入出力インタフェース25に接続されている記憶部28は、例えばハードディスクからなり、CPU21が実行するプログラムや各種のデータを記憶する。通信部29は、ネットワーク1を介して外部の装置(例えば、端末3)と通信することで、外部の装置からの指令を入力したり、外部の装置へ情報を出力する。また、通信部29を介してプログラムを取得し、記憶部28に記憶してもよい。
入出力インタフェース25に接続されているドライブ30は、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア31が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部28に転送され、記憶される。
なお、端末3は、基本的にサーバ2と同様に構成することができるので、ここでは、その説明を省略する。
[サーバの機能構成について]
次に、図3を参照して、サーバ2の機能構成例について説明する。
図3のサーバ2は、ラベル管理部51、ラベル付与部52、コンテンツDB(Database)53、および提示部54から構成される。ラベル管理部51およびラベル付与部52は、CPU21(図2)が所定のプログラムを実行することによって実現される。
ラベル管理部51は、コンテンツに付与されるメタデータである感性ラベル(以下、単にラベルという)を管理し、必要に応じてラベル付与部52または提示部54に供給する。ラベル管理部51の詳細については後述する。
ラベルは、コンテンツに対するユーザの主観的な評価(感性)を表す情報である。より具体的には、ラベルには、コンテンツに対するユーザの感情を表すムード、ユーザの状況を表すコンテクスト、ユーザの活動を表すアクティビティなどを表すものがある。
ラベル付与部52は、ユーザによる端末3からの指令に基づいて、記憶部28(図2)に対応するコンテンツDB53に蓄積(記憶)されているコンテンツを読み出し、そのコンテンツに対して、ラベル管理部51に管理されているラベルをメタデータとして付与する。ラベル付与部52は、ラベルを付与したコンテンツを、再度、コンテンツDB53に記憶させたり、提示部54に供給する。
提示部54は、図2の出力部27および通信部29に対応する機能を有する。出力部27としての提示部54は、端末3からの指令に基づいて読み出された、ラベル管理部51により管理されているラベルや、コンテンツDB53に蓄積されているコンテンツを表示する。また、通信部29としての提示部54は、端末3からの指令に基づいて読み出された、ラベル管理部51により管理されているラベルや、コンテンツDB53に蓄積されているコンテンツを、ネットワーク1を介して端末3に供給する。端末3に供給されたコンテンツは、端末3の図示せぬ出力部(ディスプレイなど)に表示される。
[ラベル管理部の構成について]
次に、図4を参照して、ラベル管理部51の詳細な構成について説明する。
ラベル管理部51は、コンテンツ取得部71、ラベル選択部72、類似度算出部73、クラスタリング部74、判別器生成部75、精度計算部76、およびラベルDB77から構成される。
コンテンツ取得部71は、コンテンツDB53(図3)や、ネットワーク1上の端末3または他のサーバ等に蓄積されている大量のコンテンツの中から、所定量のコンテンツを取得し、保持する。例えば、コンテンツが楽曲である場合、コンテンツ取得部71は、様々なジャンル(J-POP、ロック、クラシック、演歌など)の楽曲を取得する。
コンテンツ取得部71によって取得されるコンテンツには、1または複数のユーザ(ボランティア)によって、メタデータとしてのラベルが予め付与されている。このラベルは、国(言語)や文化を問わず多数用意され、ボランティアのコンテンツに対する評価として、コンテンツに付与される。具体的には、例えば、ある日本人がある楽曲Aを聞いて「幸せ」な気分になった場合、楽曲Aには日本語のラベル「幸せ」が付与され、あるアメリカ人がある楽曲Bを聞いて「happy」な気分になった場合、楽曲Bには英語のラベル「happy」が付与される。
コンテンツ取得部71によって取得されるコンテンツに付与されているラベルは、ボランティアによる端末3からの要求に応じて、サーバ2のコンテンツDB53に蓄積されているコンテンツに付与されたり、ネットワーク1上のコンテンツに付与される。
また、コンテンツ取得部71によって取得されるコンテンツには、そのコンテンツについての物理的(客観的)特徴量(以下、単に特徴量という)が予め付与されている。例えば、コンテンツが楽曲である場合、楽曲のテンポ、コード進行、音の立ち上がり、楽曲についての説明文等から抽出されたキーワードなどが、特徴量として楽曲に付与されている。
ラベル選択部72は、コンテンツ取得部71によって取得された所定量のコンテンツに付与されているラベルのうち、コンテンツへの評価の信頼度が高いラベルを選択し、類似度算出部73に供給する。
より具体的には、例えば、ラベル選択部72は、コンテンツ取得部71によって取得されたコンテンツに付与されているラベルのうち、付与されているコンテンツが極端に少ないラベルを除いたラベルを選択する。また、例えば、複数のボランティアによってラベルが付与されている場合、ラベル選択部72は、コンテンツ取得部71によって取得されたコンテンツに付与されているラベルのうち、ボランティアによるラベルの付与(コンテンツに対する評価)の傾向(レイティング)にばらつきがあるラベルを除いたラベルを選択する。
類似度算出部73は、ラベル選択部72から供給された各ラベル間の類似度を算出する。
例えば、類似度算出部73は、ラベル選択部72からの各ラベルのレイティングの相関を求めることで類似度を算出する。
ここで、図5を参照して、ラベル間の類似度の算出について説明する。
図5においては、ムードを表すラベルと、そのラベルが用いられている国を表すコードとが対応付けて示されている。より具体的には、「US」(アメリカ)と英語の「happy」、「DE」(ドイツ)とドイツ語の「gelungen」、「JP」(日本)と日本語の「幸せ」、「US」(アメリカ)と英語の「mellow」が、それぞれ対応付けられている。このように、ラベルは、世界中の各国(言語)について与えられている。
そして、類似度算出部73によれば、「happy」と「gelungen」との間で、例えば5段階評価などの相関や一致率が高い場合、「happy」と「gelungen」の類似度(レイティングの相関)が高いとされる。また、「幸せ」と「mellow」との間で、例えば5段階評価などの相関や一致率が高い場合、「幸せ」と「mellow」の類似度が高いとされる。
また、類似度算出部73は、ラベル選択部72からの各ラベルが付与されていたコンテンツの特徴量に基づいて、各ラベル間の類似度を算出するようにすることもできる。
ここで、図6を参照して、各ラベルが付与されていたコンテンツの特徴量に基づいた、ラベル間の類似度の算出について説明する。
図6においては、図5と同様のラベルが示されているが、さらに、それぞれのラベルの右側には、そのラベルが付与されていたコンテンツの特徴量が示されている。なお、それぞれのラベルが付与されていたコンテンツは1つに限らないので、図6において示されているコンテンツの特徴量は、例えば、そのラベルが付与されていた複数のコンテンツの特徴量を数値化したものを平均して3段階(High,Medium,Low)に分類したものとする。
より具体的には、図6に示されるように、「happy」が付与されていたコンテンツの特徴量としてのテンポ、コードチェンジ、およびパーカッションは、それぞれHigh、High、およびMediumとなっている。これは、「happy」が付与されていたコンテンツは、テンポが速く、コードチェンジが多く、打楽器がやや多いという特徴を有する傾向にあることを示している。
また、「gelungen」が付与されていたコンテンツの特徴量としてのテンポ、コードチェンジ、およびパーカッションは、それぞれHigh、High、およびHighとなっている。これは、「gelungen」が付与されていたコンテンツは、テンポが速く、コードチェンジが多く、打楽器が多いという特徴を有する傾向にあることを示している。
さらに、「幸せ」が付与されていたコンテンツの特徴量としてのテンポ、コードチェンジ、およびパーカッションは、それぞれLow、Low、およびLowとなっている。これは、「幸せ」が付与されていたコンテンツは、テンポが遅く、コードチェンジが少なく、打楽器が少ないという特徴を有する傾向にあることを示している。
また、「mellow」が付与されていたコンテンツの特徴量としてのテンポ、コードチェンジ、およびパーカッションは、それぞれLow、Medium、およびLowとなっている。これは、「mellow」が付与されていたコンテンツは、テンポが遅く、コードチェンジがやや多く、打楽器が少ないという特徴を有する傾向にあることを示している。
そして、類似度算出部73によれば、「happy」が付与されていたコンテンツの特徴量と、「gelungen」が付与されていたコンテンツの特徴量との類似度が高く、「幸せ」が付与されていたコンテンツの特徴量と、「mellow」が付与されていたコンテンツの特徴量との類似度が高いとされる。
このようにして、類似度算出部73は、ラベル選択部72からの各ラベル間の類似度を算出し、各ラベルとその類似度を表す情報をクラスタリング部74に供給する。
なお、類似度算出部73は、上述で説明した手法に限らず、他の手法によりラベル間の類似度を算出するようにしてもよい。
また、図5および図6では、ムードを表すラベル間の類似度の算出について説明したが、類似度算出部73は、図7に示されるような、コンテクストやアクティビティを表すラベル間の類似度を算出することもできる。
図7は、コンテクストやアクティビティを表すラベルの例を示している。
図7においては、コンテクストまたはアクティビティを表すラベルと、そのラベルが用いられている国のコードとが対応付けて示されている。より具体的には、図7の上から順番に、「DE」とドイツ語の「aggressiv」、「DE」とドイツ語の「sport」、「JP」と日本語の「落ち着かない」、「JP」と日本語の「勇敢な」、「JP」と日本語の「ジョギング」、「US」と英語の「aggressive」、「US」と英語の「Sports」が、それぞれ対応付けられている。
そして、類似度算出部73は、図7で示されるようなラベル間の類似度を、各ラベルのレイティングの相関として算出したり、各ラベルが付与されていたコンテンツの特徴量に基づいて算出することができる。
さらに、類似度算出部73は、ラベル間の類似度だけでなく、ラベルDB77に蓄積されている、所定のラベルがクラスタリング(グループ化)されたクラスタと、別個に取得されたラベルとの間の類似度を算出する。
ラベルのクラスタリングについては後述するが、所定のラベルがクラスタリングされたクラスタは、個々のラベルと同様に扱うことができる。類似度算出部73は、ラベルとクラスタとの間の類似度を、それぞれのレイティングの相関として算出したり、それぞれが付与されていたコンテンツの特徴量に基づいて算出することができる。
そして、類似度算出部73は、算出したラベルとクラスタとの間の類似度を表す情報を、そのラベルおよびクラスタとともに、クラスタリング部74に供給する。
クラスタリング部74は、類似度算出部73からの各ラベルとその類似度を表す情報に基づいて、ラベルをクラスタリングし、その結果得られたクラスタ(ラベルのグループ)を判別器生成部75に供給する。
例えば、クラスタリング部74は、類似度算出部73からのラベル間で、類似度が高いラベルのペアを1つのクラスタとする。より具体的には、クラスタリング部74は、図5および図6で、類似度が高いとされた「happy」および「gelungen」のペアと、「幸せ」および「mellow」のペアとを、それぞれ1つのクラスタとする。なお、クラスタリングされるラベルは、ペア(2つのラベル)に限らず、3つ以上のラベルがクラスタリングされるようにしてももちろんよい。
また、クラスタリング部74は、類似度算出部73からラベルとクラスタとの間の類似度を表す情報が供給され、その類似度が所定の値より大きい場合、ラベルをクラスタにクラスタリングすることで新たなクラスタを得て、判別器生成部75に供給する。
判別器生成部75は、クラスタリング部74からのクラスタに含まれるラベルが付与されていたコンテンツの特徴量に基づいて、コンテンツの、クラスタへの該当/非該当を機械学習によって判別するための判別器であるクラスタ判別器を生成する。また、判別器生成部75は、クラスタリング部74からのクラスタに含まれるラベルが付与されていたコンテンツの特徴量に基づいて、コンテンツの、クラスタに含まれる各ラベルへの該当/非該当を機械学習によって判別するための判別器であるラベル判別器を、ラベル毎に生成する。判別器生成部75は、生成した判別器を精度計算部76に供給する。
例えば、判別器生成部75は、クラスタリング部74から、「happy」および「gelungen」からなるクラスタが供給された場合、「happy」および「gelungen」のそれぞれが付与されていたコンテンツの特徴量を、コンテンツ取得部71から取得し、その特徴量に基づいて、「happy」および「gelungen」からなるクラスタのクラスタ判別器と、「happy」および「gelungen」のそれぞれのラベルのラベル判別器とを生成する。
また、例えば、判別器生成部75は、クラスタリング部74から、ラベルとクラスタとからなる新たなクラスタが供給された場合、ラベルおよびクラスタに含まれる各ラベルのそれぞれが付与されていたコンテンツの特徴量を、コンテンツ取得部71から取得し、その特徴量に基づいて、新たなクラスタのクラスタ判別器を生成(再生成)する。
精度計算部76は、判別器生成部75から供給された判別器の判別精度を計算する。
より具体的には、精度計算部76は、判別器生成部75から、クラスタ判別器とクラスタに含まれるラベル毎のラベル判別器とが供給された場合、クラスタ判別器の判別精度と、各ラベルのラベル判別器の判別精度とを求め、比較する。比較の結果、クラスタ判別器の判別精度の方が高い場合、精度計算部76は、クラスタを1つのラベルとして、ラベルDB77に供給する。一方、各ラベルのラベル判別器の判別精度の方が高い場合、精度計算部76は、クラスタに含まれる各ラベルをラベルDB77に供給する。
ここで、図8を参照して、精度計算部76の処理の具体例について説明する。
図8の左側に示されるように、精度計算部76は、例えば、3つのラベル(「DE」の「dark」、「US」の「angry」、および「US」の「dark」)それぞれのラベル判別器の判別精度を求める。図8においては、「DE」の「dark」のラベル判別器の判別精度は0.62、「US」の「angry」のラベル判別器の判別精度は0.43、「US」の「dark」のラベル判別器の判別精度は0.39となっている。さらに、精度計算部76は、この3つのラベルについてのラベル判別器の判別精度より、その平均値(Average)0.48を求める。
さらに、精度計算部76は、3つのラベルがクラスタリングされたクラスタのクラスタ判別器の判別精度(Cluster)0.79を求め、3つのラベル判別器の判別精度の平均値と比較する。
この場合、3つのラベル判別器の判別精度の平均値0.48と、クラスタ判別器の判別精度0.79とを比較すると、クラスタ判別器の判別精度0.79の方が大きいので、精度計算部76は、3つのラベルがクラスタリングされたクラスタを1つのラベルとして、ラベルDB77に供給する。
このようにして得られるクラスタは、国(言語)や文化を問わず、人間の感性(主観的な評価)に基づいてクラスタリングされたラベルからなる。
また、図8の右側に示されるように、精度計算部76は、例えば、図7で示された7つのラベルそれぞれのラベル判別器の判別精度を求める。図8においては、「DE」の「aggressiv」のラベル判別器の判別精度は0.73、「DE」の「sport」のラベル判別器の判別精度は0.77、「JP」の「落ち着かない」のラベル判別器の判別精度は0.66、「JP」の「勇敢な」のラベル判別器の判別精度は0.69、「JP」の「ジョギング」のラベル判別器の判別精度は0.74、「US」の「aggressive」のラベル判別器の判別精度は0.78、「US」の「Sports」のラベル判別器の判別精度は0.78となっている。さらに、精度計算部76は、この7つのラベルについてのラベル判別器の判別精度より、その平均値(Average)0.74を求める。
さらに、精度計算部76は、7つのラベルがクラスタリングされたクラスタのクラスタ判別器の判別精度(Cluster)0.62を求め、7つのラベル判別器の判別精度の平均値と比較する。
この場合、7つのラベル判別器の判別精度の平均値0.74と、クラスタ判別器の判別精度0.62とを比較すると、ラベル判別器の判別精度の平均値0.74の方が大きいので、精度計算部76は、7つのラベルそれぞれをラベルDB77に供給する。
なお、精度計算部76によって求められた判別器の精度は、判別器毎に、精度計算部76内の図示せぬ記憶部に保持されるものとする。
また、精度計算部76は、判別器生成部75から、再生成されたクラスタ判別器が供給された場合、再生成されたクラスタ判別器についての判別精度を求め、再生成される前の(図示せぬ記憶部に保持されている)クラスタ判別器の判別精度と比較する。比較の結果、再生成されたクラスタ判別器についての判別精度の方が高い場合、精度計算部76は、新たなクラスタを1つのラベルとして、ラベルDB77に供給する。一方、再生成される前のクラスタ判別器についての判別精度の方が高い場合、精度計算部76は、クラスタリングされる前のクラスタをラベルDB77に供給する。
ラベルDB77には、精度計算部76から供給されたクラスタおよびラベルが蓄積(記憶)される。ラベルDB77に蓄積されたクラスタは、ラベルと同様に扱われ、ラベル付与部52に読み出され、所定のコンテンツに付与される。また、逆に、ラベルDB77に蓄積された、最終的にクラスタリングされなかったラベルは、それぞれ1つのクラスタとして扱われる。なお、ラベルDB77に蓄積されているクラスタ(ラベル)は、適宜、類似度算出部73に読み出され、ラベルとの類似度が算出される。
また、ラベルDB77には、クラスタに含まれる各国の言語のラベルを対応付けた翻訳リスト77aが保持されている。
ここで、図9を参照して、翻訳リスト77aの例について説明する。
図9に示されるように、翻訳リスト77aにおいては、5つのクラスタ(Cluster1乃至5)のそれぞれについて、各クラスタに含まれる、英語(「US」)、ドイツ語(「DE」)、日本語(「JP」)のラベルが対応付けられている。
より具体的には、Cluster1に含まれるラベルとして、英語の「happy」およびドイツ語の「gelungen」が対応付けられており、Cluster2に含まれるラベルとして、英語の「angry」およびドイツ語の「dunkel」が対応付けられている。また、Cluster3に含まれるラベルとして、英語の「mellow」および日本語の「幸せ」が対応付けられており、Cluster4に含まれるラベルとしては、日本語の「ほのぼの」のみが示されている。そして、Cluster5に含まれるラベルとして、英語の「aggressive」および「Sports」、ドイツ語の「aggressiv」、並びに日本語の「落ち着かない」および「ジョギング」が対応付けられている。
このような翻訳リスト77aは、ユーザが、端末3よりコンテンツDB53のコンテンツに対してラベルを付与する際にラベル付与部52によって参照されたり、ラベルが付与されたコンテンツを表示する際に提示部54によって参照される。
例えば、ドイツ語を理解できないアメリカ人が、ドイツ滞在中などに、ある楽曲に対するラベルとして、英語の「happy」に対応するドイツ語のラベルを付与しようとする場合、図9の翻訳リスト77aによれば、「happy」と同一クラスタ(Cluster1)に含まれる「gelungen」がその楽曲に付与されるようになる。
また、例えば、英語を理解できない日本人が、アメリカ滞在中などに、ある楽曲に対するラベルとして、日本語の「落ち着かない」に対応する英語のラベルを付与しようとする場合、図9の翻訳リスト77aによれば、「落ち着かない」と同一クラスタ(Cluster5)に含まれる「aggressive」がその楽曲に付与されるようになる。
[ラベルのクラスタリング処理の例]
次に、図10のフローチャートを参照して、上述したサーバ2によるラベルのクラスタリング処理について説明する。
図10のフローチャートを参照して説明するラベルのクラスタリング処理は、ラベルDB77にクラスタが十分に蓄積されていない、サーバ2の初期状態などに実行される。
ステップS11において、コンテンツ取得部71は、コンテンツDB53や、ネットワーク1上の端末3または他のサーバ等に蓄積されている大量のコンテンツの中から、所定量のコンテンツを取得する。
ステップS12において、ラベル選択部72は、コンテンツ取得部71によって取得されたコンテンツに付与されているラベルのうち、付与されているコンテンツが極端に少ないか、または、ボランティアによるレイティングにばらつきがあるラベルを除いたラベルを選択し、類似度算出部73に供給する。
ステップS13において、類似度算出部73は、ラベル選択部72から供給された各ラベル間の類似度を算出し、各ラベルとその類似度を表す情報をクラスタリング部74に供給する。
ステップS14において、クラスタリング部74は、類似度算出部73からの各ラベルとその類似度を表す情報を基に、k-means法や相関規則に基づいた手法により、類似度が高いラベルをクラスタリングし、得られたクラスタを判別器生成部75に供給する。なお、ここで、ラベルがクラスタリングされることで、複数のクラスタが得られる場合、ステップS14以降の処理は、それぞれのクラスタについて並行して実行されることとする。
ステップS15において、判別器生成部75は、クラスタリング部74からのクラスタに含まれるラベルが付与されていたコンテンツの特徴量に基づいて、クラスタについてのクラスタ判別器を生成し、精度計算部76に供給する。
ステップS16において、判別器生成部75は、クラスタリング部74からのクラスタに含まれるラベルが付与されていたコンテンツの特徴量に基づいて、クラスタリングされる前のラベルについてのラベル判別器を、ラベル毎に生成し、精度計算部76に供給する。
ステップS17において、精度計算部76は、判別器生成部75からのクラスタ判別器およびラベル判別器それぞれの判別精度を計算し、比較する。ここでは、精度計算部76は、Cross Validationなどにより、AccuracyやF値などその都度適切なものを判別精度として計算する。
ステップS18において、精度計算部76は、クラスタ判別器の判別精度とラベル判別器の判別精度との比較の結果、クラスタ判別器の判別精度の方が良いか否かを判定する。
ステップS18において、クラスタ判別器の判別精度の方が良いと判定された場合、処理はステップS19に進み、精度計算部76は、クラスタを1つのラベルとして、ラベルDB77に供給し、記憶させる。
一方、ステップS18において、クラスタ判別器の判別精度の方が良くないと判定された場合、すなわち、ラベル判別器についての判別精度の方が高い場合、処理はステップS20に進み、精度計算部76は、クラスタに含まれる各ラベルをラベルDB77に供給し、記憶させる。
以上の処理によれば、異なる言語のラベルが、ラベル間の類似度に基づいてグループ化されるようになる。これにより、例えば、ユーザが全く理解できない言語を用いる国において、所定のコンテンツに対する評価としてラベルを付与する場合、自国語のラベルに対応するその国のラベルが容易に選択されるようになる。したがって、所定のコンテンツに対して、国や文化が異なる場合であっても、感性的な情報を正確に付与することができる。
特に、ラベル間の類似度の算出において、レイティングの相関を用いるようにした場合には、ボランティアによるコンテンツに対する評価の傾向が近いラベルがクラスタリングされるので、人間により近い観点でラベルをグループ化することができる。すなわち、異なる言語であっても類似した感性を表すラベルをグループ化することができるので、所定のコンテンツに対して、国や文化が異なる場合であっても、感性的な情報を正確に付与することが可能となる。
なお、図10のフローチャートのステップS14において複数のクラスタが得られる場合、それ以降の処理はそれぞれのクラスタについて並行して実行されるようにしたが、類似度が最も高いラベルのペアをクラスタリングすることにより、1つのクラスタのみを得るようにもできる。この場合、ステップS19で記憶されたクラスタまたはステップS20で記憶されたラベルと、クラスタリングされなかったラベルとの間の類似度を再度算出するようにして、ステップS13以降の処理が繰り返し実行されるようにしてもよい。
以上においては、ラベルDB77にクラスタが十分に蓄積されていないような初期状態などにおいて、一括でラベルをクラスタリングする処理について説明した。以下においては、比較的十分な数のクラスタが蓄積された状態から、さらにラベルが追加される場合の処理について説明する。
[ラベルのクラスタリング処理の他の例]
そこで、図11のフローチャートを参照して、比較的十分な数のクラスタが蓄積された状態から、さらにラベルが追加される場合のラベルのクラスタリング処理について説明する。
ステップS31において、コンテンツ取得部71は、コンテンツDB53や、ネットワーク1上の端末3または他のサーバ等に蓄積されている大量のコンテンツの中から、所定量のコンテンツを取得する。
ステップS32において、ラベル選択部72は、コンテンツ取得部71によって取得されたコンテンツに付与されているラベルのうち、付与されているコンテンツが極端に少ないか、または、ボランティアによるレイティングにばらつきがあるラベルを除いたラベルを選択し、類似度算出部73に供給する。
ステップS33において、類似度算出部73は、ラベルDB77に蓄積されているクラスタ(以下、既存クラスタという)を取得し、ラベル選択部72から供給されたラベルと既存クラスタとの間の類似度を算出する。既存クラスタには、複数のラベルがクラスタリングされたものもあれば、1つのラベルからなるクラスタもある。
ステップS34において、類似度算出部73は、ステップS33で算出した類似度の中で、最大となる類似度が所定値より大きいか否かを判定する。
ここで、所定値は、予め設定された値としてもよいし、一括でラベルがクラスタリングされることで得られたクラスタ(図10のフローチャートのステップS19で記憶されたクラスタ)について算出された類似度の最低値や平均値などとしてもよい。
ステップS34において、最大となる類似度が所定値より大きいと判定された場合、類似度算出部73は、その最大となる類似度が算出されたラベルおよび既存クラスタを、クラスタリング部74に供給し、処理はステップS35に進む。
ステップS35において、クラスタリング部74は、類似度算出部73からのラベルおよび既存クラスタについて、ラベルを既存クラスタにクラスタリングすることで新たなクラスタ(以下、新規クラスタという)を得て、判別器生成部75に供給する。
ステップS36において、判別器生成部75は、クラスタリング部74からの新規クラスタに含まれるラベル、および、既存クラスタにさらに含まれる各ラベルのそれぞれが付与されていたコンテンツの特徴量を、コンテンツ取得部71から取得し、その特徴量に基づいて、新規クラスタのクラスタ判別器を生成(再生成)する。
ステップS37において、精度計算部76は、判別器生成部75からの、再生成されたクラスタ判別器についての判別精度を計算する。さらに、精度計算部76は、計算した再生成されたクラスタ判別器についての判別精度と、再生成される前の(図示せぬ記憶部に保持されている)クラスタ判別器の判別精度と比較する。
ステップS38において、精度計算部76は、再生成されたクラスタ判別器の判別精度と再生成される前のクラスタ判別器の判別精度との比較の結果、再生成されたクラスタ判別器の判別精度の方が良いか否かを判定する。
ここで、精度計算部76は、判別精度の比較の結果、単に、再生成されたクラスタ判別器の判別精度の方が良いか否かを判定するようにしてもよいし、再生成されたクラスタ判別器の判別精度の値が、再生成される前のクラスタ判別器の判別精度の値より、例えば、再生成される前のクラスタ判別器の判別精度の値の15%など一定値以上大きいか否かを判定するようにしてもよい。
また、例えば、精度計算部76は、再生成されたクラスタ判別器の判別精度と、図示せぬ記憶部に保持されている全てのクラスタ判別器の判別精度とを比較し、再生成されたクラスタ判別器の判別精度が、図示せぬ記憶部に保持されている全てのクラスタ判別器の判別精度より良いか否かを判定するなどしてもよい。
すなわち、ステップS38においては、最終的に保持される全てのクラスタ判別器の平均判別精度が悪くならないことが判定される。
ステップS38において、再生成されたクラスタ判別器の判別精度の方が良いと判定された場合、処理はステップS39に進み、精度計算部76は、新規クラスタを1つのラベルとして、ラベルDB77に供給し、記憶させる。その後、処理はステップS46に進む。
一方、ステップS38において、再生成されたクラスタ判別器の判別精度の方が良くないと判定された場合、すなわち、保持されている全てのクラスタ判別器の平均判別精度が悪くなるような場合、処理はステップS40に進み、精度計算部76は、既存クラスタを1つのラベルとしてラベルDB77に供給し、再度記憶させる。ステップS40の後、処理はステップS46に進む。なお、ここで、ステップS35において既存クラスタにクラスタリングされたラベルは削除されてもよいし、後述するステップS41以降の処理の対象とされてもよい。
また、ステップS34において、最大となる類似度が所定値より大きくないと判定された場合、類似度算出部73は、その最大となる類似度が算出されたラベルおよび既存クラスタのうち、ラベルのみをクラスタリング部74を介して、判別器生成部75に供給する。このとき、クラスタリング部74は、類似度算出部73からのラベルに対して何の処理もせずに、判別器生成部75に供給する。
ステップS41において、判別器生成部75は、類似度算出部73からのラベルが付与されていたコンテンツの特徴量を、コンテンツ取得部71から取得し、その特徴量に基づいて、そのラベルについてのラベル判別器を生成し、精度計算部76に供給する。
ステップS42において、精度計算部76は、判別器生成部75からのラベル判別器の判別精度を計算し、所定の基準値と比較する。
ここで、所定の基準値は、予め設定された値としてもよいし、例えば、ラベルDB77に蓄積されているクラスタおよびラベルについてのクラスタ判別器およびラベル判別器の判別精度の最低値などとしてもよい。
ステップS43において、精度計算部76は、ラベル判別器の判別精度と所定の基準値との比較の結果、ラベル判別器の判別精度の方が良いか否かを判定する。
ステップS43において、ラベル判別器の判別精度の方が良いと判定された場合、処理はステップS44に進み、精度計算部76は、そのラベル判別器のラベルをラベルDB77に供給し、記憶させて、処理はステップS46に進む。
一方、ステップS43において、ラベル判別器の判別精度の方が良くないと判定された場合、処理はステップS45に進み、精度計算部76は、そのラベル判別器のラベルを削除する。その後、処理はステップS46に進む。
ステップS46において、類似度算出部73は、ラベル選択部72から供給された全てのラベルについて、ステップS34以降の処理が実行されたか否かを判定する。
ステップS46において、全てのラベルについて処理が実行されていないと判定された場合、処理はステップS33に戻り、全てのラベルについて処理が実行されるまで、これ以降の処理が繰り返される。
なお、2回目以降のステップS33においてラベルDB77から取得される既存クラスタには、ステップS39で記憶された新規クラスタ、ステップS40で再度記憶された既存クラスタ、および、ステップS44で記憶された1つのラベルも含まれる。
一方、ステップS46において、全てのラベルについて処理が実行されたと判定された場合、ラベルのクラスタリング処理は終了する。
以上の処理によれば、異なる言語のラベルが、ラベルと既存クラスタとの間の類似度に基づいてグループ化されるようになる。これにより、例えば、ユーザが全く理解できない言語を用いる国において、所定のコンテンツに対する評価としてラベルを付与する場合、自国語のラベルに対応するその国のラベルが容易に選択されるようになる。したがって、所定のコンテンツに対して、国や文化が異なる場合であっても、感性的な情報を正確に付与することが可能となる。
また、追加されるラベルは、言語に関わらず、既存クラスタとの類似度に応じて、既存クラスタにクラスタリングされたり削除されるので、類似したラベルの有無を評価してラベルを用意したり、各言語について予めラベルを用意する必要がなく、ユーザが手間をかけることなくラベルを用意することができる。
なお、ステップS32において選択されたラベルの数が一定数より多く、かつ、ステップS33において算出される類似度の、例えば平均値が一定値より小さい場合には、図10のフローチャートにおけるステップS13以降の処理が実行されるようにしてもよい。これにより、選択されたラベルの多くが既存クラスタに含まれない場合には、新たに一括でラベルをクラスタリングするようにすることができる。
また、図11のフローチャートを参照して説明したクラスタリング処理においては、選択した1つのラベルと既存クラスタとの類似度が最も大きい新規クラスタについて、判別器を生成し、その判別精度に応じて、新規クラスタを1つのラベルとするようにした。しかしながら、図11のクラスタリング処理においては、例えば、選択した1つのラベルとの類似度が所定値より大きくなる複数の既存クラスタそれぞれについて、そのラベルとの新規クラスタを得るようにし、それぞれの新規クラスタについて生成した判別器のうち、最も判別精度のよい判別器の新規クラスタを1つのラベルとするようにもできる。
以上においては、異なる言語のラベルが、国や文化を問わず人間の感性に基づいてグループ化される、ラベルのクラスタリング処理について説明してきたが、以下においては、上述のようにしてクラスタリングされたラベルを、コンテンツに付与する処理について説明する。
[ラベルの付与処理の例]
そこで、図12のフローチャートを参照して、サーバ2におけるラベル付与処理について説明する。なお、ラベル付与処理は、ユーザによって、端末3から、コンテンツDB53に蓄積されているコンテンツを読み出し、そのコンテンツに対してラベルを付与する旨の指令が入力された後、ラベル付与部52により、そのコンテンツが読み出されると実行される。
ステップS71において、ラベル付与部52は、ユーザによって、端末3から、コンテンツに付与するためにラベルが入力されたか否かを判定する。
ステップS71において、ラベルが入力されていないと判定された場合、ラベルが入力されるまで、ステップS71の処理は繰り返される。
一方、ステップS71において、ラベルが入力されたと判定された場合、処理はステップS72に進む。
ステップS72において、ラベル付与部52は、ラベル管理部51のラベルDB77に保持されている翻訳リスト77aを参照して、入力されたラベルが含まれているクラスタに含まれるラベルのうちの、提示される国や文化に対応した言語のラベルを、ラベルDB77から読み出す。
例えば、言語として英語を用いる英語圏において、ラベルとして、日本語の「幸せ」が入力された場合、図9で示された翻訳リスト77aが参照されて、Cluster3に含まれるラベルとして日本語の「幸せ」に対応付けられている英語の「mellow」が、ラベルDB77から読み出される。
ステップS73において、ラベル付与部52は、ステップS72において読み出したラベルを、コンテンツDB53から読み出したコンテンツに付与する。
このとき、ラベル付与部52は、ラベルを付与したコンテンツを提示部54に供給する。提示部54は、ラベルが付与されたコンテンツの名称を、そのコンテンツに付与されたラベルとともに、端末3に供給(送信)する。端末3においては、ユーザにより読み出されたコンテンツに、ユーザにより入力されたラベルに対応するラベルが付与された旨が表示される。
以上の処理によれば、国や文化を問わず、人間の感性に基づいてグループ化された、異なる言語のラベルが、コンテンツに付与されるようになる。例えば、ユーザが全く理解できない言語を用いる国において、所定のコンテンツに対する評価としてラベルを付与する場合、自国語のラベルに対応するその国のラベルが付与される。すなわち、所定のコンテンツに対して、国や文化が異なる場合であっても、感性的な情報を正確に付与することが可能となる。
ところで、上述した実施の形態においては、サーバ2側でラベルのクラスタリング処理やラベルの付与処理が行われるとして説明をした。このようなサーバ2側で処理が行われるような形態は、例えば、端末3に対して、ネットワーク1を介してコンテンツが提供される際などに適している。
しかしながら、上述したようなラベルのクラスタリング処理や付与処理が、サーバ2側でのみ行われることを意味しているのではない。例えば、ラベルのクラスタリング処理は、サーバ2側で行い、その結果を利用して端末3側で、ラベルの付与が行われるようにすることも可能である。さらには、端末3側でラベルのクラスタリング処理や付与処理が実行されるようにしても良い。
[記録媒体について]
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを記録するプログラム記録媒体は、図2に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini-Disc)を含む)、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア31、または、プログラムが一時的もしくは永続的に格納されるROM22や、記憶部28を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの記録は、必要に応じてルータ、モデムなどのインタフェースである通信部29を介して、インターネットまたはLANなどのネットワーク1やデジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理は勿論、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
1 ネットワーク, 2 サーバ, 3 端末, 21 CPU, 22 ROM, 23 RAM, 28 記憶部, 31 リムーバブルメディア, 51 ラベル管理部, 52 ラベル付与部, 53 コンテンツDB, 54 提示部, 71 コンテンツ取得部, 72 ラベル選択部, 73 類似度算出部, 74 クラスタリング部, 75 判別器生成部, 76 精度計算部, 77 ラベルDB, 77a 翻訳リスト

Claims (7)

  1. コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、前記コンテンツへの評価の信頼度が高い前記ラベルを選択する選択手段と、
    前記選択手段によって選択された前記ラベル間の類似度を算出する算出手段と、
    前記算出手段によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリング手段と、
    前記クラスタリング手段によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成手段と、
    前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリング手段によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶手段と
    を備える情報処理装置。
  2. 前記算出手段は、前記選択手段によって選択された前記ラベルと、前記クラスタリング手段によって予め得られた既存クラスタとの間の類似度を算出し、
    前記クラスタリング手段は、前記類似度に基づいて、前記ラベルを前記既存クラスタにクラスタリングする
    請求項に記載の情報処理装置。
  3. 前記生成手段は、前記ラベルが前記既存クラスタにクラスタリングされた新規クラスタについての判別器である新規クラスタ判別器を生成し、
    前記記憶手段は、前記既存クラスタについての前記クラスタ判別器の判別精度より、前記新規クラスタ判別器の判別精度の方が良い場合、前記新規クラスタを1つのラベルとして記憶する
    請求項に記載の情報処理装置。
  4. コンテンツを評価するために入力された前記ラベルが、前記クラスタリング手段によるクラスタリングの結果得られた前記クラスタに含まれる場合、前記クラスタに含まれる、入力された前記ラベル以外のラベルを前記コンテンツに付与する付与手段をさらに備える
    請求項1乃至3のいずれかに記載の情報処理装置。
  5. 前記ラベルは、複数の異なる言語で与えられている
    請求項1乃至4のいずれかに記載の情報処理装置。
  6. コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、前記コンテンツへの評価の信頼度が高い前記ラベルを選択する選択手段と、
    前記選択手段によって選択された前記ラベル間の類似度を算出する算出手段と、
    前記算出手段によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリング手段と、
    前記クラスタリング手段によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成手段と、
    前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリング手段によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶手段とを備える情報処理装置の情報処理方法であって、
    前記選択手段が、コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、評価の信頼度が高い前記ラベルを選択する選択ステップと、
    前記算出手段が、前記選択ステップの処理によって選択された前記ラベル間の類似度を算出する算出ステップと、
    前記クラスタリング手段が、前記算出ステップの処理によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリングステップと、
    前記生成手段が、前記クラスタリングステップの処理によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成ステップと、
    前記記憶手段が、前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリングステップの処理によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶ステップと
    を含む情報処理方法。
  7. コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、前記コンテンツへの評価の信頼度が高い前記ラベルを選択する選択手段と、
    前記選択手段によって選択された前記ラベル間の類似度を算出する算出手段と、
    前記算出手段によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリング手段と、
    前記クラスタリング手段によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成手段と、
    前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリング手段によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶手段とを備える情報処理装置を制御するコンピュータに、
    前記選択手段が、コンテンツに対するユーザの主観的な評価を表すラベルがメタデータとして付与されている複数の前記コンテンツに付与されている前記ラベルのうち、評価の信頼度が高い前記ラベルを選択する選択ステップと、
    前記算出手段が、前記選択ステップの処理によって選択された前記ラベル間の類似度を算出する算出ステップと、
    前記クラスタリング手段が、前記算出ステップの処理によって算出された前記類似度に基づいて、前記ラベルをクラスタリングするクラスタリングステップと、
    前記生成手段が、前記クラスタリングステップの処理によってクラスタリングされた前記ラベルが付与されている前記コンテンツの特徴量に基づいて、前記コンテンツの前記クラスタへの該当を判別するための判別器であるクラスタ判別器、および、前記コンテンツの、クラスタリングされた前記ラベルへの該当を判別するための判別器であるラベル判別器を生成する生成ステップと、
    前記記憶手段が、前記ラベル判別器の判別精度より、前記クラスタ判別器の判別精度の方が良い場合、前記クラスタリングステップの処理によるクラスタリングの結果得られたクラスタを1つのラベルとして記憶する記憶ステップと
    を含む処理実行させるプログラム。
JP2010030178A 2010-02-15 2010-02-15 情報処理装置および方法、並びにプログラム Expired - Fee Related JP5477635B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010030178A JP5477635B2 (ja) 2010-02-15 2010-02-15 情報処理装置および方法、並びにプログラム
US12/931,568 US8812503B2 (en) 2010-02-15 2011-02-04 Information processing device, method and program
CN2011100348938A CN102163208A (zh) 2010-02-15 2011-02-09 信息处理装置、方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010030178A JP5477635B2 (ja) 2010-02-15 2010-02-15 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2011165131A JP2011165131A (ja) 2011-08-25
JP5477635B2 true JP5477635B2 (ja) 2014-04-23

Family

ID=44370358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010030178A Expired - Fee Related JP5477635B2 (ja) 2010-02-15 2010-02-15 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US8812503B2 (ja)
JP (1) JP5477635B2 (ja)
CN (1) CN102163208A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5596649B2 (ja) 2011-09-26 2014-09-24 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム
JP5696106B2 (ja) * 2012-09-05 2015-04-08 日本電信電話株式会社 同義タグ抽出装置及び方法及びプログラム
US9613033B2 (en) * 2014-08-29 2017-04-04 Yahoo!, Inc. Emotionally relevant content
CN104504074B (zh) * 2014-12-22 2017-08-08 无锡天脉聚源传媒科技有限公司 一种对多媒体类别的处理方法及装置
CN105227971B (zh) * 2015-07-09 2019-01-08 传成文化传媒(上海)有限公司 一种酒店用电视的信息推荐方法及***
JP7197971B2 (ja) * 2017-08-31 2022-12-28 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム
JP2019153056A (ja) * 2018-03-02 2019-09-12 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP7178021B2 (ja) * 2018-07-17 2022-11-25 株式会社OPExPARK 情報統合装置
CN114616572A (zh) * 2019-09-16 2022-06-10 多库加米公司 跨文档智能写作和处理助手
CN112131284B (zh) * 2020-09-30 2024-05-24 国网智能科技股份有限公司 一种变电站全息数据切片方法及***

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7424427B2 (en) * 2002-10-17 2008-09-09 Verizon Corporate Services Group Inc. Systems and methods for classifying audio into broad phoneme classes
EP1666967B1 (en) * 2004-12-03 2013-05-08 Magix AG System and method of creating an emotional controlled soundtrack
JP2007172523A (ja) 2005-12-26 2007-07-05 Sony Corp 情報処理装置、情報処理方法、およびプログラム
CN101326524A (zh) * 2006-01-06 2008-12-17 索尼株式会社 信息处理装置、方法和程序
JP4893940B2 (ja) * 2006-01-06 2012-03-07 ソニー株式会社 情報処理装置および方法、並びにプログラム
EP2001583A4 (en) * 2006-03-09 2010-09-01 Gracenote Inc METHOD AND SYSTEM FOR NAVIGATION BETWEEN MEDIA
US20080071929A1 (en) * 2006-09-18 2008-03-20 Yann Emmanuel Motte Methods and apparatus for selection of information and web page generation
JP5012078B2 (ja) * 2007-02-16 2012-08-29 大日本印刷株式会社 カテゴリ作成方法、カテゴリ作成装置、およびプログラム
JP2008204190A (ja) * 2007-02-20 2008-09-04 Oki Electric Ind Co Ltd 分類評価装置
JP5000351B2 (ja) * 2007-03-27 2012-08-15 Kddi株式会社 コンテンツ分類システム、サーバ、端末装置、プログラム、および記録媒体
EP2145269A2 (en) * 2007-05-01 2010-01-20 Koninklijke Philips Electronics N.V. Method of organising content items
JP4714710B2 (ja) * 2007-06-15 2011-06-29 日本電信電話株式会社 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
US8812503B2 (en) 2014-08-19
US20110202530A1 (en) 2011-08-18
JP2011165131A (ja) 2011-08-25
CN102163208A (zh) 2011-08-24

Similar Documents

Publication Publication Date Title
JP5477635B2 (ja) 情報処理装置および方法、並びにプログラム
Kaminskas et al. Location-aware music recommendation using auto-tagging and hybrid matching
Tingle et al. Exploring automatic music annotation with" acoustically-objective" tags
US9542477B2 (en) Method of automated discovery of topics relatedness
CN101996232B (zh) 信息处理装置和用于处理信息的方法
Miotto et al. A generative context model for semantic music annotation and retrieval
US7805389B2 (en) Information processing apparatus and method, program and recording medium
KR101755409B1 (ko) 컨텐츠 추천 시스템 및 방법
US20090177651A1 (en) Information processing device and method, program, and recording medium
Saari et al. Genre-adaptive semantic computing and audio-based modelling for music mood annotation
JP4538760B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
KR20080089545A (ko) 정보 처리 장치 및 방법, 및 프로그램
CN111428074B (zh) 音频样本生成方法、装置、计算机设备及存储介质
Panda et al. How does the spotify api compare to the music emotion recognition state-of-the-art?
Allik et al. Musiclynx: Exploring music through artist similarity graphs
McKay et al. Improving automatic music classification performance by extracting features from different types of data
JP2009535671A (ja) 一のユーザのカテゴリラベルを他のユーザにより規定されたカテゴリラベルで関連付けるシステム及び方法
CN111611432B (zh) 一种基于Labeled LDA模型的歌手分类方法
JP2003016106A (ja) 関連度値算出装置
West et al. Incorporating machine-learning into music similarity estimation
Yang et al. Improving Musical Concept Detection by Ordinal Regression and Context Fusion.
JP2010164825A (ja) プレイリスト作成装置、楽曲再生装置、プレイリスト作成方法およびプレイリスト作成プログラム
JP4346531B2 (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
Fuhrmann et al. Quantifying the Relevance of Locally Extracted Information for Musical Instrument Recognition from Entire Pieces of Music.
Pei et al. Instrumentation analysis and identification of polyphonic music using beat-synchronous feature integration and fuzzy clustering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140129

LAPS Cancellation because of no payment of annual fees