JP4388137B2 - コンテンツ検索装置及びコンテンツ検索方法 - Google Patents

コンテンツ検索装置及びコンテンツ検索方法 Download PDF

Info

Publication number
JP4388137B2
JP4388137B2 JP2009528429A JP2009528429A JP4388137B2 JP 4388137 B2 JP4388137 B2 JP 4388137B2 JP 2009528429 A JP2009528429 A JP 2009528429A JP 2009528429 A JP2009528429 A JP 2009528429A JP 4388137 B2 JP4388137 B2 JP 4388137B2
Authority
JP
Japan
Prior art keywords
content
keyword
keywords
section
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009528429A
Other languages
English (en)
Other versions
JPWO2009113266A1 (ja
Inventor
和豊 高田
貴史 續木
聰 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4388137B2 publication Critical patent/JP4388137B2/ja
Publication of JPWO2009113266A1 publication Critical patent/JPWO2009113266A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • Y10S707/914Video

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、大量に記憶されたコンテンツの中から、ユーザが利用したいコンテンツを検索するためのコンテンツ検索装置に関する。
サーバーなどに記憶された大量のコンテンツから所望のコンテンツを検索する方法として、検索装置側から複数の関連キーワードを提示する方法が複数報告されている。ここで、関連キーワードとは、ユーザが特定した単語(キーワード)に関連がある単語(キーワード)のことをいう。また、一般的に、互いに関連するキーワード間の関連の度合いを表す関連度は、キーワード間の共起数、出現頻度等に基づいて算出される。
このような検索装置は、コンテンツが記憶されたコンテンツデータベースのデータ更新と同時に、関連キーワードを提示するためのキーワード間の関連付けを更新する(例えば、特許文献1参照)。したがって、この検索装置は、ユーザに対して、コンテンツデータベースに記憶された最新のコンテンツに基づいた関連キーワードを提示する。
しかし、ユーザが特定のキーワードから想起する関連キーワードは、ユーザによってそれぞれ異なる。例えば、「俳優A」が出演した最近放送のドラマだけを視聴したユーザは、そのドラマに出演していた「女優B」を関連キーワードとして想起する。一方、「俳優A」が出演した1年前に放送のドラマだけを視聴したユーザは、そのドラマに出演していた「女優C」を関連キーワードとして想起する。このように、ユーザ個人の知識が異なる場合、ユーザが「俳優A」に対して想起する関連キーワードは、異なるキーワードとなりえる。すなわち、検索装置が、最新のコンテンツに基づいて生成した関連キーワードだけを提示した場合、ユーザによっては、想起できない関連キーワードが提示されることになる。その結果、ユーザがキーワードの選択を行うことができず、コンテンツを絞り込むことができないという問題がある。
そこで、従来、このような問題を解決するために、コンテンツデータベースに記憶された全てのコンテンツを固定時間の時間区間により分類する方法が提案されている(例えば、特許文献2参照)。これにより、特許文献2の方法を利用した検索装置は、時間区間ごとにキーワード間の関連付けを構築することができる。その結果、この検索装置は、ユーザに対して、異なる時間区間の関連付けに基づいて生成された関連キーワードを、複数の時間区間ごとに提示することが可能となる。例えば、この検索装置は、「俳優A」に関連するキーワードとして、今年1年間に対応するコンテンツにおいて関連の強い「女優B」と、昨年1年間に対応するコンテンツにおいて関連の強い「女優C」とを、同時にユーザに提示することができる。このように、検索装置が複数の時間区間における関連キーワードを提示することにより、ユーザは自分の知識に適合した関連キーワードを選択することが可能となる。すなわち、ユーザは、関連キーワードの選択を繰り返すことによるコンテンツの絞り込みを、効果的に行うことが可能となる。
特開2007−188225号公報 特開2002−183175号公報
しかしながら、特許文献2の方法を利用した従来の検索装置では、固定時間の時間区間を利用して、コンテンツデータベースに記憶された全てのコンテンツを分類するため、各コンテンツのキーワード構成の変化に応じた関連キーワードを提示することができないという問題がある。
一般的に、コンテンツデータベースに属性(ジャンル)の異なる複数のコンテンツが記憶されている場合、コンテンツのキーワード構成が大きく変化する頻度は、属性によって大きく異なる。例えば、テレビ番組の場合、ニュース番組は、比較的短い間隔においてキーワード構成が大きく変化するが、ドラマ番組は四半期に一度しかキーワード構成が大きく変化しない。
このように、コンテンツデータベースの中にキーワード構成が大きく変化する頻度の異なる属性のコンテンツが含まれる場合、従来の検索装置が、キーワード構成が大きく変化する頻度の低いコンテンツに適合するように固定時間を決定すると、検索装置は、各属性のキーワード構成が大きく変化する頻度に適合した時事性のある関連キーワードを提示することができない。例えば、キーワード構成が大きく変化する頻度の高い「ニュースジャンル」のコンテンツにおいて、「話題」というキーワードに対して関連度の高いキーワードが、特定の期間に「国会」→「サッカー」→「台風」の順に変化したとする。この場合に、従来の検索装置は、キーワード構成が大きく変化する頻度の低い「ドラマジャンル」のコンテンツに合わせて、上記の特定の期間が1つの時間区間に含まれるような固定時間を決定する。その結果、「国会」、「サッカー」及び「台風」の中から、「話題」に対して最も関連度の高いキーワードが、関連キーワードとして提示されてしまう。すなわち、「話題」に対して最も時事性に適した関連キーワードである「台風」ではなく、「国会」又は「サッカー」が提示される場合がありえる。
一方、従来の検索装置が、キーワード構成が大きく変化する頻度の高いコンテンツに適合するように固定時間を決定すると、検索装置は、複数の時間区間において同一の関連キーワードを提示してしまう。例えば、従来の検索装置が、キーワード構成が大きく変化する頻度の高い「ニュースジャンル」のコンテンツに合わせて固定時間を決定した場合、検索装置は、キーワード構成が大きく変化する頻度の低い「ドラマジャンル」のコンテンツにおいて、複数の時間区間に同一の関連キーワードを提示する。検索装置が、ユーザに一度に提示できるキーワードの数には限りがあるので、同一のキーワードを複数提示することは、ユーザの選択肢の幅を狭めることにつながる。その結果、ユーザがキーワードを選択する際に、余分な検索ステップを生じさせる可能性が高くなる。すなわち、従来の検索装置では、ユーザは効率的にコンテンツを検索することができない。
そこで、本発明は、上記課題を解決するものであって、時事性に適合した関連キーワードを効率的にユーザに提示することができるコンテンツ検索装置を提供する。
上記目的を達成するために、本発明に係るコンテンツ検索装置は、コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索するコンテンツ検索装置であって、所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースと、前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出手段と、前記関連区間算出手段により算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新手段と、前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成手段と、を備えることを特徴とする。
これにより、キーワード構成が変化する頻度が異なる属性のコンテンツが混在して記憶されるコンテンツデータベースからコンテンツを検索する場合に、コンテンツ検索装置は、コンテンツ属性ごとに算出した関連区間に基づいて、辞書データベースを更新することにより、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。
具体的には、キーワード構成が大きく変化する頻度が高い属性のコンテンツの場合、コンテンツ検索装置は、他の属性よりも短い時間の関連区間となるように辞書データベースを更新するので、時事性に適合したキーワードをユーザに提示することが可能となる。一方、キーワード構成が大きく変化する頻度が低い属性のコンテンツの場合、コンテンツ検索装置は、他の属性よりも長い時間の関連区間となるように辞書データベースを更新するので、複数の関連区間に同一のキーワードを提示しないように、つまり、効率的にキーワードを提示することが可能となる。
さらに、キーワード構成が非周期的に変化する属性のコンテンツが記憶されるコンテンツデータベースからコンテンツを検索する場合に、コンテンツ検索装置は、コンテンツキーワード構成の変化に応じて算出した関連区間に基づいて、辞書データベースを更新することにより、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。
具体的には、短い周期でキーワード構成が変化しているときは、コンテンツ検索装置は、他よりも短い時間の関連区間となるように辞書データベースを更新するので、時事性に適合したキーワードをユーザに提示することが可能となる。一方、長い周期でキーワード構成が変化しているときは、コンテンツ検索装置は、他よりも長い時間の関連区間となるように辞書データベースを更新するので、複数の関連区間に同一のキーワードを提示しないように、つまり、効率的にキーワードを提示することが可能となる。
また、前記関連区間算出手段は、前記辞書データベースに記憶される最新の関連区間に含まれるコンテンツを前記第2コンテンツとして、関連区間を算出することを特徴としてもよい。
これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、新たな時間区間と前回更新時に算出された関連区間とのキーワード構成の相違度に基づいて新たな関連区間が決定されるので、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。
また、前記関連区間算出手段は、前記第1キーワードのうち出現頻度が高い所定の数のキーワードと、前記第2キーワードのうち出現頻度が高い所定の数のキーワードとの相違度が所定基準値を満たすか否かに基づき、関連区間を算出することを特徴としてもよい。
これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、新たな時間区間と前回コンテンツが更新された時に算出された関連区間とに含まれるキーワード数の差異に関わらず、相違度を算出することができる。
また、前記関連区間算出手段は、前記コンテンツデータベースに前回新たに加えられたコンテンツに対応する時間区間のうち、予め定められた長さの時間の時間区間に含まれるコンテンツを前記第2コンテンツとして、関連区間を算出することを特徴としてもよい。
これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、前回コンテンツが更新された時に算出された関連区間に関係なく、コンテンツ検索装置は、コンテンツデータベースに記憶されている最新のコンテンツと新たに追加されるコンテンツとのキーワード構成の相違度を算出することができる。したがって、コンテンツ検索装置は、より時事性に適したキーワードを提示することが可能となる。
また、前記コンテンツ検索装置は、さらに、ユーザが入力したキーワードに関連するコンテンツ属性を取得する属性取得手段と、前記辞書データベースを参照することにより、前記ユーザが入力したキーワードと前記属性取得手段により取得されたコンテンツ属性とに対応する関連キーワードを、関連区間ごとに取得する関連キーワード取得手段とを備え、前記出力生成手段は、前記関連キーワード取得手段により取得された関連キーワードを出力するための前記出力情報を生成することを特徴としてもよい。
これにより、ユーザが入力したキーワードからコンテンツ属性を取得することができるので、コンテンツ検索装置は、ユーザの入力に適した関連キーワードを提示することが可能となる。
また、前記関連キーワード取得手段は、前記属性取得手段により複数のコンテンツ属性が取得された場合は、前記複数のコンテンツ属性の各々に対して関連キーワードを生成し、前記出力生成手段は、前記複数のコンテンツ属性の各々に対して生成された関連キーワードを、コンテンツ属性ごと、関連区間ごとに出力するための出力情報を生成することを特徴としてもよい。
これにより、複数のコンテンツ属性の関連キーワードをユーザに同時に提示することが可能となるので、コンテンツ検索装置は、ユーザが求める関連キーワードを提示できる可能性を高めることができる。
本発明によると、キーワード構成が大きく変化する頻度が異なるコンテンツ属性のコンテンツが記憶されるコンテンツデータベースから所望のコンテンツを検索する際に、時事性に適合した関連キーワードを効率的に提示することが可能となる。
図1は、本発明の実施の形態に係るコンテンツ検索装置の機能構成を示すブロック図である。 図2は、コンテンツデータベースの一例を示す図である。 図3は、関連語辞書の概念図である。 図4は、関連語辞書の一例を示す図である。 図5は、コンテンツ検索装置の処理の流れを示すフローチャートである。 図6は、関連区間算出部による関連区間算出に関する処理(図5に示したステップS106)の流れを示すフローチャートである。 図7は、関連区間算出部による変化率の算出に関する処理(図6に示したステップS204)の流れを示すフローチャートである。 図8は、初期検索画面の一例を示す図である。 図9は、検索画面の一例を示す図である。 図10は、検索画面の一例を示す図である。 図11(a)、図11(b)及び図11(c)は、関連区間算出方法を説明するための図である。 図12(a)及び図12(b)は、関連区間算出方法を説明するための図である。 図13は、複数属性における関連キーワードの提示画面の一例を示す図である。 図14(a)は、従来技術に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例を示す図である。図14(b)は、本発明の実施の形態に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例を示す図である。 図15は、本発明の変形例1に係るコンテンツデータベース更新部によるコンテンツ属性を生成する処理の概念図である。 図16は、本発明の変形例1に係るコンテンツデータベース更新部によるコンテンツ属性を生成する処理を説明するための図である。 図17は、本発明の変形例2に係る関連区間算出部による関連区間算出に関する処理(図5に示したステップS106)の流れを示すフローチャートである。 図18は、本発明の変形例2における文書行列の一例を示す図である。 図19は、本発明の変形例2における文書行列を取得する処理を説明するための図である。
以下、本発明の実施の形態におけるコンテンツ検索装置について、図面を用いて詳細に説明する。
(実施の形態)
図1は、本発明の実施の形態に係るコンテンツ検索装置100を示す構成図である。図1に示すように、コンテンツ検索装置100は、コンテンツデータベース101、辞書データベース102、入力部103、入力選別部104、コンテンツデータベース更新部105、関連区間算出部106、辞書更新部107、属性取得部108、関連キーワード取得部109、出力生成部110、及び出力部111を備える。
以下、図1に示した、コンテンツ検索装置100の各構成の詳細について順に説明する。
コンテンツデータベース101は、検索対象となる動画、画像、音楽、テキスト等のコンテンツと、そのコンテンツの内容を示すコンテンツ付属情報とを記憶するデータベースである。ここで、コンテンツ付属情報とは、キーワード、コンテンツ属性等のコンテンツの内容を示す情報をいう。なお、コンテンツ属性とは、コンテンツを分類するためのカテゴリー情報のことをいう。例えば、テレビ番組に関するコンテンツの場合、EPG(Electronic Program Guide)に記載されている「ジャンル」が、コンテンツ属性となる。
図2にコンテンツデータベースに記憶されたコンテンツ付属情報の一例を示す。コンテンツデータベース101は、動画等のコンテンツに加え、図2に示すようなコンテンツID20、コンテンツ属性21、タイトル22、放送日23、キーワード24、概要25を含むコンテンツ付属情報を記憶する。放送日23は、コンテンツの時間に関する情報を示す時間情報の一例である。ここで時間情報とは、コンテンツに関する時を示す情報である。なお、時間情報は、放送日である必要はなく、コンテンツがコンテンツデータベース101に登録された日時等であってもよい。キーワード24は、コンテンツの内容を示す単語(キーワード)を示す。例えば、キーワード24には、EPGに予め付属しているキーワードが記憶される。また、キーワード24には、タイトル22又は概要25に対して形態素解析などを実行することにより抽出されるキーワードが記憶されてもよい。
辞書データベース102は、コンテンツデータベース101に記憶されているキーワード間の関連度等を記憶したデータベースである。具体的には、辞書データベース102は、コンテンツを分類するためのコンテンツ属性ごと、及び、所定の時間区間を表す関連区間ごとに、時間情報により示される時がその関連区間に含まれるコンテンツであってコンテンツ属性により示される分類に属するコンテンツに対応する複数のキーワード間の関連度を記述した関連語辞書102aを記憶する。この関連語辞書102aは、コンテンツ属性内及びコンテンツ属性間において、時間の長さが異なる関連区間を用いて、キーワード間の関連度を記憶することができる。なお、関連区間とは、キーワード間の関連度を算出するための時間区間のことをいう。
図3に、コンテンツデータベース101に「ニュース」、「スポーツ」、「バラエティ」及び「趣味・教養」の4つのコンテンツ属性のコンテンツが存在する場合の関連語辞書102aの概念図を示す。図3に示すように、関連語辞書102aは、4つのコンテンツ属性に分類されている。そして、各コンテンツ属性内には、区間辞書31(N1)、区間辞書32(N2)等のように、関連区間の時間の長さが異なる区間辞書が記憶されている。また、各関連区間は、各コンテンツ属性(「ニュース」、「スポーツ」、「バラエティ」及び「趣味・教養」)ごとに、時間の長さが異なる。
図4に、辞書データベース102に記憶される関連語辞書102aの一例を示す。図4に示すように、関連語辞書102aには、コンテンツ属性41、関連区間42、キーワード43、関連キーワード44、関連度45が含まれる。例えば、コンテンツ属性41が「ニュース」の場合、関連区間42が「2007/9/10〜2007/9/12」のキーワード43「ニュース」に関連のある関連キーワード44「秋」の関連度45は「0.94」である。図4に示すような関連語辞書102aを参照することによって、関連キーワード取得部109は、ユーザが選択したキーワードに対する関連キーワードを取得することができる。
図1に示した入力部103は、ユーザの操作入力及びコンテンツデータベースの更新に関する情報を受け取り、受け取った情報を入力選別部104に通知する。
入力選別部104は、入力部103から受け取った情報が、「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれの処理を示す情報であるかを選別する。選別方法に関しては後述する。
コンテンツデータベース更新部105は、入力選別部104が、入力部103から受け取った情報を、「コンテンツデータベース更新」と選別した場合に、コンテンツデータベース101に記憶されたコンテンツ及びコンテンツ付属情報を更新する。
なお、コンテンツデータベース更新部105は、コンテンツサーバーが配信する全ての取得対象データをコンテンツデータベース101に複製する。すなわち、更新以前に保持しているデータは一旦全て削除し、新たに上書きを行う。
例えばテレビ放送の視聴予約用途において本発明を用いる場合は、テレビ放送のデータベース特性(放送日以前のデータ無し)により、更新日時以降のデータだけが機器側のコンテンツデータベース101に蓄積される。一方でVOD(Video on Demand)のような蓄積型コンテンツの場合は、取得対象となるコンテンツサーバーからコンテンツが削除された際に、機器側のコンテンツデータベース101からもコンテンツが削除されることになる。
関連区間算出部106は、コンテンツデータベース更新部105がコンテンツデータベース101を更新した場合に、コンテンツデータベース101および辞書データベース102を参照することにより、コンテンツ属性ごとに新たな関連区間を算出する。具体的には、関連区間算出部106は、コンテンツ属性ごとに、新たにコンテンツデータベース101に記憶されるコンテンツ(第1コンテンツ)の内容を示す複数のキーワード(第1キーワード)と、すでにコンテンツデータベース101に記憶されたコンテンツ(第2コンテンツ)の内容を示す複数のキーワード(第2キーワード)と、の相違度を算出する。そして、関連区間算出部106は、算出された第1キーワードと第2キーワードとの相違度が所定基準値を満たすか否かに基づいて、新たな関連区間を算出する。つまり、関連区間算出部106は、第1キーワードと第2キーワードとの相違度が小さいほど、第1コンテンツと第2コンテンツとが同一の時間区間に含まれるように新たな関連区間を算出する。なお、関連区間の詳細な算出方法は後述する。
辞書更新部107は、関連区間算出部106が算出した新たな関連区間に含まれるコンテンツにおいて、キーワード間の関連度を算出する。そして、辞書更新部107は、算出された新たな関連区間の関連度を、キーワード及び関連キーワードとともに関連語辞書102aに登録する。なお、キーワード間の関連度は、単語の共起度(2つの単語が互いに同一コンテンツに出現する度合い)に基づいて算出される。したがって、同一コンテンツの中において、同時に現れる回数の多いキーワードの組合せほど、関連度の値が大きくなる。例えば、辞書更新部107は、非特許文献1「ドキュメント中に出現する単語間の関連性に基づく連想検索のためのメタデータ空間生成方式」(本間秀典ら、第16回データ工学ワークショップ(DEWS2005)、6A−o2、電子情報通信学会、2005)に記載の方法等を利用して、キーワード間の関連度を算出する。
属性取得部108は、入力選別部104が、入力部103から受け取った情報を「キーワード選択」と選別した場合に、ユーザが入力部103において選択したキーワードのコンテンツ属性を取得する。コンテンツ属性の判定方法は後述する。
関連キーワード取得部109は、関連語辞書102aを参照することにより、属性取得部108が取得したコンテンツ属性、及びユーザが入力部103において選択したキーワードに対応する関連キーワード及び関連度を取得する。
出力生成部110は、入力選別部104が、入力部103から受け取った情報を「キーワード選択」と選別した場合には、関連キーワード取得部109により取得された関連キーワードを関連区間ごとに関連度に応じて表示するための出力情報を生成する。例えば、出力生成部110は、関連度が高い関連キーワードから順に表示するための出力情報を生成する。また、例えば、出力生成部110は、関連度が高い関連キーワードほど大きな文字で表示するための出力情報を生成してもよい。また、出力生成部110は、入力選別部104が、入力部103から受け取った情報を「コンテンツ選択」と選別した場合には、ユーザが入力部103において入力した情報に対応する番組等のコンテンツを表示するための出力情報を生成する。
出力部111は、出力生成部110が生成した出力情報を出力媒体へ出力する。出力媒体には、例えばテレビなどのモニタを用いる。
次に、以上のように構成されたコンテンツ検索装置100の動作について説明する。
図5は、図1のコンテンツ検索装置100が実行する全体的な処理の流れを示すフローチャートである。
まず、入力部103は、ユーザからの操作入力を受け取り、受け取った情報を入力選別部104に通知する(ステップS101)。次に、入力選別部104は、入力部103から通知された情報が、「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれの処理を示す情報であるかを選別する(ステップS102)。
ここで、入力選別部104が、入力部103から受け取った情報を「キーワード選択」であると選別した場合(ステップS103のYes)、属性取得部108は、ユーザが入力部103において選択したキーワード及びキーワードのコンテンツ属性を取得する(ステップS108)。続いて、関連キーワード取得部109は、取得したコンテンツ属性と関連語辞書102aとに基づいて、関連キーワードを取得する(ステップS109)。そして、出力生成部110は、取得した関連キーワードを出力するための出力情報を生成する(ステップS110)。最後に、出力部111は、出力生成部110が生成した出力情報を出力媒体に出力し(ステップS111)、処理を終了する。
一方、入力選別部104が、入力部103から受け取った情報を「キーワード選択」であると選別しなかった場合(ステップS103のNo)、入力選別部104は、入力部103から受け取った情報を「データベース更新」であると選別したか否かを判別する(ステップS104)。
ここで、入力選別部104が、入力部103から受け取った情報を「データベース更新」であると選別した場合(ステップS104のYes)、コンテンツデータベース更新部105は、コンテンツデータベース101を更新する(ステップS105)。続いて、関連区間算出部106は、関連語辞書102aに設定される関連区間を算出する(ステップS106)。なお、ステップS106の詳細な処理フローは後述する。そして、算出された関連区間に基づいて、辞書更新部107は、関連語辞書102aを更新し(ステップS107)、処理を終了する。
一方、入力選別部104が、入力部103から受け取った情報を「データベース更新」であると選別しなかった場合(ステップS104のNo)、すなわち、「コンテンツ選択」であると選別した場合、出力生成部110は、ユーザが入力部103において入力した情報に該当する番組を表示するための出力情報を生成する(ステップS110)。そして、出力部111は、出力生成部110が生成した出力情報を出力媒体に出力し(ステップS111)、処理を終了する。
図6は、関連区間算出部106による関連区間算出に関する処理(図5に示したステップS106)の流れを示すフローチャートである。
まず、関連区間算出部106は、関連語辞書102aにおいて前回更新された関連区間(以下、前回更新区間という)をコンテンツ属性ごとに取得する(ステップS201)。次に、関連区間算出部106は、取得した前回更新区間のキーワードの一覧であるキーワードリストをコンテンツ属性ごとに作成する(ステップS202)。なお、前回更新区間のキーワードが、コンテンツデータベース101に記憶された第2コンテンツの内容を示す複数の第2キーワードに対応する。続いて、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツのキーワードの一覧であるキーワードリストをコンテンツ属性ごとに取得する(ステップS203)。なお、新たに追加されるコンテンツのキーワードが、コンテンツデータベース101に記憶される第1コンテンツの内容を示す複数の第1キーワードに対応する。
次に、関連区間算出部106は、ステップS202において作成されたキーワードリストと、ステップS203において作成されたキーワードリストとを比較して、キーワード構成の変化率を算出する(ステップS204)。なお、キーワード構成の変化率は、相違度の一例である。
ここで、算出した変化率が所定の閾値を超える場合(ステップS205のYes)、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間を新たな関連区間として算出する(ステップS206)。すなわち、関連区間算出部106は、第1コンテンツに対応する時間区間を新たな関連区間として算出する。なお、コンテンツに対応する時間区間とは、当該コンテンツの時間情報が示す時が含まれる時間区間を示す。例えば、2007年9月10日及び11日に放送されるコンテンツがコンテンツデータベース101に新たに追加される場合、コンテンツに対応する時間区間は、2007年9月10日〜11日である。
一方、算出した変化率が所定の閾値以下である場合(ステップS205のNo)、関連区間算出部106は、前回更新区間とコンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する(ステップS207)。すなわち、関連区間算出部106は、第1コンテンツに対応する時間区間と第2コンテンツに対応する時間区間とを含む時間区間を新たな関連区間として算出する。このように関連区間算出部106により関連区間が算出された後、図5に示すステップS107の処理が実行される。
図7は、関連区間算出部106による変化率の算出に関する処理(図6に示したステップS204)の流れを示すフローチャートである。
まず、関連区間算出部106は、ステップS203において作成された追加コンテンツのキーワードリストから、まだ、以下の処理(ステップS302〜S308)が実行されていないキーワード(新規キーワード候補)を取得する(ステップS301)。さらに、関連区間算出部106は、ステップS202において作成された前回更新区間のキーワードリストから、まだ、以下の処理(ステップS303〜S305)が実行されていないキーワード(比較キーワード)を取得する(ステップS302)。
次に、関連区間算出部106は、ステップS301及びステップS302において取得した新規キーワード候補と比較キーワードとが、部分一致するか否かを判定する(ステップS303)。なお、部分一致とは、4文字以上のキーワードにおいて、8割以上の文字数の文字が一致することをいう。
ここで、新規キーワード候補と比較キーワードとが部分一致する場合(ステップS303のYes)、関連区間算出部106は、新規キーワード候補を新規キーワードではないと判断する(ステップS308)。一方、新規キーワード候補と比較キーワードとが部分一致しない場合(ステップS303のNo)、関連区間算出部106は、新規キーワード候補と比較キーワードとが、類義語一致するか否かを判定する(ステップS304)。なお、類義語一致とは、新規キーワード候補の類義語と比較キーワードとが一致することをいう。
ここで、新規キーワード候補と比較キーワードとが類義語一致する場合(ステップS304のYes)、関連区間算出部106は、新規キーワード候補を新規キーワードではないと判断する(ステップS308)。一方、新規キーワード候補と比較キーワードとが類義語一致しない場合(ステップS304のNo)、関連区間算出部106は、新規キーワード候補と比較キーワードとが、表記ゆれ一致するか否かを判定する(ステップS305)。なお、表記ゆれ一致とは、新規キーワード候補を、ひらがな、かたかな、漢字又はローマ字を用いて置換したキーワードが、比較キーワードと一致することをいう。
ここで、新規キーワード候補と比較キーワードとが表記ゆれ一致する場合(ステップS305のYes)、関連区間算出部106は、新規キーワード候補を新規キーワードではないと判断する(ステップS308)。一方、新規キーワード候補と比較キーワードとが表記ゆれ一致しない場合(ステップS305のNo)、関連区間算出部106は、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得したか否かを判定する(ステップS306)。
ここで、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得していない場合(ステップS306のNo)、再度ステップS302のキーワードの取得から処理が繰り返される。一方、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得している場合(ステップS306のYes)、関連区間算出部106は、新規キーワード候補を新規キーワードであると判断する(ステップS307)。
次に、関連区間算出部106は、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得したか否かを判定する(ステップS309)。ここで、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得していない場合(ステップS309のNo)、再度ステップS301のキーワードの取得から処理が繰り返される。一方、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得している場合(ステップS309のYes)、関連区間算出部106は、ステップS307において新規キーワードであると判断されたキーワードの数を、前回更新区間のキーワードリストに含まれるキーワードの数を用いて除することにより、変化率を算出する(ステップS310)。
このように関連区間算出部106により関連区間が算出された後、図5に示すステップS107の処理が実行される。
次に、図8〜図10を用いてコンテンツ検索装置100が出力する画面について説明する。図8〜図10は、ユーザが、視聴可能なテレビ番組の中からニュース番組に関連する番組を視聴したい場合の、コンテンツ検索が出力する画面の遷移を示す図である。
検索開始の際、コンテンツ検索装置100は、ユーザに対して図8に示す初期検索画面を提示する。この初期検索画面の中に提示される初期検索キーワードは、例えば、「スポーツ」、「ドキュメンタリー」等のジャンルを示すキーワードである。ユーザは、提示されたキーワードの中からニュース番組が見たいと思った場合、初期検索キーワードの中から「ニュース」を選択する。
図9は、ユーザが初期検索キーワードを選択した後に、コンテンツ検索装置100が提示する検索画面である。この検索画面には、選択したキーワード(ニュース)に関するコンテンツリスト70及び関連キーワードリスト71が、それぞれ提示される。なお、関連キーワードリスト71には、関連キーワードが、関連区間ごとに、関連度の高い順に提示される。
ユーザは、この検索画面中に見たいコンテンツがある場合、コンテンツリスト70の中からコンテンツを選択する。一方、ユーザは、この検索画面中に見たいコンテンツがない場合、関連キーワードリスト71の中から見たいコンテンツに関連するキーワードを選択する。
図9に示す検索画面において、ユーザがコンテンツリスト70の中からコンテンツを選択した場合、コンテンツ検索装置100は、選択したコンテンツを表示し、検索処理を終了する。一方、ユーザが関連キーワードリスト71の中から任意の関連キーワードを選択した場合、コンテンツ検索装置100は、選択されたキーワードに基づいて、再度コンテンツリストと関連キーワードとが表示された画面を提示する。例えば、図9に示す検索画面において、ユーザが関連キーワードリスト71の中から国会72を選択した場合、図10に示すように、コンテンツ検索装置100は、「国会」に関するコンテンツと「国会」に関連するキーワードとを関連区間ごとに提示する。
以上のように、ユーザはシステムが提示する関連キーワードの選択を繰り返しながら、自分が見たいコンテンツを検索する。
次に、図5及び図6に示したコンテンツ検索装置100の処理について、図8〜図10に示した画面を用いて、さらに具体的に説明する。
図5のステップS101において、入力部103は、ユーザによるシステムへの入力情報を受け取る。具体的には、ユーザが、図8の初期検索画面において選択した「ニュース」、図9の検索画面において選択した「国会」等のキーワードが入力情報となる。また、ユーザが、図9に示したコンテンツリスト70から選択したコンテンツも入力情報となる。さらにまた、図示はしていないが、ユーザが、コンテンツデータベース更新を選択した場合は、その選択も入力情報となる。
なお、本実施の形態においては、ユーザの入力があった場合に、コンテンツ検索装置100が、コンテンツデータベース101を更新するとしているが、任意の時間になれば、コンテンツ検索装置100が、コンテンツデータベース101を更新するようにしてもよい。また、コンテンツ検索装置100と異なる他の装置が、コンテンツ検索装置にコンテンツデータベース101の更新を要求すれば、コンテンツ検索装置100が、コンテンツデータベース101を更新するようにしてもよい。このような場合、コンテンツデータベース101への新たなコンテンツの入力が、入力情報となる。
図5のステップS102において、入力選別部104は、ステップS101から受け取った入力情報を「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれかに選別する。具体的には、「キーワード選択」は、例えば、図9の検索画面において、ユーザが関連キーワードリスト71の中から、いずれかのキーワードを選択した場合に選別される。また、「コンテンツ選択」は、例えば、図9に示した検索画面において、ユーザがコンテンツリスト70の中から、いずれかのコンテンツを選択した場合に選別される。また、「コンテンツデータベース更新」は、例えば、図示していないが、ユーザがコンテンツデータベースの更新を選択した場合に選別される。
図5のステップS103において、入力選別部104は、ステップS102における選別が「キーワード選択」であるか否かを判別する。ここで、入力選別部104が、入力部103から受け取った情報を「キーワード選択」であると判別した場合、入力選別部104は、該当する選択キーワードを属性取得部108へ渡す。そして、処理はステップS108へ進む。一方、入力選別部104が、入力部103から受け取った情報を「キーワード選択」であると判別しなかった場合、処理はステップS104へ進む。具体的には、例えば、ユーザが図8の初期検索画面において「ニュース」のキーワードを選択した場合、又は、ユーザが図9の検索画面において「国会」のキーワードを選択した場合、入力選別部104は、いずれも「キーワード選択」と選別する。そして、入力選別部104は、「ニュース」又は「国会」のキーワードを属性取得部108へ渡す。そして、処理はステップS108に進む。
図5のステップS104において、入力選別部104は、ステップS102における選別が「コンテンツデータベース更新」であるか否かを判別する。ここで、入力選別部104が、入力部103から受け取った情報を「コンテンツデータベース更新」と判別した場合、処理はステップS105へ進む。一方、入力選別部104が、入力部103から受け取った情報を「コンテンツデータベース更新」でないと判別した場合、すなわち、入力選別部104がステップS102において、入力部103から受け取った情報を「コンテンツ選択」であると選別していた場合には、入力選別部104は、ユーザが選択したコンテンツに対応するコンテンツIDを、コンテンツデータベース101から取得する。そして、入力選別部104は取得したコンテンツIDを出力生成部110へ渡す。その後、処理はステップS109へ進む。例えば、図10の検索画面において、ユーザが「サンデードキュメンタリー」という番組を選択した場合、入力選別部104は、選択した番組に対応するコンテンツIDをコンテンツデータベース101から取得し、取得したコンテンツIDを出力生成部110へ渡す。その後、処理はステップS110へ進む。一方、ユーザが番組を選択していない場合、すなわちコンテンツデータベース更新を選択した場合、入力選別部104は更新データをコンテンツデータベース更新部105へ渡す。そして、処理はステップS105へ進む。
図5のステップS105において、コンテンツデータベース更新部105は、ステップS104の処理により取得された更新データをコンテンツデータベース101に追加する。
図5のステップS106において、関連区間算出部106は、ステップS105において、コンテンツデータベース更新部105がコンテンツデータベース101に新たに追加した更新データに基づいて関連区間を算出する。
ここで、ステップS106における処理を、以下に詳述する。
図6のステップS201において、関連区間算出部106は、関連語辞書102aに含まれる前回更新された関連区間を、「ニュース」及び「スポーツ」などのコンテンツ属性ごとに取得する。具体的には、関連区間算出部106は、図4に示した関連語辞書102aに記憶されたデータの中から、コンテンツ属性ごとに最新の関連区間42を取得する。なお、図11(a)に示すように、ここで取得する関連区間を前回更新区間1001(tn−2〜tn−1)とする。
次に、図6のステップS202において、関連区間算出部106は、ステップS201において取得された関連区間に含まれるコンテンツのキーワードリストを、コンテンツ属性ごとに作成する。具体的には、例えば、関連区間算出部106は、図4に示した関連語辞書102aを参照して、前回更新区間1001に対応するキーワード43を、コンテンツ属性ごとに取得すればよい。
次に、図6のステップS203において、関連区間算出部106は、図5のステップS104において取得された更新データに対応するキーワードリストを、コンテンツ属性ごとに作成する。
以上のように、図6のステップS201〜S203の処理によって、コンテンツ属性ごとに、前回更新区間におけるキーワードリストと、今回新たに更新されるコンテンツに対応するキーワードリストとが作成される。
次に、図6のステップS204において、関連区間算出部106は、ステップS202において作成されたキーワードリストと、ステップS203において作成されたキーワードリストとを比較し、キーワード構成の変化率を算出する。ここで、キーワード構成の変化率とは、相違度の一例である。具体的には、今回新たに更新されるコンテンツのキーワードのうち、前回更新区間1001に係るキーワードリストに含まれていないキーワードの数を分子とし、前回更新区間1001に係るキーワードリストに含まれるキーワードの数を分母として、算出される値である。例えば、ステップS203において作成された今回新たに更新されるコンテンツから得られるキーワードリストのうち、前回更新区間1001のキーワードリストに含まれていない新しいキーワードの数が40個であり、前回更新区間1001のキーワードリストに含まれるキーワードの数が200個である場合、キーワード構成の変化率は0.2となる。なお、新しいキーワードの数は、図7に示した処理に基づいて算出される。
次に、図6のステップS205において、関連区間算出部106は、ステップS204において取得されたキーワード構成の変化率が所定の閾値を超えるか否かを判定する。図6のステップS205において変化率が所定の閾値以上であると判定された場合は、図6のステップS206において、関連区間算出部106は、新たに追加されたコンテンツに対応する時間区間のみを新たな関連区間として算出する。
一方、図6のステップS205において変化率が所定の閾値を下回ると判定された場合は、図6のステップS206において、関連区間算出部106は、前回更新した区間と今回新たに更新されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する。
具体的には、今回新たに更新されるコンテンツに対応する時間区間を追加区間1002(tn−1〜tn)とした場合、関連区間算出部106は、キーワード構成の変化率が閾値以上のときは、図11(b)に示すように、追加区間1002と同一の新関連区間1003(tn−1〜tn)を新たな関連区間として算出し、変化率が閾値を下回るときは、図11(c)に示すように、前回更新区間1001と追加区間1002とを足し合せた新関連区間1004(tn−2〜tn)を新たな関連区間として算出する。
なお、一般的にキーワード構成の変化率が大きくなる頻度は、コンテンツ属性によって大きく異なる。例えば「ニュース」などの時事性の高いコンテンツは日々新しい話題が提供されるため、キーワード構成の変化率が大きくなる時間間隔は短くなる。一方、「バラエティ」や「スポーツ」などのコンテンツは、「ニュース」と比較してキーワード構成の変化率が大きくなる時間間隔は長くなる。これは、スポーツコンテンツがシーズンごとに大きく変化する点、バラエティコンテンツが3ヶ月に一度番組改編される点等に起因する。キーワード構成が変化すると、キーワード間の関連度も変化する。したがって、時事性のあるキーワードを提示するためには、コンテンツ検索装置100は、キーワード構成の変化に応じて関連区間を変更した関連語辞書102aを用いて、関連キーワードを生成することが望ましい。上述のように、関連区間算出部106は、コンテンツ属性ごとのキーワード構成の変化率に基づいて、関連区間を算出することができるので、コンテンツ検索装置100は、時事性のあるキーワードを提示することが可能となる。
以上の図6に示したステップS201〜S207の処理を行うことにより、図5のステップS106において、関連区間算出部106は、コンテンツデータベース101に新たに追加するコンテンツに対応する関連語辞書102aの関連区間を算出することができる。
なお、上記の図6のステップS204の説明において、2つの比較するキーワードリストに含まれるキーワードの数について特に規定していなかったが、出現頻度の高い所定の数のキーワードのみを対象として変化率を算出してもよい。具体的には、関連区間算出部106は、ステップS202において作成されたキーワードリストの中において出現頻度上位n個のキーワードと、ステップS203において作成されたキーワードリストのうち出現頻度上位n個のキーワードとを比較し、キーワード構成の変化率を算出する。例えば、ステップS203において作成されるキーワードリストの中において出現頻度上位100個のキーワードのうち、前回更新区間のキーワードリストの中において出現頻度上位100個のキーワードに含まれていない新しいキーワードの数が40個である場合、キーワード構成の変化率は0.4となる。
また、上記の図6のステップS201において、関連区間算出部106は、関連語辞書102aの最新の関連区間を前回更新区間として取得していたが、コンテンツデータベース101において前回更新されたコンテンツに対応する時間区間に含まれる、所定の長さの時間区間を前回更新区間としてもよい。具体的には、図12(a)に示すような場合、関連区間算出部106は、図12(b)に示すキーワード比較区間1103(tn−2〜tn−1)を取得する。つまり、コンテンツデータベース101において前回更新されたコンテンツに対応する時間区間である前回コンテンツ更新区間1101(tn−3〜tn−1)が最小時間単位の2倍の長さの時間区間である場合、関連区間算出部106は、前回コンテンツ更新区間のうち、追加区間1102に近い方から最小時間単位分の時間区間を取得する。
最小時間単位での変化率の比較は、キーワード関連度の微細な変化に対応した関連区間を設定することができる。これにより、例えばコンテンツの内容が変化する頻度が全体的に高いブログ(blog)等のコンテンツの検索において、コンテンツ検索装置は、ユーザに常に新しい関連キーワードを提示することが可能となる。
続いて、図5のステップS107において、辞書更新部107は、ステップS105において算出された関連区間に基づいて、関連語辞書を更新する。辞書作成方法は、図1において説明した通りである。
図5のステップS108において、属性取得部108は、ステップS103において取得されたキーワードのコンテンツ属性を判定する。そして、属性取得部108は、キーワードと判定したコンテンツ属性とを関連キーワード取得部109へ渡す。その後、処理はステップS109へ進む。コンテンツ属性の判定の具体例としては、図8の初期検索画面において提示するキーワードがコンテンツ属性と共通するキーワードである場合、属性取得部108は、ユーザが初期検索画面において選択したキーワードを、コンテンツ属性として判定すればよい。また、図8に示した初期検索画面において「ニュース」を選択した場合、図9に示した検索画面において、ユーザが選択する関連キーワードのコンテンツ属性は「ニュース」と判定する。これは、最初に選択した「スポーツ」というコンテンツ属性のコンテンツを絞り込むという検索になり、絞込検索の場合に有効である。
図5のステップS109において、関連キーワード取得部109は、辞書データベース102を参照することにより、ステップS103において取得されたキーワードと、ステップS108において取得されたキーワード属性とに対応する関連キーワードを取得する。そして、関連キーワード取得部109は、取得した関連キーワードを出力生成部110へ渡す。その後、処理はステップS110へ進む。具体的には、例えばユーザが図8の初期検索画面において「ニュース」を選択し、続いて図9の検索画面において「国会」を選択した場合、属性取得部108は、キーワード属性を「ニュース」と判定する。そして、関連キーワード取得部109は、図4に示した関連語辞書102aを参照することにより、コンテンツ属性「ニュース」とキーワード「国会」とに対応する関連キーワードの中から、関連度45の値が高いキーワードを取得する。例えば、関連キーワード取得部109は、2007年9月10日から12日までの関連区間において、「首相演説」、「政治」及び「年金」のキーワードを取得する。
図5のステップS110において、出力生成部110は、ステップS109において関連キーワードが取得された場合は、取得した関連キーワードとコンテンツデータベース101とを用いて、例えば図9に示すような検索画面を出力するための出力情報を生成する。一方、ステップS104においてコンテンツIDが取得された場合は、出力生成部110は、取得されたコンテンツIDとコンテンツデータベース101とを用いてコンテンツを表示するための出力情報を生成する。
図5のステップS111において、出力部111は、ステップS110において生成された出力情報をモニタ等に出力する。
以上のステップS101〜ステップS111の処理を実行することにより、コンテンツ検索装置100は、コンテンツ属性ごとに関連区間が異なる関連語辞書102aを参照することができるので、コンテンツ属性ごとに異なる時事性に適合した関連キーワードをユーザに提示することができる。
なお、図5のステップS108において、属性取得部108は、上記において説明した方法とは異なる方法を用いてコンテンツ属性を取得してもよい。例えば、属性取得部108は、取得したキーワードが存在するコンテンツ属性のうち、キーワードの出現頻度が高いコンテンツ属性を複数取得してもよい。例えば、「国会」というキーワードが「ニュース」及び「バラエティ」の2つのコンテンツ属性に存在している場合、各コンテンツ属性の中において、「国会」というキーワードの出現頻度の順位が所定の閾値以上であるときには、2つのコンテンツ属性をキーワード属性として取得してもよい。この場合に出力される画面の一例を図13に示す。図13に示すように、出力部111は、「国会」というキーワードに対する関連キーワードを、「ニュース」及び「バラエティ」の各コンテンツ属性に対してそれぞれ出力する。したがって、ユーザはコンテンツ属性ごとに関連キーワードを選択することができる。そのため、コンテンツ検索装置100は、ユーザが意図しない関連キーワードの提示(例えば、ユーザがバラエティの関連キーワードを欲していたが、ニュースの関連キーワードが提示されること等)を回避することができる。その結果、コンテンツ検索装置100は、ユーザによる検索の戻り工数を削減することが可能になる。
図14に本実施の形態のコンテンツ検索装置によって出力される関連キーワード、及び特許文献2に記載の従来技術による固定区間を用いて出力される関連キーワードを並べて出力した場合の出力例を示す。
図14(a)は、従来技術に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例である。図に示すように、各関連キーワードは、2007年8月13日〜9月12日までのデータを10日間に区切った時間区間121、122、123ごとに生成されている。
図14(b)は、本実施の形態に係るコンテンツ検索装置100によって出力される関連キーワードの提示画面の一例である。図に示すように、各関連キーワードは、属性ごとのキーワード構成の変化率に基づいて算出された時間区間124、125、126において生成されている。
データの内容変化の頻度に対して関連キーワードを作成する時間区間が短い場合(例えば、キーワード構成が20日間変化しない場合)には、図14(a)の時間区間121及び時間区間122に示される「選挙」等のように、コンテンツ検索装置は、複数の時間区間において同じキーワードを出力することになる。このような同一のキーワードが同一画面に複数出力されることは、ユーザの選択肢の幅が狭まることにつながる。その結果、ユーザが他のキーワードを選択したい場合に、余分な検索ステップを生じさせる可能性が高くなる。
一方、本実施の形態に係るコンテンツ検索装置100は、コンテンツ属性ごとのキーワード構成の変化に対応して関連キーワードを生成する時間区間を決定する。したがって、コンテンツ検索装置100は、同一のキーワードを異なる時間区間に複数出力する可能性を低くすることができる。すなわち、図14(b)の時間区間124に示すように、キーワード構成の変化が小さい時間区間は、1つの時間区間124となる。その結果、時間区間124において提示されるキーワードと、時間区間124と隣接する時間区間125において提示されるキーワードとは異なるキーワードとなる。
また、データの内容変化の頻度に対して関連キーワードを作成する時間区間が長い場合(例えば、キーワード構成の変化が5日間ごとに生じる場合)には、キーワード構成が変化する期間の前後に渡って関連度の高いキーワードが優先的に提示されてしまう。したがって、コンテンツ検索装置は、時事性に適合したキーワードを提示することができない。すなわち、図14(a)の時間区間123に示すように、キーワード構成変化後の時事性に適合したキーワード「首相演説」よりも、キーワード構成変化前に関連度の高いキーワード「アメリカ」が上位に提示されてしまう。この場合も上記と同様に、ユーザが他のキーワードを選択したい場合に、検索ステップ数が増加する可能性が高くなる。
これに対し、本実施の形態に係るコンテンツ検索装置100は、キーワード構成の変化率に応じて、コンテンツ属性ごとに、関連キーワードを生成する時間区間を変更する。そのため、コンテンツ検索装置100は、時事性に適合した関連キーワードを提示することが可能になる。すなわち、図14(b)の時間区間125及び時間区間126に示すように、コンテンツ検索装置100は、キーワード構成が大きく変化した2007年9月10日を境に時間区間を変更できるため、最新の時間区間126において、時事性に適合したキーワード「首相演説」を提示することが可能となる。
以上のように、本実施の形態のコンテンツ検索装置は、関連キーワードを生成するための関連語辞書を、新たに追加されるコンテンツと既に記憶されているコンテンツとのキーワード構成の相違度に応じた関連区間に基づいて更新するので、時事性に適合した関連キーワードを効率的にユーザに提示することができる。これにより、ユーザは、時事性の異なる複数のコンテンツ属性のコンテンツが含まれるコンテンツデータベースからコンテンツを検索する場合に、関連キーワードの選択を繰り返すことにより、対話的にコンテンツを絞り込むことが可能になる。
(変形例1)
次に、上記実施の形態の変形例1について図面を用いて説明する。
本変形例に係るコンテンツ検索装置は、コンテンツデータベース更新部105がコンテンツ属性21を生成する点が、図1に示す実施の形態に係るコンテンツ検索装置100と異なる。
以下、本変形例に係るコンテンツデータベース更新部105によるコンテンツ属性21の生成に関する処理について説明する。
本変形例に係るコンテンツデータベース更新部105は、コンテンツデータベース101に記憶されているコンテンツをクラスタリングすることにより、「クラスタラベル」をコンテンツ属性21として生成する。そして、コンテンツデータベース更新部105は、生成したコンテンツ属性21をコンテンツデータベース101に登録する。このようにコンテンツデータベース更新部105がクラスタリングすることにより、コンテンツ検索装置は、例えばスポーツ系の番組が集まったクラスタ(コンテンツ集合)又は映画系の番組が集まったクラスタなどのように、番組内容が近いコンテンツ同士を同じグループに分類することができる。すなわち、「クラスタラベル」はEPGの「ジャンル」と同等の情報であり、コンテンツ属性21の一例となる。なお、コンテンツデータベース更新部105が実行するクラスタリングの具体的な方法については、例えば非特許文献2「情報検索と言語処理」(徳永健伸、東京大学出版会、pp.60−65、1999))に記載の再配置法を用いればよい。
図15は、コンテンツデータベース更新部105がクラスタラベルをコンテンツ属性21として生成する処理の概念図を示す。図15に示すように、コンテンツデータベース更新部105は、コンテンツデータベース101に記憶されているコンテンツ付属情報に含まれるキーワード等を用いてクラスタリングを行うことにより、クラスタを複数生成する。そして、コンテンツデータベース更新部105は、生成されたクラスタに対応するクラスタラベルを生成する。例えば、コンテンツデータベース更新部105は、ランダムに生成したクラスタラベル(CL1、CL2、CL3及びCL4)をクラスタに付与する。これにより、コンテンツデータベース101に記憶されている全てのコンテンツIDに対して、何れかのクラスタラベルが生成されることになる。そして、コンテンツデータベース更新部105は、生成されたクラスタラベルをコンテンツデータベース101にコンテンツ属性21として登録する。
以上の処理によって、コンテンツデータベース更新部105は、EPGの「ジャンル」に相当するコンテンツ属性21を自動的に登録することができる。そのため、本変形例に係るコンテンツ検索装置は、予めコンテンツ属性が登録されていないコンテンツデータベース101であっても、関連キーワードを出力することが可能になる。
なお、コンテンツデータベース更新部105は、クラスタラベルをデータベース更新の度に新たにコンテンツデータベース101に記憶される更新データに対して生成する。この際、図16に示すように、更新データに対するクラスタラベル(CL21、CL22及びCL23)と、すでにコンテンツデータベース101に記憶されている更新前のデータに対するクラスタラベル(CL11、CL12及びCL13)とでは、同じ内容のクラスタに対して異なるクラスタラベルが付与されてしまう可能性がある。例えば、更新前のスポーツ系のクラスタにはクラスタラベル「CL11」が付与されているが、更新データのスポーツ系のクラスタには「CL22」が付与されている。すなわち、同じ内容のクラスタに対して同じラベルが付与されていない。このような場合は、コンテンツデータベース更新部105は、まず初めに更新データの各クラスタと、更新前のデータの各クラスタとの類似度を算出する。続いて、コンテンツデータベース更新部105は、類似度の高いクラスタ同士のペアを作成する。そして、コンテンツデータベース更新部105は、作成したペアにおいて、更新前のクラスタラベルを更新データのクラスタラベルとして付与する。なお、類似度については、例えば各クラスタ間のコサイン尺度又は内積を用いる方法(非特許文献3「情報検索アルゴリズム」、北研二 他、共立出版、pp.60−63、2002)に記載の方法により算出されればよい。これにより、例えば上述の例のクラスタラベル「CL22」を「CL11」へ変換することができるように、コンテンツデータベース更新部105は、更新前後で内容の近いクラスタに対して同一のクラスタラベルを付与することができる。
(変形例2)
次に、上記実施の形態の変形例2について図面を用いて説明する。
本変形例に係るコンテンツ検索装置は、関連区間算出部106により実行される処理の内容が実施の形態に係るコンテンツ検索装置100と異なる。コンテンツ間でキーワードの数が大きく異なるようなコンテンツデータベース101において関連区間が算出される場合、算出される関連区間は、キーワード数の大きなコンテンツに大きく影響されてしまう。そこで、本変形例に係る関連区間算出部106は、図5に示すステップS106において、コンテンツデータベース101にすでに記憶されている更新前のコンテンツとコンテンツデータベース101に新たに追加される追加コンテンツとの文書空間の類似度を用いて関連区間を算出する。
以下、本変形例に係る関連区間算出部106による関連区間の算出に関する処理について説明する。
図17は、関連区間算出部106による関連区間算出に関する処理(図5に示したステップS106)の流れを示すフローチャートである。図17において図6と同じステップについては同じ符号を付し、詳細な説明を省略する。
まず、関連区間算出部106は、前回更新区間をコンテンツ属性ごとに取得する(ステップS201)。
次に、関連区間算出部106は、取得した前回更新区間のコンテンツの文書行列をコンテンツ属性別に作成する(ステップS1701)。すなわち、関連区間算出部106は、コンテンツデータベースにすでに記憶された第2コンテンツの内容を示す複数の第2キーワードを用いて、コンテンツ属性ごとに文書行列を作成する。以下、作成した文書行列を文書行列群Aという。ここで文書行列とは、図18に示すように、各コンテンツにおけるキーワードの頻度情報(出現頻度、tf−idf等)を表す行列である。
次に、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツの文書行列をコンテンツ属性別に作成する(ステップS1702)。すなわち、関連区間算出部106は、コンテンツデータベースに新たに記憶される第1コンテンツの内容を示す複数の第1キーワードを用いて、コンテンツ属性ごとに文書行列を作成する。以下、作成した文書行列を文書行列群Bという。
次に、関連区間算出部106は、文書行列群A及びBの中から、同じコンテンツ属性の文書行列をそれぞれ取得する(ステップS1703)。以下、文書行列群A及びBの各々の中から取得した各文書行列を文書行列A1及びB1という。図19にステップS1703において取得された文書行列A1、B1の一例を示す。図に示すように、文書行列群A及びBには、それぞれ「スポーツ」及び「映画」のコンテンツ属性の文書行列が含まれる。そこでステップS1703において、コンテンツ属性が「スポーツ」の文書行列を文書行列群A及びBの中からそれぞれ選択することにより、コンテンツ属性「スポーツ」に対応する文書行列A1及びB1が取得される。
次に、関連区間算出部106は、文書行列A1及びB1を用いて各文書行列の類似度を算出する(ステップS1704)。関連区間算出部106は、例えば、文書行列A1に対して行列B1の各文書ベクトルのコサイン距離を算出し、文書行列B1の全ての文書数に対してコサイン距離が閾値以上の文書が含まれる割合を類似度として算出する。
ここで、算出した類似度が所定の閾値より小さい場合(ステップS1705のYes)、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツ(第1コンテンツ)に対応する時間区間を新たな関連区間として算出する(ステップS206)。一方、算出した類似度が所定の閾値以上である場合(ステップS1705のNo)、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間と前回更新区間とを足し合わせた時間区間を、新たな関連区間として算出する(ステップS207)。すなわち、関連区間算出部106は、第1コンテンツに対応する時間区間と第2コンテンツに対応する時間区間とを足し合わせた時間区間を新たな関連区間として算出する。
次に、関連区間算出部106は、ステップS1703においてコンテンツデータベース101に記憶されている全てのコンテンツ属性が選択されたか否かを判定する(ステップS1706)。ここで、全てのコンテンツ属性が選択されていない場合は(ステップS1706のNo)、ステップS1703の処理に戻る。一方、全てのコンテンツ属性が選択されている場合は(ステップS1706のYes)、図5に示すステップS107の処理が実行される。
以上のステップS201、ステップS206、ステップS207及びステップS1701〜S1706の処理が行われることにより、関連区間算出部106は、コンテンツ単位の類似度に応じた関連区間を算出することができる。これにより、コンテンツ間でキーワードの数が大きく異なるようなコンテンツデータベース101において関連区間が算出される場合であっても、関連区間の算出において、キーワード数の大きなコンテンツの影響を低減することができるため、関連区間の誤算出を防止することができる。
なお、関連区間算出部106は、ステップS106において、更新前のコンテンツと追加コンテンツとのコンテンツタイトルの相違度が所定の基準値を満たすか否かに基づいて関連区間を算出しても良い。具体的には、関連区間算出部106は、前回更新区間のコンテンツのタイトルと新たに追加されるコンテンツのタイトルとの一致率を算出する。そして、一致率が閾値以上の場合には、関連区間算出部106は、前回更新区間とコンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する。一方で、一致率が閾値より小さい場合には、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間を新たな関連区間として算出する。これにより、同一タイトルの場合にコンテンツの内容が類似しているようなコンテンツが記憶されたコンテンツデータベース101において、関連区間算出部106は、関連区間を算出するための処理時間を大きく低減することができる。
以上、本発明に係るコンテンツ検索装置について、実施の形態及びその変形例に基づいて説明したが、本発明は上記実施の形態及びその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記実施の形態及びその変形例に施したもの、及び、異なる実施の形態及びその変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
例えば、上記実施の形態では、コンテンツ検索装置にコンテンツデータベースが備えられていたが、コンテンツ検索装置とは異なる他の装置にコンテンツデータベースが備えられていてもよい。その場合、コンテンツ検索装置と他の装置とは、ネットワーク等を介して接続される。
また、上記実施の形態のコンテンツ検索装置は、テレビ番組が記憶されているコンテンツデータベースから、所望のテレビ番組を検索していたが、映画、音楽等の視聴コンテンツ、本、論文等のテキストコンテンツ等が記憶されているコンテンツデータベースからコンテンツを検索してもよい。すなわち、本発明に係るコンテンツ検索装置が検索するコンテンツは、文字情報を有するコンテンツであればよい。
なお、本発明は、上記のようなコンテンツ検索装置として実現することができるだけでなく、コンテンツ検索装置に含まれる特徴的な構成部の動作をステップとするコンテンツ検索方法として実現したり、コンテンツ検索方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc−Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができる。
本発明は、大量のコンテンツの中からユーザが利用したいコンテンツを検索するためのコンテンツ検索装置等として、例えば、テレビ番組が大量に記憶されたデータベースからユーザが見たい番組を検索する装置として、利用可能である。
20 コンテンツID
21 コンテンツ属性
22 タイトル
23 放送日
24 キーワード
25 概要
31、32 区間辞書
41 コンテンツ属性
42 関連区間
43 キーワード
44 関連キーワード
45 関連度
70 コンテンツリスト
71 関連キーワードリスト
100 コンテンツ検索装置
101 コンテンツデータベース
102 辞書データベース
102a 関連語辞書
103 入力部
104 入力選別部
105 コンテンツデータベース更新部
106 関連区間算出部
107 辞書更新部
108 属性取得部
109 関連キーワード取得部
110 出力生成部
111 出力部
121、122、123、124、125、126 時間区間
1001 前回更新区間
1002、1102 追加区間
1003、1004 新関連区間
1101 前回コンテンツ更新区間
1103 キーワード比較区間

Claims (11)

  1. コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索するコンテンツ検索装置であって、
    所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースと、
    前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出手段と、
    前記関連区間算出手段により算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新手段と、
    前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成手段と
    を備えることを特徴とするコンテンツ検索装置。
  2. 前記関連区間算出手段は、前記相違度が所定基準値を超える場合には、前記第1コンテンツに対応する時間区間により定められる関連区間を算出し、前記相違度が所定基準値以下である場合には、前記辞書データベースに記憶された最新の関連区間と前記第1コンテンツに対応する時間区間とを足し合わせた時間区間により定められる関連区間を算出する
    ことを特徴とする請求項1に記載のコンテンツ検索装置。
  3. 前記関連区間算出手段は、前記辞書データベースに記憶される最新の関連区間に含まれるコンテンツを前記第2コンテンツとして、関連区間を算出する
    ことを特徴とする請求項2に記載のコンテンツ検索装置。
  4. 前記関連区間算出手段は、前記第1キーワードのうち出現頻度が高い所定の数のキーワードと、前記第2キーワードのうち出現頻度が高い所定の数のキーワードとの相違度が所定基準値を満たすか否かに基づき、関連区間を算出する
    ことを特徴とする請求項3に記載のコンテンツ検索装置。
  5. 前記関連区間算出手段は、前記コンテンツデータベースに前回新たに加えられたコンテンツに対応する時間区間のうち、予め定められた長さの時間の時間区間に含まれるコンテンツを前記第2コンテンツとして、関連区間を算出する
    ことを特徴とする請求項2に記載のコンテンツ検索装置。
  6. 前記コンテンツ検索装置は、さらに、
    ユーザが入力したキーワードに関連するコンテンツ属性を取得する属性取得手段と、
    前記辞書データベースを参照することにより、前記ユーザが入力したキーワードと前記属性取得手段により取得されたコンテンツ属性とに対応する関連キーワードを、関連区間ごとに取得する関連キーワード取得手段とを備え、
    前記出力生成手段は、前記関連キーワード取得手段により取得された関連キーワードを出力するための前記出力情報を生成する
    ことを特徴とする請求項1に記載のコンテンツ検索装置。
  7. 前記関連キーワード取得手段は、前記属性取得手段により複数のコンテンツ属性が取得された場合は、前記複数のコンテンツ属性の各々に対して関連キーワードを生成し、
    前記出力生成手段は、前記複数のコンテンツ属性の各々に対して生成された関連キーワードを、コンテンツ属性ごと、関連区間ごとに出力するための出力情報を生成する
    ことを特徴とする請求項6に記載のコンテンツ検索装置。
  8. 関連区間算出手段は、前記第1キーワードのうち前記第2キーワードと重複しないキーワードの数を、第2キーワードの数により除した値である相違度が所定基準値を満たすか否かに基づき、関連区間を算出する
    ことを特徴とする請求項1に記載のコンテンツ検索装置。
  9. コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツをコンピュータが検索するコンテンツ検索方法であって、
    前記コンピュータは、
    所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースを備え、
    前記コンテンツ検索方法は、
    前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を、前記コンピュータが前記コンテンツ属性ごとに算出する関連区間算出ステップと、
    前記関連区間算出ステップにより算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を前記コンピュータが更新する辞書更新ステップと、
    前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を前記コンピュータが生成する出力生成ステップと
    を含むことを特徴とするコンテンツ検索方法。
  10. コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索する、コンピュータ実行可能なプログラムであって、
    前記コンピュータは、
    所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースを備え、
    前記プログラムは、
    前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出ステップと、
    前記関連区間算出ステップにより算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新ステップと、
    前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成ステップと
    をコンピュータに実行させることを特徴とするプログラム。
  11. コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースを更新する装置であって、
    所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースと、
    前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出手段と、
    前記関連区間算出手段により算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新手段と、
    を備えることを特徴とする装置。
JP2009528429A 2008-03-10 2009-03-02 コンテンツ検索装置及びコンテンツ検索方法 Expired - Fee Related JP4388137B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008059914 2008-03-10
JP2008059914 2008-03-10
PCT/JP2009/000926 WO2009113266A1 (ja) 2008-03-10 2009-03-02 コンテンツ検索装置及びコンテンツ検索方法

Publications (2)

Publication Number Publication Date
JP4388137B2 true JP4388137B2 (ja) 2009-12-24
JPWO2009113266A1 JPWO2009113266A1 (ja) 2011-07-21

Family

ID=41064940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009528429A Expired - Fee Related JP4388137B2 (ja) 2008-03-10 2009-03-02 コンテンツ検索装置及びコンテンツ検索方法

Country Status (4)

Country Link
US (1) US8073851B2 (ja)
JP (1) JP4388137B2 (ja)
CN (1) CN101889281B (ja)
WO (1) WO2009113266A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768930B2 (en) * 2009-10-10 2014-07-01 Oracle International Corporation Product classification in procurement systems
JP5005835B2 (ja) * 2009-10-22 2012-08-22 パナソニック株式会社 再生装置、再生方法、プログラムおよび記録媒体
US8385723B2 (en) * 2010-06-18 2013-02-26 Microsoft Corporation Recording of sports related television programming
KR101196935B1 (ko) 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
KR101196989B1 (ko) * 2010-07-06 2012-11-02 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8719207B2 (en) 2010-07-27 2014-05-06 Oracle International Corporation Method and system for providing decision making based on sense and respond
CN101916268B (zh) * 2010-08-04 2012-07-25 哈尔滨工业大学深圳研究生院 汉语词组库的建立及更新方法
US9348941B2 (en) * 2011-06-16 2016-05-24 Microsoft Technology Licensing, Llc Specification of database table relationships for calculation
US20130066632A1 (en) * 2011-09-14 2013-03-14 At&T Intellectual Property I, L.P. System and method for enriching text-to-speech synthesis with automatic dialog act tags
CN103744897A (zh) * 2013-12-24 2014-04-23 华为技术有限公司 故障信息的关联搜索方法、***和网络管理***
CN104331434A (zh) * 2014-10-22 2015-02-04 乐视网信息技术(北京)股份有限公司 一种生成搜索提示词服务的方法及其装置
CN105912645B (zh) * 2016-04-08 2019-03-05 上海智臻智能网络科技股份有限公司 一种智能问答方法及装置
CN110574102B (zh) * 2017-05-11 2023-05-16 株式会社村田制作所 信息处理***、信息处理装置、记录介质以及词典数据库的更新方法
US20220075949A1 (en) * 2018-12-20 2022-03-10 Dennis Mark Germishuys Association Determination
JP7085499B2 (ja) * 2019-01-23 2022-06-16 株式会社日立製作所 テキストデータ収集装置及び方法
CN109933691B (zh) * 2019-02-11 2023-06-09 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3157257B2 (ja) * 1992-03-23 2001-04-16 日本電信電話株式会社 情報重要度決定方法
JP3168479B2 (ja) 1992-05-01 2001-05-21 日本電信電話株式会社 時間変動する情報に対応する情報の蓄積及び検索方法
JP4034374B2 (ja) 1997-02-18 2008-01-16 株式会社ニューズウオッチ 情報検索システムおよび情報検索方法
JPH11175530A (ja) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法および装置ならび情報潮流提示プログラムを記録した記録媒体
JP2000242652A (ja) 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体
JP2001216311A (ja) 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2002183175A (ja) 2000-12-08 2002-06-28 Hitachi Ltd テキストマイニング方法
GB0307148D0 (en) * 2003-03-27 2003-04-30 British Telecomm Data retrieval system
JP2004318723A (ja) 2003-04-18 2004-11-11 Nippon Telegr & Teleph Corp <Ntt> 関連情報提供スケジュール作成方法および装置
US20050120391A1 (en) * 2003-12-02 2005-06-02 Quadrock Communications, Inc. System and method for generation of interactive TV content
JP3978221B2 (ja) * 2003-12-26 2007-09-19 松下電器産業株式会社 辞書作成装置および辞書作成方法
JP4366249B2 (ja) * 2004-06-02 2009-11-18 パイオニア株式会社 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置
WO2006046390A1 (ja) * 2004-10-29 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報検索装置
JP2007188225A (ja) 2006-01-12 2007-07-26 Yafoo Japan Corp 要約文抽出システム

Also Published As

Publication number Publication date
JPWO2009113266A1 (ja) 2011-07-21
WO2009113266A1 (ja) 2009-09-17
US8073851B2 (en) 2011-12-06
US20100293169A1 (en) 2010-11-18
CN101889281B (zh) 2012-10-17
CN101889281A (zh) 2010-11-17

Similar Documents

Publication Publication Date Title
JP4388137B2 (ja) コンテンツ検索装置及びコンテンツ検索方法
US9654834B2 (en) Computing similarity between media programs
KR100921078B1 (ko) 정보 처리 장치 및 방법
KR101061234B1 (ko) 정보처리 장치와 방법, 및 기록 매체
US8452760B2 (en) Relevancy presentation apparatus, method, and program
KR102001647B1 (ko) 지식 패널들을 컨텍스트화
US20090077056A1 (en) Customization of search results
US20070074254A1 (en) Locating content in a television environment
JP2010067175A (ja) ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法
US20120036139A1 (en) Content recommendation device, method of recommending content, and computer program product
US20090300011A1 (en) Contents retrieval device
CN103984740A (zh) 基于组合标签的检索页显示的方法和***
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
CN103069825A (zh) 用于电视搜索助手的***和方法
JP6219967B2 (ja) ラベル付非テキスト系アイテムを検索するためのシステム及び方法
JP5553715B2 (ja) 電子番組表生成システム、放送局、テレビ受信機、サーバ及び電子番組表生成方法
US8838616B2 (en) Server device for creating list of general words to be excluded from search result
JP5545883B2 (ja) 推薦データ成形方法、推薦データ成形装置および推薦データ成形プログラム
US11934406B2 (en) Digital content data generation systems and methods
CN100496091C (zh) 在有线电视单向机顶盒中进行全文检索的***
JP5415369B2 (ja) 番組検索装置および番組検索プログラム
US11838597B1 (en) Systems and methods for content discovery by automatic organization of collections or rails
KR102072723B1 (ko) 콘텐츠 추천어 제공 방법 및 그 콘텐츠 제공 장치
Jiang et al. A new technology of query expansion based on new user interest model
KR20010019415A (ko) 멀티미디어 데이타 구조

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090908

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091001

R150 Certificate of patent or registration of utility model

Ref document number: 4388137

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121009

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131009

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees