JP4388137B2

JP4388137B2 - コンテンツ検索装置及びコンテンツ検索方法

Info

Publication number: JP4388137B2
Application number: JP2009528429A
Authority: JP
Inventors: 和豊高田; 貴史續木; 聰松浦
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2008-03-10
Filing date: 2009-03-02
Publication date: 2009-12-24
Anticipated expiration: 2029-03-02
Also published as: JPWO2009113266A1; WO2009113266A1; US8073851B2; US20100293169A1; CN101889281B; CN101889281A

Description

本発明は、大量に記憶されたコンテンツの中から、ユーザが利用したいコンテンツを検索するためのコンテンツ検索装置に関する。

サーバーなどに記憶された大量のコンテンツから所望のコンテンツを検索する方法として、検索装置側から複数の関連キーワードを提示する方法が複数報告されている。ここで、関連キーワードとは、ユーザが特定した単語（キーワード）に関連がある単語（キーワード）のことをいう。また、一般的に、互いに関連するキーワード間の関連の度合いを表す関連度は、キーワード間の共起数、出現頻度等に基づいて算出される。

このような検索装置は、コンテンツが記憶されたコンテンツデータベースのデータ更新と同時に、関連キーワードを提示するためのキーワード間の関連付けを更新する（例えば、特許文献１参照）。したがって、この検索装置は、ユーザに対して、コンテンツデータベースに記憶された最新のコンテンツに基づいた関連キーワードを提示する。

しかし、ユーザが特定のキーワードから想起する関連キーワードは、ユーザによってそれぞれ異なる。例えば、「俳優Ａ」が出演した最近放送のドラマだけを視聴したユーザは、そのドラマに出演していた「女優Ｂ」を関連キーワードとして想起する。一方、「俳優Ａ」が出演した１年前に放送のドラマだけを視聴したユーザは、そのドラマに出演していた「女優Ｃ」を関連キーワードとして想起する。このように、ユーザ個人の知識が異なる場合、ユーザが「俳優Ａ」に対して想起する関連キーワードは、異なるキーワードとなりえる。すなわち、検索装置が、最新のコンテンツに基づいて生成した関連キーワードだけを提示した場合、ユーザによっては、想起できない関連キーワードが提示されることになる。その結果、ユーザがキーワードの選択を行うことができず、コンテンツを絞り込むことができないという問題がある。

そこで、従来、このような問題を解決するために、コンテンツデータベースに記憶された全てのコンテンツを固定時間の時間区間により分類する方法が提案されている（例えば、特許文献２参照）。これにより、特許文献２の方法を利用した検索装置は、時間区間ごとにキーワード間の関連付けを構築することができる。その結果、この検索装置は、ユーザに対して、異なる時間区間の関連付けに基づいて生成された関連キーワードを、複数の時間区間ごとに提示することが可能となる。例えば、この検索装置は、「俳優Ａ」に関連するキーワードとして、今年１年間に対応するコンテンツにおいて関連の強い「女優Ｂ」と、昨年１年間に対応するコンテンツにおいて関連の強い「女優Ｃ」とを、同時にユーザに提示することができる。このように、検索装置が複数の時間区間における関連キーワードを提示することにより、ユーザは自分の知識に適合した関連キーワードを選択することが可能となる。すなわち、ユーザは、関連キーワードの選択を繰り返すことによるコンテンツの絞り込みを、効果的に行うことが可能となる。

特開２００７−１８８２２５号公報特開２００２−１８３１７５号公報

しかしながら、特許文献２の方法を利用した従来の検索装置では、固定時間の時間区間を利用して、コンテンツデータベースに記憶された全てのコンテンツを分類するため、各コンテンツのキーワード構成の変化に応じた関連キーワードを提示することができないという問題がある。

一般的に、コンテンツデータベースに属性（ジャンル）の異なる複数のコンテンツが記憶されている場合、コンテンツのキーワード構成が大きく変化する頻度は、属性によって大きく異なる。例えば、テレビ番組の場合、ニュース番組は、比較的短い間隔においてキーワード構成が大きく変化するが、ドラマ番組は四半期に一度しかキーワード構成が大きく変化しない。

このように、コンテンツデータベースの中にキーワード構成が大きく変化する頻度の異なる属性のコンテンツが含まれる場合、従来の検索装置が、キーワード構成が大きく変化する頻度の低いコンテンツに適合するように固定時間を決定すると、検索装置は、各属性のキーワード構成が大きく変化する頻度に適合した時事性のある関連キーワードを提示することができない。例えば、キーワード構成が大きく変化する頻度の高い「ニュースジャンル」のコンテンツにおいて、「話題」というキーワードに対して関連度の高いキーワードが、特定の期間に「国会」→「サッカー」→「台風」の順に変化したとする。この場合に、従来の検索装置は、キーワード構成が大きく変化する頻度の低い「ドラマジャンル」のコンテンツに合わせて、上記の特定の期間が１つの時間区間に含まれるような固定時間を決定する。その結果、「国会」、「サッカー」及び「台風」の中から、「話題」に対して最も関連度の高いキーワードが、関連キーワードとして提示されてしまう。すなわち、「話題」に対して最も時事性に適した関連キーワードである「台風」ではなく、「国会」又は「サッカー」が提示される場合がありえる。

一方、従来の検索装置が、キーワード構成が大きく変化する頻度の高いコンテンツに適合するように固定時間を決定すると、検索装置は、複数の時間区間において同一の関連キーワードを提示してしまう。例えば、従来の検索装置が、キーワード構成が大きく変化する頻度の高い「ニュースジャンル」のコンテンツに合わせて固定時間を決定した場合、検索装置は、キーワード構成が大きく変化する頻度の低い「ドラマジャンル」のコンテンツにおいて、複数の時間区間に同一の関連キーワードを提示する。検索装置が、ユーザに一度に提示できるキーワードの数には限りがあるので、同一のキーワードを複数提示することは、ユーザの選択肢の幅を狭めることにつながる。その結果、ユーザがキーワードを選択する際に、余分な検索ステップを生じさせる可能性が高くなる。すなわち、従来の検索装置では、ユーザは効率的にコンテンツを検索することができない。

そこで、本発明は、上記課題を解決するものであって、時事性に適合した関連キーワードを効率的にユーザに提示することができるコンテンツ検索装置を提供する。

上記目的を達成するために、本発明に係るコンテンツ検索装置は、コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索するコンテンツ検索装置であって、所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースと、前記コンテンツデータベースに記憶される第１コンテンツの内容を示す複数の第１キーワードと、前記コンテンツデータベースに記憶された第２コンテンツの内容を示す複数の第２キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第１コンテンツと前記第２コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出手段と、前記関連区間算出手段により算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新手段と、前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成手段と、を備えることを特徴とする。

これにより、キーワード構成が変化する頻度が異なる属性のコンテンツが混在して記憶されるコンテンツデータベースからコンテンツを検索する場合に、コンテンツ検索装置は、コンテンツ属性ごとに算出した関連区間に基づいて、辞書データベースを更新することにより、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。

具体的には、キーワード構成が大きく変化する頻度が高い属性のコンテンツの場合、コンテンツ検索装置は、他の属性よりも短い時間の関連区間となるように辞書データベースを更新するので、時事性に適合したキーワードをユーザに提示することが可能となる。一方、キーワード構成が大きく変化する頻度が低い属性のコンテンツの場合、コンテンツ検索装置は、他の属性よりも長い時間の関連区間となるように辞書データベースを更新するので、複数の関連区間に同一のキーワードを提示しないように、つまり、効率的にキーワードを提示することが可能となる。

さらに、キーワード構成が非周期的に変化する属性のコンテンツが記憶されるコンテンツデータベースからコンテンツを検索する場合に、コンテンツ検索装置は、コンテンツキーワード構成の変化に応じて算出した関連区間に基づいて、辞書データベースを更新することにより、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。

具体的には、短い周期でキーワード構成が変化しているときは、コンテンツ検索装置は、他よりも短い時間の関連区間となるように辞書データベースを更新するので、時事性に適合したキーワードをユーザに提示することが可能となる。一方、長い周期でキーワード構成が変化しているときは、コンテンツ検索装置は、他よりも長い時間の関連区間となるように辞書データベースを更新するので、複数の関連区間に同一のキーワードを提示しないように、つまり、効率的にキーワードを提示することが可能となる。

また、前記関連区間算出手段は、前記辞書データベースに記憶される最新の関連区間に含まれるコンテンツを前記第２コンテンツとして、関連区間を算出することを特徴としてもよい。

これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、新たな時間区間と前回更新時に算出された関連区間とのキーワード構成の相違度に基づいて新たな関連区間が決定されるので、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。

また、前記関連区間算出手段は、前記第１キーワードのうち出現頻度が高い所定の数のキーワードと、前記第２キーワードのうち出現頻度が高い所定の数のキーワードとの相違度が所定基準値を満たすか否かに基づき、関連区間を算出することを特徴としてもよい。

これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、新たな時間区間と前回コンテンツが更新された時に算出された関連区間とに含まれるキーワード数の差異に関わらず、相違度を算出することができる。

また、前記関連区間算出手段は、前記コンテンツデータベースに前回新たに加えられたコンテンツに対応する時間区間のうち、予め定められた長さの時間の時間区間に含まれるコンテンツを前記第２コンテンツとして、関連区間を算出することを特徴としてもよい。

これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、前回コンテンツが更新された時に算出された関連区間に関係なく、コンテンツ検索装置は、コンテンツデータベースに記憶されている最新のコンテンツと新たに追加されるコンテンツとのキーワード構成の相違度を算出することができる。したがって、コンテンツ検索装置は、より時事性に適したキーワードを提示することが可能となる。

また、前記コンテンツ検索装置は、さらに、ユーザが入力したキーワードに関連するコンテンツ属性を取得する属性取得手段と、前記辞書データベースを参照することにより、前記ユーザが入力したキーワードと前記属性取得手段により取得されたコンテンツ属性とに対応する関連キーワードを、関連区間ごとに取得する関連キーワード取得手段とを備え、前記出力生成手段は、前記関連キーワード取得手段により取得された関連キーワードを出力するための前記出力情報を生成することを特徴としてもよい。

これにより、ユーザが入力したキーワードからコンテンツ属性を取得することができるので、コンテンツ検索装置は、ユーザの入力に適した関連キーワードを提示することが可能となる。

また、前記関連キーワード取得手段は、前記属性取得手段により複数のコンテンツ属性が取得された場合は、前記複数のコンテンツ属性の各々に対して関連キーワードを生成し、前記出力生成手段は、前記複数のコンテンツ属性の各々に対して生成された関連キーワードを、コンテンツ属性ごと、関連区間ごとに出力するための出力情報を生成することを特徴としてもよい。

これにより、複数のコンテンツ属性の関連キーワードをユーザに同時に提示することが可能となるので、コンテンツ検索装置は、ユーザが求める関連キーワードを提示できる可能性を高めることができる。

本発明によると、キーワード構成が大きく変化する頻度が異なるコンテンツ属性のコンテンツが記憶されるコンテンツデータベースから所望のコンテンツを検索する際に、時事性に適合した関連キーワードを効率的に提示することが可能となる。

図１は、本発明の実施の形態に係るコンテンツ検索装置の機能構成を示すブロック図である。図２は、コンテンツデータベースの一例を示す図である。図３は、関連語辞書の概念図である。図４は、関連語辞書の一例を示す図である。図５は、コンテンツ検索装置の処理の流れを示すフローチャートである。図６は、関連区間算出部による関連区間算出に関する処理（図５に示したステップＳ１０６）の流れを示すフローチャートである。図７は、関連区間算出部による変化率の算出に関する処理（図６に示したステップＳ２０４）の流れを示すフローチャートである。図８は、初期検索画面の一例を示す図である。図９は、検索画面の一例を示す図である。図１０は、検索画面の一例を示す図である。図１１（ａ）、図１１（ｂ）及び図１１（ｃ）は、関連区間算出方法を説明するための図である。図１２（ａ）及び図１２（ｂ）は、関連区間算出方法を説明するための図である。図１３は、複数属性における関連キーワードの提示画面の一例を示す図である。図１４（ａ）は、従来技術に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例を示す図である。図１４（ｂ）は、本発明の実施の形態に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例を示す図である。図１５は、本発明の変形例１に係るコンテンツデータベース更新部によるコンテンツ属性を生成する処理の概念図である。図１６は、本発明の変形例１に係るコンテンツデータベース更新部によるコンテンツ属性を生成する処理を説明するための図である。図１７は、本発明の変形例２に係る関連区間算出部による関連区間算出に関する処理（図５に示したステップＳ１０６）の流れを示すフローチャートである。図１８は、本発明の変形例２における文書行列の一例を示す図である。図１９は、本発明の変形例２における文書行列を取得する処理を説明するための図である。

以下、本発明の実施の形態におけるコンテンツ検索装置について、図面を用いて詳細に説明する。

（実施の形態）
図１は、本発明の実施の形態に係るコンテンツ検索装置１００を示す構成図である。図１に示すように、コンテンツ検索装置１００は、コンテンツデータベース１０１、辞書データベース１０２、入力部１０３、入力選別部１０４、コンテンツデータベース更新部１０５、関連区間算出部１０６、辞書更新部１０７、属性取得部１０８、関連キーワード取得部１０９、出力生成部１１０、及び出力部１１１を備える。

以下、図１に示した、コンテンツ検索装置１００の各構成の詳細について順に説明する。

コンテンツデータベース１０１は、検索対象となる動画、画像、音楽、テキスト等のコンテンツと、そのコンテンツの内容を示すコンテンツ付属情報とを記憶するデータベースである。ここで、コンテンツ付属情報とは、キーワード、コンテンツ属性等のコンテンツの内容を示す情報をいう。なお、コンテンツ属性とは、コンテンツを分類するためのカテゴリー情報のことをいう。例えば、テレビ番組に関するコンテンツの場合、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）に記載されている「ジャンル」が、コンテンツ属性となる。

図２にコンテンツデータベースに記憶されたコンテンツ付属情報の一例を示す。コンテンツデータベース１０１は、動画等のコンテンツに加え、図２に示すようなコンテンツＩＤ２０、コンテンツ属性２１、タイトル２２、放送日２３、キーワード２４、概要２５を含むコンテンツ付属情報を記憶する。放送日２３は、コンテンツの時間に関する情報を示す時間情報の一例である。ここで時間情報とは、コンテンツに関する時を示す情報である。なお、時間情報は、放送日である必要はなく、コンテンツがコンテンツデータベース１０１に登録された日時等であってもよい。キーワード２４は、コンテンツの内容を示す単語（キーワード）を示す。例えば、キーワード２４には、ＥＰＧに予め付属しているキーワードが記憶される。また、キーワード２４には、タイトル２２又は概要２５に対して形態素解析などを実行することにより抽出されるキーワードが記憶されてもよい。

辞書データベース１０２は、コンテンツデータベース１０１に記憶されているキーワード間の関連度等を記憶したデータベースである。具体的には、辞書データベース１０２は、コンテンツを分類するためのコンテンツ属性ごと、及び、所定の時間区間を表す関連区間ごとに、時間情報により示される時がその関連区間に含まれるコンテンツであってコンテンツ属性により示される分類に属するコンテンツに対応する複数のキーワード間の関連度を記述した関連語辞書１０２ａを記憶する。この関連語辞書１０２ａは、コンテンツ属性内及びコンテンツ属性間において、時間の長さが異なる関連区間を用いて、キーワード間の関連度を記憶することができる。なお、関連区間とは、キーワード間の関連度を算出するための時間区間のことをいう。

図３に、コンテンツデータベース１０１に「ニュース」、「スポーツ」、「バラエティ」及び「趣味・教養」の４つのコンテンツ属性のコンテンツが存在する場合の関連語辞書１０２ａの概念図を示す。図３に示すように、関連語辞書１０２ａは、４つのコンテンツ属性に分類されている。そして、各コンテンツ属性内には、区間辞書３１（Ｎ１）、区間辞書３２（Ｎ２）等のように、関連区間の時間の長さが異なる区間辞書が記憶されている。また、各関連区間は、各コンテンツ属性（「ニュース」、「スポーツ」、「バラエティ」及び「趣味・教養」）ごとに、時間の長さが異なる。

図４に、辞書データベース１０２に記憶される関連語辞書１０２ａの一例を示す。図４に示すように、関連語辞書１０２ａには、コンテンツ属性４１、関連区間４２、キーワード４３、関連キーワード４４、関連度４５が含まれる。例えば、コンテンツ属性４１が「ニュース」の場合、関連区間４２が「２００７／９／１０〜２００７／９／１２」のキーワード４３「ニュース」に関連のある関連キーワード４４「秋」の関連度４５は「０．９４」である。図４に示すような関連語辞書１０２ａを参照することによって、関連キーワード取得部１０９は、ユーザが選択したキーワードに対する関連キーワードを取得することができる。

図１に示した入力部１０３は、ユーザの操作入力及びコンテンツデータベースの更新に関する情報を受け取り、受け取った情報を入力選別部１０４に通知する。

入力選別部１０４は、入力部１０３から受け取った情報が、「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれの処理を示す情報であるかを選別する。選別方法に関しては後述する。

コンテンツデータベース更新部１０５は、入力選別部１０４が、入力部１０３から受け取った情報を、「コンテンツデータベース更新」と選別した場合に、コンテンツデータベース１０１に記憶されたコンテンツ及びコンテンツ付属情報を更新する。

なお、コンテンツデータベース更新部１０５は、コンテンツサーバーが配信する全ての取得対象データをコンテンツデータベース１０１に複製する。すなわち、更新以前に保持しているデータは一旦全て削除し、新たに上書きを行う。

例えばテレビ放送の視聴予約用途において本発明を用いる場合は、テレビ放送のデータベース特性（放送日以前のデータ無し）により、更新日時以降のデータだけが機器側のコンテンツデータベース１０１に蓄積される。一方でＶＯＤ（ＶｉｄｅｏｏｎＤｅｍａｎｄ）のような蓄積型コンテンツの場合は、取得対象となるコンテンツサーバーからコンテンツが削除された際に、機器側のコンテンツデータベース１０１からもコンテンツが削除されることになる。

関連区間算出部１０６は、コンテンツデータベース更新部１０５がコンテンツデータベース１０１を更新した場合に、コンテンツデータベース１０１および辞書データベース１０２を参照することにより、コンテンツ属性ごとに新たな関連区間を算出する。具体的には、関連区間算出部１０６は、コンテンツ属性ごとに、新たにコンテンツデータベース１０１に記憶されるコンテンツ（第１コンテンツ）の内容を示す複数のキーワード（第１キーワード）と、すでにコンテンツデータベース１０１に記憶されたコンテンツ（第２コンテンツ）の内容を示す複数のキーワード（第２キーワード）と、の相違度を算出する。そして、関連区間算出部１０６は、算出された第１キーワードと第２キーワードとの相違度が所定基準値を満たすか否かに基づいて、新たな関連区間を算出する。つまり、関連区間算出部１０６は、第１キーワードと第２キーワードとの相違度が小さいほど、第１コンテンツと第２コンテンツとが同一の時間区間に含まれるように新たな関連区間を算出する。なお、関連区間の詳細な算出方法は後述する。

辞書更新部１０７は、関連区間算出部１０６が算出した新たな関連区間に含まれるコンテンツにおいて、キーワード間の関連度を算出する。そして、辞書更新部１０７は、算出された新たな関連区間の関連度を、キーワード及び関連キーワードとともに関連語辞書１０２ａに登録する。なお、キーワード間の関連度は、単語の共起度（２つの単語が互いに同一コンテンツに出現する度合い）に基づいて算出される。したがって、同一コンテンツの中において、同時に現れる回数の多いキーワードの組合せほど、関連度の値が大きくなる。例えば、辞書更新部１０７は、非特許文献１「ドキュメント中に出現する単語間の関連性に基づく連想検索のためのメタデータ空間生成方式」（本間秀典ら、第１６回データ工学ワークショップ(ＤＥＷＳ２００５)、６Ａ−ｏ２、電子情報通信学会、２００５）に記載の方法等を利用して、キーワード間の関連度を算出する。

属性取得部１０８は、入力選別部１０４が、入力部１０３から受け取った情報を「キーワード選択」と選別した場合に、ユーザが入力部１０３において選択したキーワードのコンテンツ属性を取得する。コンテンツ属性の判定方法は後述する。

関連キーワード取得部１０９は、関連語辞書１０２ａを参照することにより、属性取得部１０８が取得したコンテンツ属性、及びユーザが入力部１０３において選択したキーワードに対応する関連キーワード及び関連度を取得する。

出力生成部１１０は、入力選別部１０４が、入力部１０３から受け取った情報を「キーワード選択」と選別した場合には、関連キーワード取得部１０９により取得された関連キーワードを関連区間ごとに関連度に応じて表示するための出力情報を生成する。例えば、出力生成部１１０は、関連度が高い関連キーワードから順に表示するための出力情報を生成する。また、例えば、出力生成部１１０は、関連度が高い関連キーワードほど大きな文字で表示するための出力情報を生成してもよい。また、出力生成部１１０は、入力選別部１０４が、入力部１０３から受け取った情報を「コンテンツ選択」と選別した場合には、ユーザが入力部１０３において入力した情報に対応する番組等のコンテンツを表示するための出力情報を生成する。

出力部１１１は、出力生成部１１０が生成した出力情報を出力媒体へ出力する。出力媒体には、例えばテレビなどのモニタを用いる。

次に、以上のように構成されたコンテンツ検索装置１００の動作について説明する。

図５は、図１のコンテンツ検索装置１００が実行する全体的な処理の流れを示すフローチャートである。

まず、入力部１０３は、ユーザからの操作入力を受け取り、受け取った情報を入力選別部１０４に通知する（ステップＳ１０１）。次に、入力選別部１０４は、入力部１０３から通知された情報が、「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれの処理を示す情報であるかを選別する（ステップＳ１０２）。

ここで、入力選別部１０４が、入力部１０３から受け取った情報を「キーワード選択」であると選別した場合（ステップＳ１０３のＹｅｓ）、属性取得部１０８は、ユーザが入力部１０３において選択したキーワード及びキーワードのコンテンツ属性を取得する（ステップＳ１０８）。続いて、関連キーワード取得部１０９は、取得したコンテンツ属性と関連語辞書１０２ａとに基づいて、関連キーワードを取得する（ステップＳ１０９）。そして、出力生成部１１０は、取得した関連キーワードを出力するための出力情報を生成する（ステップＳ１１０）。最後に、出力部１１１は、出力生成部１１０が生成した出力情報を出力媒体に出力し（ステップＳ１１１）、処理を終了する。

一方、入力選別部１０４が、入力部１０３から受け取った情報を「キーワード選択」であると選別しなかった場合（ステップＳ１０３のＮｏ）、入力選別部１０４は、入力部１０３から受け取った情報を「データベース更新」であると選別したか否かを判別する（ステップＳ１０４）。

ここで、入力選別部１０４が、入力部１０３から受け取った情報を「データベース更新」であると選別した場合（ステップＳ１０４のＹｅｓ）、コンテンツデータベース更新部１０５は、コンテンツデータベース１０１を更新する（ステップＳ１０５）。続いて、関連区間算出部１０６は、関連語辞書１０２ａに設定される関連区間を算出する（ステップＳ１０６）。なお、ステップＳ１０６の詳細な処理フローは後述する。そして、算出された関連区間に基づいて、辞書更新部１０７は、関連語辞書１０２ａを更新し（ステップＳ１０７）、処理を終了する。

一方、入力選別部１０４が、入力部１０３から受け取った情報を「データベース更新」であると選別しなかった場合（ステップＳ１０４のＮｏ）、すなわち、「コンテンツ選択」であると選別した場合、出力生成部１１０は、ユーザが入力部１０３において入力した情報に該当する番組を表示するための出力情報を生成する（ステップＳ１１０）。そして、出力部１１１は、出力生成部１１０が生成した出力情報を出力媒体に出力し（ステップＳ１１１）、処理を終了する。

図６は、関連区間算出部１０６による関連区間算出に関する処理（図５に示したステップＳ１０６）の流れを示すフローチャートである。

まず、関連区間算出部１０６は、関連語辞書１０２ａにおいて前回更新された関連区間（以下、前回更新区間という）をコンテンツ属性ごとに取得する（ステップＳ２０１）。次に、関連区間算出部１０６は、取得した前回更新区間のキーワードの一覧であるキーワードリストをコンテンツ属性ごとに作成する（ステップＳ２０２）。なお、前回更新区間のキーワードが、コンテンツデータベース１０１に記憶された第２コンテンツの内容を示す複数の第２キーワードに対応する。続いて、関連区間算出部１０６は、コンテンツデータベース１０１に新たに追加されるコンテンツのキーワードの一覧であるキーワードリストをコンテンツ属性ごとに取得する（ステップＳ２０３）。なお、新たに追加されるコンテンツのキーワードが、コンテンツデータベース１０１に記憶される第１コンテンツの内容を示す複数の第１キーワードに対応する。

次に、関連区間算出部１０６は、ステップＳ２０２において作成されたキーワードリストと、ステップＳ２０３において作成されたキーワードリストとを比較して、キーワード構成の変化率を算出する（ステップＳ２０４）。なお、キーワード構成の変化率は、相違度の一例である。

ここで、算出した変化率が所定の閾値を超える場合（ステップＳ２０５のＹｅｓ）、関連区間算出部１０６は、コンテンツデータベース１０１に新たに追加されるコンテンツに対応する時間区間を新たな関連区間として算出する（ステップＳ２０６）。すなわち、関連区間算出部１０６は、第１コンテンツに対応する時間区間を新たな関連区間として算出する。なお、コンテンツに対応する時間区間とは、当該コンテンツの時間情報が示す時が含まれる時間区間を示す。例えば、２００７年９月１０日及び１１日に放送されるコンテンツがコンテンツデータベース１０１に新たに追加される場合、コンテンツに対応する時間区間は、２００７年９月１０日〜１１日である。

一方、算出した変化率が所定の閾値以下である場合（ステップＳ２０５のＮｏ）、関連区間算出部１０６は、前回更新区間とコンテンツデータベース１０１に新たに追加されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する（ステップＳ２０７）。すなわち、関連区間算出部１０６は、第１コンテンツに対応する時間区間と第２コンテンツに対応する時間区間とを含む時間区間を新たな関連区間として算出する。このように関連区間算出部１０６により関連区間が算出された後、図５に示すステップＳ１０７の処理が実行される。

図７は、関連区間算出部１０６による変化率の算出に関する処理（図６に示したステップＳ２０４）の流れを示すフローチャートである。

まず、関連区間算出部１０６は、ステップＳ２０３において作成された追加コンテンツのキーワードリストから、まだ、以下の処理（ステップＳ３０２〜Ｓ３０８）が実行されていないキーワード（新規キーワード候補）を取得する（ステップＳ３０１）。さらに、関連区間算出部１０６は、ステップＳ２０２において作成された前回更新区間のキーワードリストから、まだ、以下の処理（ステップＳ３０３〜Ｓ３０５）が実行されていないキーワード（比較キーワード）を取得する（ステップＳ３０２）。

次に、関連区間算出部１０６は、ステップＳ３０１及びステップＳ３０２において取得した新規キーワード候補と比較キーワードとが、部分一致するか否かを判定する（ステップＳ３０３）。なお、部分一致とは、４文字以上のキーワードにおいて、８割以上の文字数の文字が一致することをいう。

ここで、新規キーワード候補と比較キーワードとが部分一致する場合（ステップＳ３０３のＹｅｓ）、関連区間算出部１０６は、新規キーワード候補を新規キーワードではないと判断する（ステップＳ３０８）。一方、新規キーワード候補と比較キーワードとが部分一致しない場合（ステップＳ３０３のＮｏ）、関連区間算出部１０６は、新規キーワード候補と比較キーワードとが、類義語一致するか否かを判定する（ステップＳ３０４）。なお、類義語一致とは、新規キーワード候補の類義語と比較キーワードとが一致することをいう。

ここで、新規キーワード候補と比較キーワードとが類義語一致する場合（ステップＳ３０４のＹｅｓ）、関連区間算出部１０６は、新規キーワード候補を新規キーワードではないと判断する（ステップＳ３０８）。一方、新規キーワード候補と比較キーワードとが類義語一致しない場合（ステップＳ３０４のＮｏ）、関連区間算出部１０６は、新規キーワード候補と比較キーワードとが、表記ゆれ一致するか否かを判定する（ステップＳ３０５）。なお、表記ゆれ一致とは、新規キーワード候補を、ひらがな、かたかな、漢字又はローマ字を用いて置換したキーワードが、比較キーワードと一致することをいう。

ここで、新規キーワード候補と比較キーワードとが表記ゆれ一致する場合（ステップＳ３０５のＹｅｓ）、関連区間算出部１０６は、新規キーワード候補を新規キーワードではないと判断する（ステップＳ３０８）。一方、新規キーワード候補と比較キーワードとが表記ゆれ一致しない場合（ステップＳ３０５のＮｏ）、関連区間算出部１０６は、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得したか否かを判定する（ステップＳ３０６）。

ここで、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得していない場合（ステップＳ３０６のＮｏ）、再度ステップＳ３０２のキーワードの取得から処理が繰り返される。一方、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得している場合（ステップＳ３０６のＹｅｓ）、関連区間算出部１０６は、新規キーワード候補を新規キーワードであると判断する（ステップＳ３０７）。

次に、関連区間算出部１０６は、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得したか否かを判定する（ステップＳ３０９）。ここで、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得していない場合（ステップＳ３０９のＮｏ）、再度ステップＳ３０１のキーワードの取得から処理が繰り返される。一方、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得している場合（ステップＳ３０９のＹｅｓ）、関連区間算出部１０６は、ステップＳ３０７において新規キーワードであると判断されたキーワードの数を、前回更新区間のキーワードリストに含まれるキーワードの数を用いて除することにより、変化率を算出する（ステップＳ３１０）。

このように関連区間算出部１０６により関連区間が算出された後、図５に示すステップＳ１０７の処理が実行される。

次に、図８〜図１０を用いてコンテンツ検索装置１００が出力する画面について説明する。図８〜図１０は、ユーザが、視聴可能なテレビ番組の中からニュース番組に関連する番組を視聴したい場合の、コンテンツ検索が出力する画面の遷移を示す図である。

検索開始の際、コンテンツ検索装置１００は、ユーザに対して図８に示す初期検索画面を提示する。この初期検索画面の中に提示される初期検索キーワードは、例えば、「スポーツ」、「ドキュメンタリー」等のジャンルを示すキーワードである。ユーザは、提示されたキーワードの中からニュース番組が見たいと思った場合、初期検索キーワードの中から「ニュース」を選択する。

図９は、ユーザが初期検索キーワードを選択した後に、コンテンツ検索装置１００が提示する検索画面である。この検索画面には、選択したキーワード（ニュース）に関するコンテンツリスト７０及び関連キーワードリスト７１が、それぞれ提示される。なお、関連キーワードリスト７１には、関連キーワードが、関連区間ごとに、関連度の高い順に提示される。

ユーザは、この検索画面中に見たいコンテンツがある場合、コンテンツリスト７０の中からコンテンツを選択する。一方、ユーザは、この検索画面中に見たいコンテンツがない場合、関連キーワードリスト７１の中から見たいコンテンツに関連するキーワードを選択する。

図９に示す検索画面において、ユーザがコンテンツリスト７０の中からコンテンツを選択した場合、コンテンツ検索装置１００は、選択したコンテンツを表示し、検索処理を終了する。一方、ユーザが関連キーワードリスト７１の中から任意の関連キーワードを選択した場合、コンテンツ検索装置１００は、選択されたキーワードに基づいて、再度コンテンツリストと関連キーワードとが表示された画面を提示する。例えば、図９に示す検索画面において、ユーザが関連キーワードリスト７１の中から国会７２を選択した場合、図１０に示すように、コンテンツ検索装置１００は、「国会」に関するコンテンツと「国会」に関連するキーワードとを関連区間ごとに提示する。

以上のように、ユーザはシステムが提示する関連キーワードの選択を繰り返しながら、自分が見たいコンテンツを検索する。

次に、図５及び図６に示したコンテンツ検索装置１００の処理について、図８〜図１０に示した画面を用いて、さらに具体的に説明する。

図５のステップＳ１０１において、入力部１０３は、ユーザによるシステムへの入力情報を受け取る。具体的には、ユーザが、図８の初期検索画面において選択した「ニュース」、図９の検索画面において選択した「国会」等のキーワードが入力情報となる。また、ユーザが、図９に示したコンテンツリスト７０から選択したコンテンツも入力情報となる。さらにまた、図示はしていないが、ユーザが、コンテンツデータベース更新を選択した場合は、その選択も入力情報となる。

なお、本実施の形態においては、ユーザの入力があった場合に、コンテンツ検索装置１００が、コンテンツデータベース１０１を更新するとしているが、任意の時間になれば、コンテンツ検索装置１００が、コンテンツデータベース１０１を更新するようにしてもよい。また、コンテンツ検索装置１００と異なる他の装置が、コンテンツ検索装置にコンテンツデータベース１０１の更新を要求すれば、コンテンツ検索装置１００が、コンテンツデータベース１０１を更新するようにしてもよい。このような場合、コンテンツデータベース１０１への新たなコンテンツの入力が、入力情報となる。

図５のステップＳ１０２において、入力選別部１０４は、ステップＳ１０１から受け取った入力情報を「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれかに選別する。具体的には、「キーワード選択」は、例えば、図９の検索画面において、ユーザが関連キーワードリスト７１の中から、いずれかのキーワードを選択した場合に選別される。また、「コンテンツ選択」は、例えば、図９に示した検索画面において、ユーザがコンテンツリスト７０の中から、いずれかのコンテンツを選択した場合に選別される。また、「コンテンツデータベース更新」は、例えば、図示していないが、ユーザがコンテンツデータベースの更新を選択した場合に選別される。

図５のステップＳ１０３において、入力選別部１０４は、ステップＳ１０２における選別が「キーワード選択」であるか否かを判別する。ここで、入力選別部１０４が、入力部１０３から受け取った情報を「キーワード選択」であると判別した場合、入力選別部１０４は、該当する選択キーワードを属性取得部１０８へ渡す。そして、処理はステップＳ１０８へ進む。一方、入力選別部１０４が、入力部１０３から受け取った情報を「キーワード選択」であると判別しなかった場合、処理はステップＳ１０４へ進む。具体的には、例えば、ユーザが図８の初期検索画面において「ニュース」のキーワードを選択した場合、又は、ユーザが図９の検索画面において「国会」のキーワードを選択した場合、入力選別部１０４は、いずれも「キーワード選択」と選別する。そして、入力選別部１０４は、「ニュース」又は「国会」のキーワードを属性取得部１０８へ渡す。そして、処理はステップＳ１０８に進む。

図５のステップＳ１０４において、入力選別部１０４は、ステップＳ１０２における選別が「コンテンツデータベース更新」であるか否かを判別する。ここで、入力選別部１０４が、入力部１０３から受け取った情報を「コンテンツデータベース更新」と判別した場合、処理はステップＳ１０５へ進む。一方、入力選別部１０４が、入力部１０３から受け取った情報を「コンテンツデータベース更新」でないと判別した場合、すなわち、入力選別部１０４がステップＳ１０２において、入力部１０３から受け取った情報を「コンテンツ選択」であると選別していた場合には、入力選別部１０４は、ユーザが選択したコンテンツに対応するコンテンツＩＤを、コンテンツデータベース１０１から取得する。そして、入力選別部１０４は取得したコンテンツＩＤを出力生成部１１０へ渡す。その後、処理はステップＳ１０９へ進む。例えば、図１０の検索画面において、ユーザが「サンデードキュメンタリー」という番組を選択した場合、入力選別部１０４は、選択した番組に対応するコンテンツＩＤをコンテンツデータベース１０１から取得し、取得したコンテンツＩＤを出力生成部１１０へ渡す。その後、処理はステップＳ１１０へ進む。一方、ユーザが番組を選択していない場合、すなわちコンテンツデータベース更新を選択した場合、入力選別部１０４は更新データをコンテンツデータベース更新部１０５へ渡す。そして、処理はステップＳ１０５へ進む。

図５のステップＳ１０５において、コンテンツデータベース更新部１０５は、ステップＳ１０４の処理により取得された更新データをコンテンツデータベース１０１に追加する。

図５のステップＳ１０６において、関連区間算出部１０６は、ステップＳ１０５において、コンテンツデータベース更新部１０５がコンテンツデータベース１０１に新たに追加した更新データに基づいて関連区間を算出する。

ここで、ステップＳ１０６における処理を、以下に詳述する。

図６のステップＳ２０１において、関連区間算出部１０６は、関連語辞書１０２ａに含まれる前回更新された関連区間を、「ニュース」及び「スポーツ」などのコンテンツ属性ごとに取得する。具体的には、関連区間算出部１０６は、図４に示した関連語辞書１０２ａに記憶されたデータの中から、コンテンツ属性ごとに最新の関連区間４２を取得する。なお、図１１（ａ）に示すように、ここで取得する関連区間を前回更新区間１００１（ｔｎ−２〜ｔｎ−１）とする。

次に、図６のステップＳ２０２において、関連区間算出部１０６は、ステップＳ２０１において取得された関連区間に含まれるコンテンツのキーワードリストを、コンテンツ属性ごとに作成する。具体的には、例えば、関連区間算出部１０６は、図４に示した関連語辞書１０２ａを参照して、前回更新区間１００１に対応するキーワード４３を、コンテンツ属性ごとに取得すればよい。

次に、図６のステップＳ２０３において、関連区間算出部１０６は、図５のステップＳ１０４において取得された更新データに対応するキーワードリストを、コンテンツ属性ごとに作成する。

以上のように、図６のステップＳ２０１〜Ｓ２０３の処理によって、コンテンツ属性ごとに、前回更新区間におけるキーワードリストと、今回新たに更新されるコンテンツに対応するキーワードリストとが作成される。

次に、図６のステップＳ２０４において、関連区間算出部１０６は、ステップＳ２０２において作成されたキーワードリストと、ステップＳ２０３において作成されたキーワードリストとを比較し、キーワード構成の変化率を算出する。ここで、キーワード構成の変化率とは、相違度の一例である。具体的には、今回新たに更新されるコンテンツのキーワードのうち、前回更新区間１００１に係るキーワードリストに含まれていないキーワードの数を分子とし、前回更新区間１００１に係るキーワードリストに含まれるキーワードの数を分母として、算出される値である。例えば、ステップＳ２０３において作成された今回新たに更新されるコンテンツから得られるキーワードリストのうち、前回更新区間１００１のキーワードリストに含まれていない新しいキーワードの数が４０個であり、前回更新区間１００１のキーワードリストに含まれるキーワードの数が２００個である場合、キーワード構成の変化率は０．２となる。なお、新しいキーワードの数は、図７に示した処理に基づいて算出される。

次に、図６のステップＳ２０５において、関連区間算出部１０６は、ステップＳ２０４において取得されたキーワード構成の変化率が所定の閾値を超えるか否かを判定する。図６のステップＳ２０５において変化率が所定の閾値以上であると判定された場合は、図６のステップＳ２０６において、関連区間算出部１０６は、新たに追加されたコンテンツに対応する時間区間のみを新たな関連区間として算出する。

一方、図６のステップＳ２０５において変化率が所定の閾値を下回ると判定された場合は、図６のステップＳ２０６において、関連区間算出部１０６は、前回更新した区間と今回新たに更新されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する。

具体的には、今回新たに更新されるコンテンツに対応する時間区間を追加区間１００２（ｔｎ−１〜ｔｎ）とした場合、関連区間算出部１０６は、キーワード構成の変化率が閾値以上のときは、図１１（ｂ）に示すように、追加区間１００２と同一の新関連区間１００３（ｔｎ−１〜ｔｎ）を新たな関連区間として算出し、変化率が閾値を下回るときは、図１１（ｃ）に示すように、前回更新区間１００１と追加区間１００２とを足し合せた新関連区間１００４（ｔｎ−２〜ｔｎ）を新たな関連区間として算出する。

なお、一般的にキーワード構成の変化率が大きくなる頻度は、コンテンツ属性によって大きく異なる。例えば「ニュース」などの時事性の高いコンテンツは日々新しい話題が提供されるため、キーワード構成の変化率が大きくなる時間間隔は短くなる。一方、「バラエティ」や「スポーツ」などのコンテンツは、「ニュース」と比較してキーワード構成の変化率が大きくなる時間間隔は長くなる。これは、スポーツコンテンツがシーズンごとに大きく変化する点、バラエティコンテンツが３ヶ月に一度番組改編される点等に起因する。キーワード構成が変化すると、キーワード間の関連度も変化する。したがって、時事性のあるキーワードを提示するためには、コンテンツ検索装置１００は、キーワード構成の変化に応じて関連区間を変更した関連語辞書１０２ａを用いて、関連キーワードを生成することが望ましい。上述のように、関連区間算出部１０６は、コンテンツ属性ごとのキーワード構成の変化率に基づいて、関連区間を算出することができるので、コンテンツ検索装置１００は、時事性のあるキーワードを提示することが可能となる。

以上の図６に示したステップＳ２０１〜Ｓ２０７の処理を行うことにより、図５のステップＳ１０６において、関連区間算出部１０６は、コンテンツデータベース１０１に新たに追加するコンテンツに対応する関連語辞書１０２ａの関連区間を算出することができる。

なお、上記の図６のステップＳ２０４の説明において、２つの比較するキーワードリストに含まれるキーワードの数について特に規定していなかったが、出現頻度の高い所定の数のキーワードのみを対象として変化率を算出してもよい。具体的には、関連区間算出部１０６は、ステップＳ２０２において作成されたキーワードリストの中において出現頻度上位ｎ個のキーワードと、ステップＳ２０３において作成されたキーワードリストのうち出現頻度上位ｎ個のキーワードとを比較し、キーワード構成の変化率を算出する。例えば、ステップＳ２０３において作成されるキーワードリストの中において出現頻度上位１００個のキーワードのうち、前回更新区間のキーワードリストの中において出現頻度上位１００個のキーワードに含まれていない新しいキーワードの数が４０個である場合、キーワード構成の変化率は０．４となる。

また、上記の図６のステップＳ２０１において、関連区間算出部１０６は、関連語辞書１０２ａの最新の関連区間を前回更新区間として取得していたが、コンテンツデータベース１０１において前回更新されたコンテンツに対応する時間区間に含まれる、所定の長さの時間区間を前回更新区間としてもよい。具体的には、図１２（ａ）に示すような場合、関連区間算出部１０６は、図１２（ｂ）に示すキーワード比較区間１１０３（ｔｎ−２〜ｔｎ−１）を取得する。つまり、コンテンツデータベース１０１において前回更新されたコンテンツに対応する時間区間である前回コンテンツ更新区間１１０１（ｔｎ−３〜ｔｎ−１）が最小時間単位の２倍の長さの時間区間である場合、関連区間算出部１０６は、前回コンテンツ更新区間のうち、追加区間１１０２に近い方から最小時間単位分の時間区間を取得する。

最小時間単位での変化率の比較は、キーワード関連度の微細な変化に対応した関連区間を設定することができる。これにより、例えばコンテンツの内容が変化する頻度が全体的に高いブログ（ｂｌｏｇ）等のコンテンツの検索において、コンテンツ検索装置は、ユーザに常に新しい関連キーワードを提示することが可能となる。

続いて、図５のステップＳ１０７において、辞書更新部１０７は、ステップＳ１０５において算出された関連区間に基づいて、関連語辞書を更新する。辞書作成方法は、図１において説明した通りである。

図５のステップＳ１０８において、属性取得部１０８は、ステップＳ１０３において取得されたキーワードのコンテンツ属性を判定する。そして、属性取得部１０８は、キーワードと判定したコンテンツ属性とを関連キーワード取得部１０９へ渡す。その後、処理はステップＳ１０９へ進む。コンテンツ属性の判定の具体例としては、図８の初期検索画面において提示するキーワードがコンテンツ属性と共通するキーワードである場合、属性取得部１０８は、ユーザが初期検索画面において選択したキーワードを、コンテンツ属性として判定すればよい。また、図８に示した初期検索画面において「ニュース」を選択した場合、図９に示した検索画面において、ユーザが選択する関連キーワードのコンテンツ属性は「ニュース」と判定する。これは、最初に選択した「スポーツ」というコンテンツ属性のコンテンツを絞り込むという検索になり、絞込検索の場合に有効である。

図５のステップＳ１０９において、関連キーワード取得部１０９は、辞書データベース１０２を参照することにより、ステップＳ１０３において取得されたキーワードと、ステップＳ１０８において取得されたキーワード属性とに対応する関連キーワードを取得する。そして、関連キーワード取得部１０９は、取得した関連キーワードを出力生成部１１０へ渡す。その後、処理はステップＳ１１０へ進む。具体的には、例えばユーザが図８の初期検索画面において「ニュース」を選択し、続いて図９の検索画面において「国会」を選択した場合、属性取得部１０８は、キーワード属性を「ニュース」と判定する。そして、関連キーワード取得部１０９は、図４に示した関連語辞書１０２ａを参照することにより、コンテンツ属性「ニュース」とキーワード「国会」とに対応する関連キーワードの中から、関連度４５の値が高いキーワードを取得する。例えば、関連キーワード取得部１０９は、２００７年９月１０日から１２日までの関連区間において、「首相演説」、「政治」及び「年金」のキーワードを取得する。

図５のステップＳ１１０において、出力生成部１１０は、ステップＳ１０９において関連キーワードが取得された場合は、取得した関連キーワードとコンテンツデータベース１０１とを用いて、例えば図９に示すような検索画面を出力するための出力情報を生成する。一方、ステップＳ１０４においてコンテンツＩＤが取得された場合は、出力生成部１１０は、取得されたコンテンツＩＤとコンテンツデータベース１０１とを用いてコンテンツを表示するための出力情報を生成する。

図５のステップＳ１１１において、出力部１１１は、ステップＳ１１０において生成された出力情報をモニタ等に出力する。

以上のステップＳ１０１〜ステップＳ１１１の処理を実行することにより、コンテンツ検索装置１００は、コンテンツ属性ごとに関連区間が異なる関連語辞書１０２ａを参照することができるので、コンテンツ属性ごとに異なる時事性に適合した関連キーワードをユーザに提示することができる。

なお、図５のステップＳ１０８において、属性取得部１０８は、上記において説明した方法とは異なる方法を用いてコンテンツ属性を取得してもよい。例えば、属性取得部１０８は、取得したキーワードが存在するコンテンツ属性のうち、キーワードの出現頻度が高いコンテンツ属性を複数取得してもよい。例えば、「国会」というキーワードが「ニュース」及び「バラエティ」の２つのコンテンツ属性に存在している場合、各コンテンツ属性の中において、「国会」というキーワードの出現頻度の順位が所定の閾値以上であるときには、２つのコンテンツ属性をキーワード属性として取得してもよい。この場合に出力される画面の一例を図１３に示す。図１３に示すように、出力部１１１は、「国会」というキーワードに対する関連キーワードを、「ニュース」及び「バラエティ」の各コンテンツ属性に対してそれぞれ出力する。したがって、ユーザはコンテンツ属性ごとに関連キーワードを選択することができる。そのため、コンテンツ検索装置１００は、ユーザが意図しない関連キーワードの提示（例えば、ユーザがバラエティの関連キーワードを欲していたが、ニュースの関連キーワードが提示されること等）を回避することができる。その結果、コンテンツ検索装置１００は、ユーザによる検索の戻り工数を削減することが可能になる。

図１４に本実施の形態のコンテンツ検索装置によって出力される関連キーワード、及び特許文献２に記載の従来技術による固定区間を用いて出力される関連キーワードを並べて出力した場合の出力例を示す。

図１４（ａ）は、従来技術に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例である。図に示すように、各関連キーワードは、２００７年８月１３日〜９月１２日までのデータを１０日間に区切った時間区間１２１、１２２、１２３ごとに生成されている。

図１４（ｂ）は、本実施の形態に係るコンテンツ検索装置１００によって出力される関連キーワードの提示画面の一例である。図に示すように、各関連キーワードは、属性ごとのキーワード構成の変化率に基づいて算出された時間区間１２４、１２５、１２６において生成されている。

データの内容変化の頻度に対して関連キーワードを作成する時間区間が短い場合（例えば、キーワード構成が２０日間変化しない場合）には、図１４（ａ）の時間区間１２１及び時間区間１２２に示される「選挙」等のように、コンテンツ検索装置は、複数の時間区間において同じキーワードを出力することになる。このような同一のキーワードが同一画面に複数出力されることは、ユーザの選択肢の幅が狭まることにつながる。その結果、ユーザが他のキーワードを選択したい場合に、余分な検索ステップを生じさせる可能性が高くなる。

一方、本実施の形態に係るコンテンツ検索装置１００は、コンテンツ属性ごとのキーワード構成の変化に対応して関連キーワードを生成する時間区間を決定する。したがって、コンテンツ検索装置１００は、同一のキーワードを異なる時間区間に複数出力する可能性を低くすることができる。すなわち、図１４（ｂ）の時間区間１２４に示すように、キーワード構成の変化が小さい時間区間は、１つの時間区間１２４となる。その結果、時間区間１２４において提示されるキーワードと、時間区間１２４と隣接する時間区間１２５において提示されるキーワードとは異なるキーワードとなる。

また、データの内容変化の頻度に対して関連キーワードを作成する時間区間が長い場合（例えば、キーワード構成の変化が５日間ごとに生じる場合）には、キーワード構成が変化する期間の前後に渡って関連度の高いキーワードが優先的に提示されてしまう。したがって、コンテンツ検索装置は、時事性に適合したキーワードを提示することができない。すなわち、図１４（ａ）の時間区間１２３に示すように、キーワード構成変化後の時事性に適合したキーワード「首相演説」よりも、キーワード構成変化前に関連度の高いキーワード「アメリカ」が上位に提示されてしまう。この場合も上記と同様に、ユーザが他のキーワードを選択したい場合に、検索ステップ数が増加する可能性が高くなる。

これに対し、本実施の形態に係るコンテンツ検索装置１００は、キーワード構成の変化率に応じて、コンテンツ属性ごとに、関連キーワードを生成する時間区間を変更する。そのため、コンテンツ検索装置１００は、時事性に適合した関連キーワードを提示することが可能になる。すなわち、図１４（ｂ）の時間区間１２５及び時間区間１２６に示すように、コンテンツ検索装置１００は、キーワード構成が大きく変化した２００７年９月１０日を境に時間区間を変更できるため、最新の時間区間１２６において、時事性に適合したキーワード「首相演説」を提示することが可能となる。

以上のように、本実施の形態のコンテンツ検索装置は、関連キーワードを生成するための関連語辞書を、新たに追加されるコンテンツと既に記憶されているコンテンツとのキーワード構成の相違度に応じた関連区間に基づいて更新するので、時事性に適合した関連キーワードを効率的にユーザに提示することができる。これにより、ユーザは、時事性の異なる複数のコンテンツ属性のコンテンツが含まれるコンテンツデータベースからコンテンツを検索する場合に、関連キーワードの選択を繰り返すことにより、対話的にコンテンツを絞り込むことが可能になる。

（変形例１）
次に、上記実施の形態の変形例１について図面を用いて説明する。

本変形例に係るコンテンツ検索装置は、コンテンツデータベース更新部１０５がコンテンツ属性２１を生成する点が、図１に示す実施の形態に係るコンテンツ検索装置１００と異なる。

以下、本変形例に係るコンテンツデータベース更新部１０５によるコンテンツ属性２１の生成に関する処理について説明する。

本変形例に係るコンテンツデータベース更新部１０５は、コンテンツデータベース１０１に記憶されているコンテンツをクラスタリングすることにより、「クラスタラベル」をコンテンツ属性２１として生成する。そして、コンテンツデータベース更新部１０５は、生成したコンテンツ属性２１をコンテンツデータベース１０１に登録する。このようにコンテンツデータベース更新部１０５がクラスタリングすることにより、コンテンツ検索装置は、例えばスポーツ系の番組が集まったクラスタ（コンテンツ集合）又は映画系の番組が集まったクラスタなどのように、番組内容が近いコンテンツ同士を同じグループに分類することができる。すなわち、「クラスタラベル」はＥＰＧの「ジャンル」と同等の情報であり、コンテンツ属性２１の一例となる。なお、コンテンツデータベース更新部１０５が実行するクラスタリングの具体的な方法については、例えば非特許文献２「情報検索と言語処理」（徳永健伸、東京大学出版会、ｐｐ．６０−６５、１９９９））に記載の再配置法を用いればよい。

図１５は、コンテンツデータベース更新部１０５がクラスタラベルをコンテンツ属性２１として生成する処理の概念図を示す。図１５に示すように、コンテンツデータベース更新部１０５は、コンテンツデータベース１０１に記憶されているコンテンツ付属情報に含まれるキーワード等を用いてクラスタリングを行うことにより、クラスタを複数生成する。そして、コンテンツデータベース更新部１０５は、生成されたクラスタに対応するクラスタラベルを生成する。例えば、コンテンツデータベース更新部１０５は、ランダムに生成したクラスタラベル（ＣＬ１、ＣＬ２、ＣＬ３及びＣＬ４）をクラスタに付与する。これにより、コンテンツデータベース１０１に記憶されている全てのコンテンツＩＤに対して、何れかのクラスタラベルが生成されることになる。そして、コンテンツデータベース更新部１０５は、生成されたクラスタラベルをコンテンツデータベース１０１にコンテンツ属性２１として登録する。

以上の処理によって、コンテンツデータベース更新部１０５は、ＥＰＧの「ジャンル」に相当するコンテンツ属性２１を自動的に登録することができる。そのため、本変形例に係るコンテンツ検索装置は、予めコンテンツ属性が登録されていないコンテンツデータベース１０１であっても、関連キーワードを出力することが可能になる。

なお、コンテンツデータベース更新部１０５は、クラスタラベルをデータベース更新の度に新たにコンテンツデータベース１０１に記憶される更新データに対して生成する。この際、図１６に示すように、更新データに対するクラスタラベル（ＣＬ２１、ＣＬ２２及びＣＬ２３）と、すでにコンテンツデータベース１０１に記憶されている更新前のデータに対するクラスタラベル（ＣＬ１１、ＣＬ１２及びＣＬ１３）とでは、同じ内容のクラスタに対して異なるクラスタラベルが付与されてしまう可能性がある。例えば、更新前のスポーツ系のクラスタにはクラスタラベル「ＣＬ１１」が付与されているが、更新データのスポーツ系のクラスタには「ＣＬ２２」が付与されている。すなわち、同じ内容のクラスタに対して同じラベルが付与されていない。このような場合は、コンテンツデータベース更新部１０５は、まず初めに更新データの各クラスタと、更新前のデータの各クラスタとの類似度を算出する。続いて、コンテンツデータベース更新部１０５は、類似度の高いクラスタ同士のペアを作成する。そして、コンテンツデータベース更新部１０５は、作成したペアにおいて、更新前のクラスタラベルを更新データのクラスタラベルとして付与する。なお、類似度については、例えば各クラスタ間のコサイン尺度又は内積を用いる方法（非特許文献３「情報検索アルゴリズム」、北研二他、共立出版、ｐｐ．６０−６３、２００２）に記載の方法により算出されればよい。これにより、例えば上述の例のクラスタラベル「ＣＬ２２」を「ＣＬ１１」へ変換することができるように、コンテンツデータベース更新部１０５は、更新前後で内容の近いクラスタに対して同一のクラスタラベルを付与することができる。

（変形例２）
次に、上記実施の形態の変形例２について図面を用いて説明する。

本変形例に係るコンテンツ検索装置は、関連区間算出部１０６により実行される処理の内容が実施の形態に係るコンテンツ検索装置１００と異なる。コンテンツ間でキーワードの数が大きく異なるようなコンテンツデータベース１０１において関連区間が算出される場合、算出される関連区間は、キーワード数の大きなコンテンツに大きく影響されてしまう。そこで、本変形例に係る関連区間算出部１０６は、図５に示すステップＳ１０６において、コンテンツデータベース１０１にすでに記憶されている更新前のコンテンツとコンテンツデータベース１０１に新たに追加される追加コンテンツとの文書空間の類似度を用いて関連区間を算出する。

以下、本変形例に係る関連区間算出部１０６による関連区間の算出に関する処理について説明する。

図１７は、関連区間算出部１０６による関連区間算出に関する処理（図５に示したステップＳ１０６）の流れを示すフローチャートである。図１７において図６と同じステップについては同じ符号を付し、詳細な説明を省略する。

まず、関連区間算出部１０６は、前回更新区間をコンテンツ属性ごとに取得する（ステップＳ２０１）。

次に、関連区間算出部１０６は、取得した前回更新区間のコンテンツの文書行列をコンテンツ属性別に作成する（ステップＳ１７０１）。すなわち、関連区間算出部１０６は、コンテンツデータベースにすでに記憶された第２コンテンツの内容を示す複数の第２キーワードを用いて、コンテンツ属性ごとに文書行列を作成する。以下、作成した文書行列を文書行列群Ａという。ここで文書行列とは、図１８に示すように、各コンテンツにおけるキーワードの頻度情報（出現頻度、ｔｆ−ｉｄｆ等）を表す行列である。

次に、関連区間算出部１０６は、コンテンツデータベース１０１に新たに追加されるコンテンツの文書行列をコンテンツ属性別に作成する（ステップＳ１７０２）。すなわち、関連区間算出部１０６は、コンテンツデータベースに新たに記憶される第１コンテンツの内容を示す複数の第１キーワードを用いて、コンテンツ属性ごとに文書行列を作成する。以下、作成した文書行列を文書行列群Ｂという。

次に、関連区間算出部１０６は、文書行列群Ａ及びＢの中から、同じコンテンツ属性の文書行列をそれぞれ取得する（ステップＳ１７０３）。以下、文書行列群Ａ及びＢの各々の中から取得した各文書行列を文書行列Ａ１及びＢ１という。図１９にステップＳ１７０３において取得された文書行列Ａ１、Ｂ１の一例を示す。図に示すように、文書行列群Ａ及びＢには、それぞれ「スポーツ」及び「映画」のコンテンツ属性の文書行列が含まれる。そこでステップＳ１７０３において、コンテンツ属性が「スポーツ」の文書行列を文書行列群Ａ及びＢの中からそれぞれ選択することにより、コンテンツ属性「スポーツ」に対応する文書行列Ａ１及びＢ１が取得される。

次に、関連区間算出部１０６は、文書行列Ａ１及びＢ１を用いて各文書行列の類似度を算出する（ステップＳ１７０４）。関連区間算出部１０６は、例えば、文書行列Ａ１に対して行列Ｂ１の各文書ベクトルのコサイン距離を算出し、文書行列Ｂ１の全ての文書数に対してコサイン距離が閾値以上の文書が含まれる割合を類似度として算出する。

ここで、算出した類似度が所定の閾値より小さい場合（ステップＳ１７０５のＹｅｓ）、関連区間算出部１０６は、コンテンツデータベース１０１に新たに追加されるコンテンツ（第１コンテンツ）に対応する時間区間を新たな関連区間として算出する（ステップＳ２０６）。一方、算出した類似度が所定の閾値以上である場合（ステップＳ１７０５のＮｏ）、関連区間算出部１０６は、コンテンツデータベース１０１に新たに追加されるコンテンツに対応する時間区間と前回更新区間とを足し合わせた時間区間を、新たな関連区間として算出する（ステップＳ２０７）。すなわち、関連区間算出部１０６は、第１コンテンツに対応する時間区間と第２コンテンツに対応する時間区間とを足し合わせた時間区間を新たな関連区間として算出する。

次に、関連区間算出部１０６は、ステップＳ１７０３においてコンテンツデータベース１０１に記憶されている全てのコンテンツ属性が選択されたか否かを判定する（ステップＳ１７０６）。ここで、全てのコンテンツ属性が選択されていない場合は（ステップＳ１７０６のＮｏ）、ステップＳ１７０３の処理に戻る。一方、全てのコンテンツ属性が選択されている場合は（ステップＳ１７０６のＹｅｓ）、図５に示すステップＳ１０７の処理が実行される。

以上のステップＳ２０１、ステップＳ２０６、ステップＳ２０７及びステップＳ１７０１〜Ｓ１７０６の処理が行われることにより、関連区間算出部１０６は、コンテンツ単位の類似度に応じた関連区間を算出することができる。これにより、コンテンツ間でキーワードの数が大きく異なるようなコンテンツデータベース１０１において関連区間が算出される場合であっても、関連区間の算出において、キーワード数の大きなコンテンツの影響を低減することができるため、関連区間の誤算出を防止することができる。

なお、関連区間算出部１０６は、ステップＳ１０６において、更新前のコンテンツと追加コンテンツとのコンテンツタイトルの相違度が所定の基準値を満たすか否かに基づいて関連区間を算出しても良い。具体的には、関連区間算出部１０６は、前回更新区間のコンテンツのタイトルと新たに追加されるコンテンツのタイトルとの一致率を算出する。そして、一致率が閾値以上の場合には、関連区間算出部１０６は、前回更新区間とコンテンツデータベース１０１に新たに追加されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する。一方で、一致率が閾値より小さい場合には、関連区間算出部１０６は、コンテンツデータベース１０１に新たに追加されるコンテンツに対応する時間区間を新たな関連区間として算出する。これにより、同一タイトルの場合にコンテンツの内容が類似しているようなコンテンツが記憶されたコンテンツデータベース１０１において、関連区間算出部１０６は、関連区間を算出するための処理時間を大きく低減することができる。

以上、本発明に係るコンテンツ検索装置について、実施の形態及びその変形例に基づいて説明したが、本発明は上記実施の形態及びその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記実施の形態及びその変形例に施したもの、及び、異なる実施の形態及びその変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

例えば、上記実施の形態では、コンテンツ検索装置にコンテンツデータベースが備えられていたが、コンテンツ検索装置とは異なる他の装置にコンテンツデータベースが備えられていてもよい。その場合、コンテンツ検索装置と他の装置とは、ネットワーク等を介して接続される。

また、上記実施の形態のコンテンツ検索装置は、テレビ番組が記憶されているコンテンツデータベースから、所望のテレビ番組を検索していたが、映画、音楽等の視聴コンテンツ、本、論文等のテキストコンテンツ等が記憶されているコンテンツデータベースからコンテンツを検索してもよい。すなわち、本発明に係るコンテンツ検索装置が検索するコンテンツは、文字情報を有するコンテンツであればよい。

なお、本発明は、上記のようなコンテンツ検索装置として実現することができるだけでなく、コンテンツ検索装置に含まれる特徴的な構成部の動作をステップとするコンテンツ検索方法として実現したり、コンテンツ検索方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができる。

本発明は、大量のコンテンツの中からユーザが利用したいコンテンツを検索するためのコンテンツ検索装置等として、例えば、テレビ番組が大量に記憶されたデータベースからユーザが見たい番組を検索する装置として、利用可能である。

２０コンテンツＩＤ
２１コンテンツ属性
２２タイトル
２３放送日
２４キーワード
２５概要
３１、３２区間辞書
４１コンテンツ属性
４２関連区間
４３キーワード
４４関連キーワード
４５関連度
７０コンテンツリスト
７１関連キーワードリスト
１００コンテンツ検索装置
１０１コンテンツデータベース
１０２辞書データベース
１０２ａ関連語辞書
１０３入力部
１０４入力選別部
１０５コンテンツデータベース更新部
１０６関連区間算出部
１０７辞書更新部
１０８属性取得部
１０９関連キーワード取得部
１１０出力生成部
１１１出力部
１２１、１２２、１２３、１２４、１２５、１２６時間区間
１００１前回更新区間
１００２、１１０２追加区間
１００３、１００４新関連区間
１１０１前回コンテンツ更新区間
１１０３キーワード比較区間

Claims

コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索するコンテンツ検索装置であって、
所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースと、
前記コンテンツデータベースに記憶される第１コンテンツの内容を示す複数の第１キーワードと、前記コンテンツデータベースに記憶された第２コンテンツの内容を示す複数の第２キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第１コンテンツと前記第２コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出手段と、
前記関連区間算出手段により算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新手段と、
前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成手段と
を備えることを特徴とするコンテンツ検索装置。
前記関連区間算出手段は、前記相違度が所定基準値を超える場合には、前記第１コンテンツに対応する時間区間により定められる関連区間を算出し、前記相違度が所定基準値以下である場合には、前記辞書データベースに記憶された最新の関連区間と前記第１コンテンツに対応する時間区間とを足し合わせた時間区間により定められる関連区間を算出する
ことを特徴とする請求項１に記載のコンテンツ検索装置。
前記関連区間算出手段は、前記辞書データベースに記憶される最新の関連区間に含まれるコンテンツを前記第２コンテンツとして、関連区間を算出する
ことを特徴とする請求項２に記載のコンテンツ検索装置。
前記関連区間算出手段は、前記第１キーワードのうち出現頻度が高い所定の数のキーワードと、前記第２キーワードのうち出現頻度が高い所定の数のキーワードとの相違度が所定基準値を満たすか否かに基づき、関連区間を算出する
ことを特徴とする請求項３に記載のコンテンツ検索装置。
前記関連区間算出手段は、前記コンテンツデータベースに前回新たに加えられたコンテンツに対応する時間区間のうち、予め定められた長さの時間の時間区間に含まれるコンテンツを前記第２コンテンツとして、関連区間を算出する
ことを特徴とする請求項２に記載のコンテンツ検索装置。
前記コンテンツ検索装置は、さらに、
ユーザが入力したキーワードに関連するコンテンツ属性を取得する属性取得手段と、
前記辞書データベースを参照することにより、前記ユーザが入力したキーワードと前記属性取得手段により取得されたコンテンツ属性とに対応する関連キーワードを、関連区間ごとに取得する関連キーワード取得手段とを備え、
前記出力生成手段は、前記関連キーワード取得手段により取得された関連キーワードを出力するための前記出力情報を生成する
ことを特徴とする請求項１に記載のコンテンツ検索装置。
前記関連キーワード取得手段は、前記属性取得手段により複数のコンテンツ属性が取得された場合は、前記複数のコンテンツ属性の各々に対して関連キーワードを生成し、
前記出力生成手段は、前記複数のコンテンツ属性の各々に対して生成された関連キーワードを、コンテンツ属性ごと、関連区間ごとに出力するための出力情報を生成する
ことを特徴とする請求項６に記載のコンテンツ検索装置。
関連区間算出手段は、前記第１キーワードのうち前記第２キーワードと重複しないキーワードの数を、第２キーワードの数により除した値である相違度が所定基準値を満たすか否かに基づき、関連区間を算出する
ことを特徴とする請求項１に記載のコンテンツ検索装置。
コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツをコンピュータが検索するコンテンツ検索方法であって、
前記コンピュータは、
所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースを備え、
前記コンテンツ検索方法は、
前記コンテンツデータベースに記憶される第１コンテンツの内容を示す複数の第１キーワードと、前記コンテンツデータベースに記憶された第２コンテンツの内容を示す複数の第２キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第１コンテンツと前記第２コンテンツとが同一の時間区間に含まれるように定められる関連区間を、前記コンピュータが前記コンテンツ属性ごとに算出する関連区間算出ステップと、
前記関連区間算出ステップにより算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を前記コンピュータが更新する辞書更新ステップと、
前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を前記コンピュータが生成する出力生成ステップと
を含むことを特徴とするコンテンツ検索方法。
コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索する、コンピュータ実行可能なプログラムであって、
前記コンピュータは、
所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースを備え、
前記プログラムは、
前記コンテンツデータベースに記憶される第１コンテンツの内容を示す複数の第１キーワードと、前記コンテンツデータベースに記憶された第２コンテンツの内容を示す複数の第２キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第１コンテンツと前記第２コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出ステップと、
前記関連区間算出ステップにより算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新ステップと、
前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成ステップと
をコンピュータに実行させることを特徴とするプログラム。
コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースを更新する装置であって、
所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースと、
前記コンテンツデータベースに記憶される第１コンテンツの内容を示す複数の第１キーワードと、前記コンテンツデータベースに記憶された第２コンテンツの内容を示す複数の第２キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第１コンテンツと前記第２コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出手段と、
前記関連区間算出手段により算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新手段と、
を備えることを特徴とする装置。