WO2011042946A1

WO2011042946A1 - 類似コンテンツ検索装置及びプログラム

Info

Publication number: WO2011042946A1
Application number: PCT/JP2009/067345
Authority: WO
Inventors: 亘仲野; 鈴木　優; 昌之岡本; 山崎　智弘; 三原　功雄; 関根　真弘; 潤也高倉
Original assignee: 株式会社東芝
Priority date: 2009-10-05
Filing date: 2009-10-05
Publication date: 2011-04-14
Also published as: US20120266195A1; JP5415550B2; US8904437B2; JPWO2011042946A1; CN102549569B; CN102549569A

Abstract

　ユーザの注目する注目番組及び前記注目番組と同じ語句を含む語句類似番組に共通のジャンル特徴語が含まれている場合に語句類似度を減点し、前記注目番組及び前記注目番組と同じジャンルを含むジャンル類似番組に共通のジャンル特徴語が含まれている場合にジャンル類似度を加点し、前記語句類似度に基づいて語句類似番組を提示し、前記ジャンル類似度に基づいてジャンル類似番組を提示する。

Description

類似コンテンツ検索装置及びプログラム

　本発明は、類似コンテンツ検索装置及びプログラムに関するものである。

　テレビジョン放送には、地上波放送、ＢＳ放送、ＣＳ放送、ケーブルテレビ、インターネット放送など、様々な放送形態があり、視聴者には多数の番組が提供されている。視聴者が視聴を望む番組を探す状況の１つとして、類似番組の検索がある。

　類似番組の検索方法として、ユーザにより指定された番組のＥＰＧ（Electronic Program Guide）情報から単語を抽出し、この単語を用いて全ての番組のＥＰＧ情報を検索し、各単語の出現頻度に基づいて指定番組の類似番組を決定する方法が提案されている（例えば特許文献１参照）。また、原点を中心とするＸＹ平面での各方位方向にジャンルの種類を割り振り、類似番組をそのジャンルに応じて配置してユーザに提示する手法が知られている（例えば特許文献２参照）。

　ジャンルを有する番組情報に対して、上記のような語句に基づく類似番組検索を行うと、同ジャンルの番組ばかりが類似番組として検出され、ジャンルは異なるが類似度の高い番組を検出することが困難であった。

　語句に基づく類似番組と、ジャンルに基づく類似番組を並列に提示する手法も提案されている。しかし、ジャンル類似番組出力側に類似度の高い番組が偏ったり、ユーザに指定された番組のジャンルの粒度が粗い場合（例えばジャンル名「園芸・ペット・手芸」）にジャンルが極めて近い番組が語句類似番組出力側に出力され、ジャンルの遠い番組がジャンル類似番組出力側に出力されたりする等の問題があった。

特許第３５６９４４１号明細書特開２００９－８０５８０号公報

　本発明は、語句に基づく類似コンテンツとジャンルに基づく類似コンテンツとを検索して適切に提示できる類似コンテンツ検索装置及びプログラムを提供することを目的とする。

　本発明の一態様による類似コンテンツ検索装置は、コンテンツの説明情報及びジャンル情報を含む複数の番組情報を取得する情報取得部と、複数の前記番組情報を記憶する情報記憶部と、注目番組の指定を受け付ける受付部と、前記注目番組の番組情報を前記情報記憶部から取得し、前記注目番組の番組情報に含まれる説明情報から語句を抽出する語句抽出部と、前記語句を有する第１の番組情報を前記情報記憶部から検索する第１検索部と、ジャンル及び当該ジャンルに特徴的な語句の組み合わせを記憶するジャンル特徴語記憶部と、前記注目番組の番組情報と前記第１の番組情報との語句類似度を算出する語句類似度算出部と、前記ジャンル特徴語記憶部に記憶されている語句が前記注目番組の番組情報及び前記第１の番組情報に含まれ、かつ、当該語句と組み合わされているジャンルが前記注目番組の番組情報及び前記第１の番組情報に含まれている場合に、前記語句類似度を減点する減点部と、前記減点部により減点された前記語句類似度に基づいて前記第１の番組情報を提示する第１提示部と、前記注目番組の番組情報に含まれるジャンル情報を抽出するジャンル抽出部と、前記ジャンル情報を有する第２の番組情報を前記情報記憶部から検索する第２検索部と、前記注目番組の番組情報と前記第２の番組情報とのジャンル類似度を算出するジャンル類似度算出部と、前記ジャンル類似度に基づいて前記第２の番組情報を提示する第２提示部と、を備えるものである。

　本発明の一態様による類似コンテンツ検索プログラムは、コンテンツの説明情報及びジャンル情報を含む複数の番組情報を取得するステップと、複数の前記番組情報を情報記憶部に記憶させるステップと、注目番組の指定を受け付けるステップと、前記注目番組の番組情報を前記情報記憶部から取得するステップと、前記注目番組の番組情報に含まれる説明情報から語句を抽出するステップと、前記語句を有する第１番組情報を前記情報記憶部から検索するステップと、前記注目番組の番組情報と前記第１番組情報との語句類似度を算出するステップとジャンル及び当該ジャンルに特徴的な語句の組み合わせを記憶するジャンル特徴語記憶部に記憶されている語句が前記注目番組の番組情報及び前記第１番組情報に含まれ、かつ、当該語句と組み合わされているジャンルが前記注目番組の番組情報及び前記第１番組情報に含まれている場合に、前記語句類似度を減点するステップと、前記注目番組の番組情報に含まれるジャンル情報を抽出するステップと、前記ジャンル情報を有する第２番組情報を前記情報記憶部から検索するステップと、前記注目番組の番組情報と前記第２番組情報とのジャンル類似度を算出するステップと、前記減点された語句類似度に基づいて前記第１番組情報を提示するステップと、前記ジャンル類似度に基づいて前記第２番組情報を提示するステップと、をコンピュータに実行させるものである。

　本発明によれば、語句に基づく類似コンテンツとジャンルに基づく類似コンテンツとを検索して適切に提示できる。

第１の実施形態に係る類似コンテンツ検索装置の概略構成図。類似コンテンツ検索方法を説明するフローチャート。番組情報の一例を示す図。注目番組の指定画面の一例を示す図。抽出される語句情報の一例を示す図。ジャンル定義の一例を示す図。ジャンル特徴語情報の記憶形式の一例を示す図。語句類似度の算出方法を説明するフローチャート。語句の意味属性と語句類似度に加算される重みとの対応の一例を示す図。語句類似度の減点方法を説明するフローチャート。ジャンル類似度の算出方法を説明するフローチャート。ジャンル類似度の加点方法を説明するフローチャート。注目番組及びリストアップされる類似番組の一例を示す図。類似番組の提示例を示す図。比較例による語句類似番組を示す図。比較例によるジャンル類似番組を示す図。第２の実施形態に係る類似コンテンツ検索装置の概略構成図。ジャンル特徴語の追加方法を説明するフローチャート。

　以下、本発明の実施の形態を図面に基づいて説明する。

（第１の実施形態）図１に本発明の第１の実施形態に係る類似コンテンツ検索装置の概略構成を示す。類似コンテンツ検索装置は、情報取得部１０、情報記憶部１１、受付部１２、語句抽出部１３、語句検索部（第１検索部）１４、語句類似度算出部１５、語句類似コンテンツ提示部（第１提示部）１６、ジャンル抽出部１７、ジャンル検索部（第２検索部）１８、ジャンル類似度算出部１９、ジャンル類似コンテンツ提示部（第２提示部）２０、ジャンル特徴語記憶部２１、語句類似度減点部２２及びジャンル類似度加点部２３を備える。

　情報取得部１０は、受信した放送波から、映像番組（コンテンツ）の説明情報及びジャンル情報を含むＥＰＧ（Electronic Program Guide：電子番組表）等の番組情報を取得する。放送波は、ある特定の放送形態に限定されるものではなく、地上デジタル放送、ＢＳ放送、ＣＳ放送、ケーブルテレビ、インターネット放送など、ＥＰＧ情報が含まれる様々な放送形態をとり得る。また、複数の放送形態の放送波が受信されてもよい。

　説明情報は、映像番組の内容の詳細を示す情報であり、ＥＰＧ情報では番組タイトル情報や、番組概要情報等によって構成される。ジャンル情報は、映像番組を内容によって分類した際の分類集合の名称を示す情報であり、分類集合の内容を表現した文字列や外部で定義された数値コード等によって表現される。

　番組情報（ＥＰＧ情報）は、説明情報、ジャンル情報の他に、放送日時情報、放送局情報等を含んでいてもよい。

　情報記憶部１１は、情報取得部１０により取得された複数の映像番組についての番組情報を、語句抽出部１３、語句検索部１４及びジャンル検索部１８が読み取り可能な形式で記憶する。情報記憶部１１は、例えば、ハードディスクやフラッシュメモリである。

　受付部１２は、ユーザによる注目番組の指定を受け付ける。注目番組の指定は、ユーザによる能動的な映像番組の選択でもよいし、ユーザが映像番組に注目していることを示す別の行動による指定でもよい。別の行動とは、例えば映像番組の視聴、録画、録画予約などである。受付部１２は、注目番組の番組情報を情報記憶部１１から取り出して、語句抽出部１３及びジャンル抽出部１７へ出力する。

　語句抽出部１３は、受付部１２から受け取った注目番組の番組情報（注目番組情報）に含まれる説明情報から、注目番組の内容を示す語句を抽出する。ここでは、番組タイトル情報及び番組概要情報から語句が抽出される。語句の抽出には、形態素解析や意味情報抽出などを用いることができる。形態素解析や意味情報抽出の結果から、ある特定の種類を選択してもよい。また、番組タイトル情報や番組概要情報を分割した文字列の他に、抽出した元情報の種類、抽出元文字列上での位置、語句の種別、意味情報、元情報中の出現回数などをさらに抽出してもよい。

　語句検索部１４は、情報記憶部１１に記憶されている番組情報から、語句抽出部１３により抽出された語句が含まれる番組情報を検索し、番組毎に取得する。

　語句類似度算出部１５は、語句検索部１４が検索して取得した番組の番組情報と注目番組情報との語句類似度を算出する。語句類似度の算出方法は後述する。

　ジャンル特徴語記憶部２１は、ジャンル及び当該ジャンルに特徴的な語句の組み合わせを記憶する。特徴的な語句とは、あるジャンルにおける出現頻度が高く、他ジャンルにおける出現頻度が低い語句をいう。例えば、「演奏」という語句は「音楽」というジャンルでは出現頻度が高く、「音楽」以外のジャンルでは出現頻度が低い。従って、ジャンル特徴語記憶部２１には、ジャンル特徴語「演奏」と対応ジャンル「音楽」とが組み合わされて記憶される。ジャンル特徴語記憶部２１は、例えば、ハードディスクやフラッシュメモリである。

　語句類似度減点部２２は、語句検索部１４が検索して取得した番組の番組情報と注目番組情報の両方に、ジャンル特徴語記憶部２１に記憶されているジャンル特徴語が含まれているか否かを判定する。語句類似度減点部２２は、語句検索部１４が検索して取得した番組情報と注目番組情報の両方に共通のジャンル特徴語が含まれている場合、語句検索部１４が検索して取得した番組情報及び注目番組情報の両方が、このジャンル特徴語に対応するジャンルを含むか否かを判定する。語句類似度減点部２２は、ジャンル特徴語に対応するジャンルが含まれている場合は、語句類似度算出部１５により算出された語句類似度を減点する（減じる）。

　すなわち、語句類似度減点部２２は、注目番組情報と語句類似度算出対象の番組情報の２つの番組情報に共通のジャンル特徴語が含まれており、かつ２つの番組情報の両方がこのジャンル特徴語に対応するジャンルを含む場合、語句類似度を減点する。

　上述したように、ジャンル特徴語は対応ジャンルでは出現頻度の高い語句であり、このような語句が一致しても、２つの番組の内容の類似性は高いとは限らない。そのため、語句類似度減点部２２が類似度を減点する。

　語句類似コンテンツ提示部１６は、語句検索部１４が検索して取得した番組を、語句類似度に基づいて順序付けし、その順序に従ってユーザに提示する。提示方法については後述する。

　ジャンル抽出部１７は、受付部１２から受け取った注目番組情報からジャンル情報を抽出する。

　ジャンル検索部１８は、情報記憶部１１に記憶されている番組情報から、ジャンル抽出部１７により抽出されたジャンルが含まれる番組情報を検索し、番組毎に取得する。

　ジャンル類似度算出部１９は、ジャンル検索部１８が検索して取得した番組の番組情報と注目番組情報とのジャンル類似度を算出する。ジャンル類似度の算出方法は後述する。

　ジャンル類似度加点部２３は、注目番組情報とジャンル類似度算出対象の番組情報の２つの番組情報に共通のジャンルに対応するジャンル特徴語が当該２つの番組情報の両方に含まれている場合に、ジャンル類似度算出部１９により算出されたジャンル類似度を加点する。

　ジャンル分けの粒度が粗い場合、ジャンルが一致していても、２つの番組の内容の類似性は高いとは限らない。そのため、ジャンル類似度加点部２３は、ジャンル特徴語が含まれている場合にジャンル類似度を加点して、ジャンル特徴語が含まれていない場合よりもジャンル類似度を高くする。

　ジャンル類似コンテンツ提示部２０は、ジャンル検索部１８が検索して取得した番組を、ジャンル類似度に基づいて順序付けし、その順序に従ってユーザに提示する。提示方法については後述する。

　次に、類似コンテンツ検索装置の動作を図２に示すフローチャートを用いて説明する。ここでは、テレビジョンに搭載された、複数の放送形態による映像番組を受信し、視聴、録画、録画予約が可能なソフトウェア内における類似コンテンツ検索装置の動作を想定する。図２は、類似コンテンツ検索装置が放送波を受信してから類似コンテンツを順序付けて提示するまでの全体的な動作フローを示す。

　（ステップＳ１０１）放送波が受信される。

　（ステップＳ１０２）情報取得部１０が放送波から全番組の番組情報（ＥＰＧ情報）を取得する。取得された番組情報は情報記憶部１１に記憶される。

　取得される番組情報の一例を図３に示す。図３に示す表の１行が１つの番組に対応する。各番組の情報として、番組識別ＩＤ、放送局名、番組タイトル、最大３種類のジャンルコード、番組概要情報、開始日時／終了日時が含まれる。これらの情報は、受付部１２、語句検索部１４、ジャンル検索部１８などが利用できるような形式で記憶される。

　（ステップＳ１０３）受付部１２がユーザからの注目番組の指定を受け付ける。注目番組の指定画面の一例を図４に示す。画面Ｗ上に表形式の番組一覧が表示される。ここでは、行が時間軸を示し、列が放送局を示し、表内の１つのカラムが１つの番組に対応する。カラムには番組タイトルが記載されているが、他にも番組概要情報などを表示することもできる。ユーザはポインタＰをリモコンなどの指示器具で操作することができ、注目する番組にポインタＰを合わせて指定することで、注目番組を指定する。

　（ステップＳ１０４）受付部１２が、注目番組の番組情報（注目番組情報）を情報記憶部１１から取得し、語句抽出部１３及びジャンル抽出部１７へ出力する。

　（ステップＳ１０５）語句抽出部１３が、注目番組情報の説明情報（番組タイトル情報及び番組概要情報）から語句情報を抽出する。語句抽出部１３は、番組タイトル情報の文字列及び番組概要情報の文字列を形態素解析・意味解析し、解析結果から特定の意味属性や品詞を持つ単語を語句情報として抽出する。

　意味解析には、例えば文献「“質問応答と日本語固有表現抽出および固有表現体系の関係についての考察”、市村由美，他，情報処理学会研究報告，ＮＬ－１６１－３，２００４」に記載されているような公知の固有表現抽出手法を用いることができる。

　図５に抽出した語句情報の一例を示す。語句情報は説明情報から抽出した文字列の他に、出現した映像番組のＩＤ、語句情報の意味情報や品詞情報、抽出元となった説明情報の種類、出現回数との組として抽出される。図５のような語句情報はメモリ上に一時的に保持してもよいし、情報記憶部１１に書き戻してもよい。

　（ステップＳ１０６）ジャンル抽出部１７が、注目番組情報からジャンル情報を抽出する。

　図６にジャンル情報の一例を示す。ジャンル情報は、数字によるコードと、意味を表す語句で表されるとし、ジャンル体系は大ジャンル／小ジャンルのように、二階層構造で定義されているとする。

　（ステップＳ１０７）語句検索部１４が、ステップＳ１０５で抽出された語句のうち少なくとも１つの語句を番組タイトル情報又は番組概要情報中に含む（注目番組以外の）番組を情報記憶部１１から検索し、その番組の番組情報を取得する。

　（ステップＳ１０８）語句類似度算出部１５が、ステップＳ１０７の検索結果の番組の各々に対して、注目番組との間の語句類似度を算出する。語句類似度の算出方法は後述する。

　（ステップＳ１０９）ステップＳ１０７の検索結果の各番組と注目番組との組み合わせにおいて、共通の語句がジャンル特徴語に該当し、かつ、そのジャンル特徴語に対応するジャンルを検索結果の番組及び注目番組が有するか否かが判定される。注目番組との共通の語句がジャンル特徴語に該当し、かつ対応ジャンルを注目番組及び自らが有する検索結果の番組がある場合はステップＳ１１０へ進み、無い場合はステップＳ１１１へ進む。

　図７にジャンル特徴語記憶部２１によって記憶されるジャンル特徴語情報の形式の一例を示す。各ジャンル特徴語情報は、特徴語の文字列、対応ジャンル、加点時と減点時それぞれの重みの組で定義される。重みについては、図７の形式以外にも、簡単のために加点時と減点時を同値にしたり、割合で加減算したりすることも可能である。また、各ジャンル特徴語に対し、対応ジャンルを複数設定することも可能である。

　（ステップＳ１１０）注目番組との共通の語句がジャンル特徴語に該当し、かつ対応ジャンルを注目番組及び自らが有する検索結果の番組について、語句類似度が語句類似度減点部２２により減点される。減点される値は図７における減点時の重みである。

　（ステップＳ１１１）語句類似度の高い順に一定数の番組が提示用番組としてリストアップ（選択）される。

　（ステップＳ１１２）ジャンル検索部１８が、ステップＳ１０６で抽出されたジャンル情報を番組情報中に含む（注目番組以外の）番組を情報記憶部１１から検索し、その番組の番組情報を取得する。ステップＳ１０６で複数のジャンル情報が抽出されている場合は、抽出された複数のジャンル情報のうち少なくとも１つを含む番組が検索される。

　（ステップＳ１１３）ステップＳ１１２の検索結果の番組と、ステップＳ１１１でリストアップされた番組とが比較され、重複した番組が検索結果から削除される。

　（ステップＳ１１４）ジャンル類似度算出部１９が、検索結果の番組の各々に対して、注目番組との間のジャンル類似度を算出する。ジャンル類似度の算出方法は後述する。

　（ステップＳ１１５）検索結果の各番組と注目番組との組み合わせにおいて、共通のジャンルに対応するジャンル特徴語が検索結果の番組の番組情報及び注目番組情報に含まれるか否かが判定される。含まれる場合はステップＳ１１６へ進み、含まれない場合はステップＳ１１７へ進む。

　（ステップＳ１１６）ジャンル特徴語が含まれる検索結果の番組について、ジャンル類似度がジャンル類似度加点部２３により加点される。加点される値は図７における加点時の重みである。

　（ステップＳ１１７）ジャンル類似度の高い順に一定数の番組が提示用番組としてリストアップ（選択）される。

　（ステップＳ１１８）ステップＳ１１１及びＳ１１７でリストアップされた番組がユーザに提示される。

　次にステップＳ１０８における語句類似度の算出方法を図８に示すフローチャートを用いて説明する。

　（ステップＳ２０１）本フローで用いる変数を初期化する。検索結果番組数をＭとおき、インデクスｉ、ｊの値を１、語句類似度Ｘｉ (１≦ｉ≦Ｍ)を０とする。Ｘｉはｉ番目の検索結果番組と注目番組との語句類似度を指す。

　（ステップＳ２０２）インデクスｉと検索結果番組数Ｍとを比較する。ｉ＞Ｍの場合は全ての検索結果番組に対して語句類似度が算出されているため処理を終了する。それ以外の場合はステップＳ２０３に進む。

　（ステップＳ２０３）ｉ番目の検索結果番組の番組情報と注目番組情報の両方に出現する語句情報を取得し、その個数をＮとおく。

　（ステップＳ２０４）インデクスｊと語句情報数Ｎとを比較する。ｊ＞Ｎの場合は全ての語句情報に関して語句類似度への加算が終了したため、ステップＳ２０７へ進む。それ以外の場合はステップＳ２０５に進む。

　（ステップＳ２０５）ｊ番目の語句情報の意味属性または品詞を参照し、対応する重みの値を語句類似度Ｘｉに加算する。意味属性または品詞に対応する重みは、図９のように定義され、図示しない記憶部に保持される。

　（ステップＳ２０６）ｊの値を１増やす。

　（ステップＳ２０７）ｉの値を１増やす。

　このような方法により語句類似度が算出される。

　次に、ステップＳ１０９及びＳ１１０における語句類似度の減点方法について図１０に示すフローチャートを用いて説明する。

　（ステップＳ３０１）本フローで用いる変数を初期化する。検索結果番組数をＭとおき、インデクスｉ、ｊの値を１とする。語句類似度ＸｉはステップＳ１０８で算出された値を用いる。

　（ステップＳ３０２）インデクスｉと検索結果番組数Ｍを比較する。ｉ＞Ｍの場合は、全ての検索結果番組に対して判定・語句類似度の再計算が終了したため、処理を終了する。それ以外の場合はステップＳ３０３に進む。

　（ステップＳ３０３）ｉ番目の検索結果番組の番組情報と注目番組情報の両方に出現する語句情報を取得し、その個数をＮとおく。

　（ステップＳ３０４）インデクスｊと語句情報数Ｎとを比較する。ｊ＞Ｎの場合は全ての語句情報に関してジャンル特徴語に該当するか否かの判定、語句類似度の減点が終了したため、ステップＳ３０５へ進む。それ以外の場合はステップＳ３０６に進む。

　（ステップＳ３０５）ｉの値を１増やす。

　（ステップＳ３０６）図７に示すようなジャンル特徴語リストを参照し、ｊ番目の語句情報がリストに含まれるか検索する。リストに含まれていない場合はステップＳ３０７へ進み、含まれている場合はステップＳ３０８へ進む。

　（ステップＳ３０７）ｊの値を１増やす。

　（ステップＳ３０８）ｊ番目の語句情報と同一のジャンル特徴語に対応するジャンル情報が取得される。

　（ステップＳ３０９）ｉ番目の検索結果番組及び注目番組の両方がステップＳ３０８で取得されたジャンル情報を含むか否かが判定される。含む場合はステップＳ３１０へ進み、含まない場合はステップＳ３０７へ進む。

　（ステップＳ３１０）ジャンル特徴語リストから当該ジャンル特徴語に対応する重みの値を取得し、語句類似度Ｘｉから減算する。

　このような方法により語句類似度が減点される。

　次にステップＳ１１４におけるジャンル類似度の算出方法を図１１に示すフローチャートを用いて説明する。

　（ステップＳ４０１）本フローで用いる変数を初期化する。検索結果番組数をＭとおき、インデクスｉ、ｊ、ｋの値を１、ジャンル類似度Ｙｉ (１≦ｉ≦Ｍ)を０とする。Ｙｉはｉ番目の検索結果番組と注目番組とのジャンル類似度を指す。

　（ステップＳ４０２）インデクスｉと検索結果番組数Ｍとを比較する。ｉ＞Ｍの場合は全ての検索結果番組に対してジャンル類似度が算出されているため処理を終了する。それ以外の場合はステップＳ４０３に進む。

　（ステップＳ４０３）ｉ番目の検索結果番組のジャンル情報を取得し、その個数をＮ１とおく。

　（ステップＳ４０４）インデクスｊとジャンル情報数Ｎ１とを比較する。ｊ＞Ｎ１の場合は全てのジャンル情報の組み合わせに関してジャンル類似度への加算が終了したため、ステップＳ４０５へ進む。それ以外の場合はステップＳ４０６に進む。

　（ステップＳ４０５）ｉの値を１増やす。

　（ステップＳ４０６）注目番組のジャンル情報を取得し、その個数をＮ２とおく。

　（ステップＳ４０７）インデクスｋとジャンル情報数Ｎ２とを比較する。ｋ＞Ｎ２の場合はステップＳ４０８へ進み、それ以外の場合はステップＳ４０９に進む。

　（ステップＳ４０８）ｊの値を１増やす。

　（ステップＳ４０９）ｉ番目の検索結果番組のｊ番目のジャンル情報と、注目番組のｋ番目のジャンル情報とが比較される。２つのジャンル情報が、図６に示すような大ジャンル及び小ジャンル共に一致した場合はステップＳ４１１へ進み、それ以外の場合はステップＳ４１０へ進む。

　（ステップＳ４１０）２つのジャンル情報が、大ジャンルのみ一致している場合はステップＳ４１２へ進み、大ジャンル及び小ジャンル共に一致していない場合はステップＳ４１３へ進む。

　（ステップＳ４１１）重みＷ１をジャンル類似度Ｙｉに加算する。

　（ステップＳ４１２）重みＷ２をジャンル類似度Ｙｉに加算する。重みＷ２は重みＷ１より小さい値である。

　（ステップＳ４１３）ｋの値を１増やす。

　このような方法によりジャンル類似度を算出することができる。図１１に示す方法では、ある検索結果番組について、ジャンル情報数Ｎ１及び注目番組のジャンル情報数Ｎ２に対して、Ｎ１×Ｎ２通りの組み合わせ全てでジャンル情報の一致度を求めて、重み（Ｗ１、Ｗ２）をジャンル類似度に加算していたが、一度比較したジャンル情報は再度用いないようにしてもよい。この場合、ジャンル類似度Ｙｉは比較するジャンル情報の組み合わせ方によって複数の値をとり得るが、その中で最大の値をジャンル類似度Ｙｉとしてもよい。

　次に、ステップＳ１１５及びＳ１１６におけるジャンル類似度の加点方法について図１２に示すフローチャートを用いて説明する。

　（ステップＳ５０１）本フローで用いる変数を初期化する。検索結果番組数をＭとおき、インデクスｉ、ｊの値を１とする。ジャンル類似度ＹｉはステップＳ１１４で算出された値を用いる。

　（ステップＳ５０２）インデクスｉと検索結果番組数Ｍを比較する。ｉ＞Ｍの場合は、全ての検索結果番組に対して判定・ジャンル類似度の再計算が終了したため、処理を終了する。それ以外の場合はステップＳ５０３に進む。

　（ステップＳ５０３）ｉ番目の検索結果番組と注目番組に共通するジャンル情報を取得し、その個数をＮとおく。

　（ステップＳ５０４）インデクスｊとジャンル情報数Ｎとを比較する。ｊ＞Ｎの場合はステップＳ５０５へ進む。それ以外の場合はステップＳ５０６に進む。

　（ステップＳ５０５）ｉの値を１増やす。

　（ステップＳ５０６）図７に示すようなジャンル特徴語リストを参照し、ｊ番目のジャンル情報に対応するジャンル特徴語を取得する。

　（ステップＳ５０７）ステップＳ５０６で取得したジャンル特徴語が注目番組情報及び検索結果番組の番組情報に含まれているか否かが判定される。含まれている場合はステップＳ５０８へ進み、含まれていない場合はステップＳ５０９へ進む。

　なお、本ステップでは、注目番組情報及び検索結果番組の番組情報に意味が近いジャンル特徴語が含まれているか否かの判定をさらに行うようにしてもよい。例えば、注目番組情報に「園芸」といジャンル特徴語が含まれ、検索結果番組の番組情報に「ガーデニング」というジャンル特徴語が含まれる場合、ステップＳ５０８へ進む。

　（ステップＳ５０８）ジャンル類似度Ｙｉに、ジャンル特徴語に対応した重みを加点する。

　（ステップＳ５０９）ｊの値を１増やす。

　このような方法によりジャンル類似度が加点される。

　上述した方法により、図１３（ａ）に示す注目番組に対して、図１３（ｂ）に示すような語句類似番組、図１３（ｃ）に示すようなジャンル類似番組がリストアップされる。図１３（ｂ）、（ｃ）では上から順に類似度が高い番組となっている。各類似番組について、注目番組と共通の語句やジャンルも示している。

　また、リストアップされた番組は図１４に示すような形式で画面表示され、ユーザに提示される。画面は、注目番組を中心として、ジャンル、キーワード、人物、タイトルの４つの領域に区分けされており、各領域では類似度が高い番組が注目番組（画面中心）近傍に配置される。ジャンル類似番組はジャンル領域（画面左側）に表示され、語句類似番組はキーワード領域（画面下側）に表示される。

　ユーザはこの画面からポインタＰを操作して類似番組を選択し、視聴や録画を行うことができる。

　図１３（ａ）に示す注目番組に対して、ジャンル特徴語記憶部２１及び語句類似度減点部２２を除いた類似コンテンツ検索装置により選択されると想定される語句類似番組を図１５（ａ）に示す。図１５（ｂ）は図１３（ｂ）と同じであり、本実施形態に係る類似コンテンツ検索装置により選択される語句類似番組を示す。

　図１５（ａ）に示す語句類似番組は、主に「クラシック」、「演奏」などの語句が一致したことによって選択されているが、これらの語句はクラシック音楽関連の映像番組には頻出する語であり、各番組の内容に対して特徴的であるとは言えない。

　これに対し、本実施形態は、「クラシック」、「演奏」などのジャンル特徴語を含む番組の語句類似度を減点し、より内容に対して特徴的な「ベートーヴェン」、「田中太郎」、「交響曲第７番」のような語句を含む番組を上位に提示できる。

　また、図１６に園芸・ガーデニングをテーマにした注目番組に対してリストアップされるジャンル類似番組の一例を示す。図１６（ａ）はジャンル特徴語記憶部２１及びジャンル類似度加点部２３を除いた類似コンテンツ検索装置により選択されると想定されるジャンル類似番組を示し、図１６（ｂ）は本実施形態に係る類似コンテンツ検索装置により選択されるジャンル類似番組を示す。

　図１６（ａ）には、園芸ではなくペットや手品の番組が示されている。これは、ジャンル定義上ではこれらのジャンルが「趣味・教養／園芸・ペット・手品」と定義されており、どの番組も同じジャンルに分類されているからである。実際に放送局により設定されるジャンルは、内容が異なる細かいジャンルを１つにまとめた形で定義されることがある。同じジャンルであるため、園芸番組とペット番組はジャンル類似度では区別することができず、図１６（ａ）に示すような番組が選択され得る。

　一方、図１６（ｂ）は、園芸やガーデニングの番組が示されている。これは、「園芸」などの語句がジャンル特徴語に含まれているため、それらを含む番組のジャンル類似度が加点され、より上位に表示された結果である。

　このように、本実施形態によれば、検索結果番組及び注目番組に共通する語句が、対応ジャンルでの出現頻度の高いジャンル特徴語である場合に語句類似度を減点し、検索結果番組及び注目番組に共通するジャンルに対応するジャンル特徴語が番組情報に含まれている場合はジャンル類似度を加点することで、語句に基づく類似コンテンツとジャンルに基づく類似コンテンツとを適切に提示することができる。

　上記実施形態において、情報取得部１０及び情報記憶部１１に対して語句抽出部１３を接続する構成にしてもよい。この構成の場合、語句抽出部１３は、情報取得部１０により取得されたＥＰＧ情報を用いて、全映像番組の説明情報から語句を抽出し、情報記憶部１１に抽出した語句とＥＰＧ情報とを組み合わせて記憶させることができる。

　（第２の実施形態）図１７に本発明の第２の実施形態に係る類似コンテンツ検索装置の概略構成を示す。本実施形態に係る類似コンテンツ検索装置は、図１に示す上記第１の実施形態に係る類似コンテンツ検索装置にジャンル特徴語追加部２４をさらに設けた構成となっている。

　ジャンル特徴語追加部２４は、注目番組情報や語句検索部１４、ジャンル検索部１６によって検索された番組情報から新規ジャンル特徴語を自動的に取得し、ジャンル特徴語記憶部２１に追加する。新規ジャンル特徴語は、あるジャンルの番組情報に高頻度で出現し、他ジャンルの番組情報にはあまり出現しない語句である。

　ジャンル特徴語の追加方法について図１８に示すフローチャートを用いて説明する。

　（ステップＳ６０１）本フローで用いる変数を初期化する。語句検索部１４による検索結果番組数をＭ、注目番組から抽出した語句数をＮｋ、ジャンル数をＮｇとおき、インデクスｉ、ｊの値を１とする。

　（ステップＳ６０２）インデクスｉと抽出ジャンル数Ｎｇを比較する。ｉ＞Ｎｇの場合は、ジャンル特徴語の追加処理を終了する。それ以外の場合はステップＳ６０３に進む。

　（ステップＳ６０３）検索結果番組から、ｉ番目のジャンルを含む番組を全て選び、その数をＣ１とする。

　（ステップＳ６０４）インデクスｊと抽出語句数Ｎｋを比較する。ｊ＞Ｎｋの場合は、ステップＳ６０５へ進み、それ以外の場合はステップＳ６０６に進む。

　（ステップＳ６０５）ｉの値を１増やす。

　（ステップＳ６０６）ステップＳ６０３で選んだ番組のうち、注目番組のｊ番目の語句を含む番組を選び、その数をＣ２とする。

　（ステップＳ６０７）ｊ番目の語句がジャンル特徴語か否か判定する。具体的には、Ｔ１及びＴ２の２つの閾値を用い、Ｔ１≦Ｃ２／Ｃ１かつＴ２＞Ｃ２／Ｍを満たすか否か判定する。この条件を満たす場合はステップＳ６０８に進み、満たさない場合はステップＳ６０９に進む。

　なお、上記の条件は、１つ目（Ｔ１≦Ｃ２／Ｃ１）が、ｊ番目の語句が同ジャンルの番組情報内に高頻度で出現することを示し、２つ目（Ｔ２＞Ｃ２／Ｍ）が、他のジャンルの番組情報にはあまり出現しないことを示す。

　なお、本ステップにおいて、ｊ番目の語句がｉ番目のジャンルを示す文字列、またはその同義語を一部に含むか否かを判定するようにしてもよい。この条件は上述の条件と独立したものであるため、並列に実施してもよい。

　（ステップＳ６０８）ｊ番目の語句とｉ番目のジャンルを組にして、ジャンル特徴語としてジャンル特徴語記憶部２１に追加する。記憶形式は図７と同様である。

　（ステップＳ６０９）ｊの値を１増やす。

　このような方法により新規のジャンル特徴語を追加することができる。

　このように本実施形態によれば、ジャンル特徴語を新規に追加していくことができるため、以前は使用されなかったが最近になって特定のジャンルに使用されるようになった言語にも柔軟に対応することができ、語句に基づく類似コンテンツとジャンルに基づく類似コンテンツとをさらに適切に提示することができる。

　上述した実施形態で説明した類似コンテンツ検索装置の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、類似コンテンツ検索装置の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ－ＲＯＭ等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。

　また、類似コンテンツ検索装置の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線（無線通信も含む）を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。

　なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１０　情報取得部
１１　情報記憶部
１２　受付部
１３　語句抽出部
１４　語句検索部
１５　語句類似度算出部
１６　語句類似コンテンツ提示部
１７　ジャンル抽出部
１８　ジャンル検索部
１９　ジャンル類似度算出部
２０　ジャンル類似コンテンツ提示部
２１　ジャンル特徴語記憶部
２２　語句類似度減点部
２３　ジャンル類似度加点部

Claims

　コンテンツの説明情報及びジャンル情報を含む複数の番組情報を取得する情報取得部と、
　複数の前記番組情報を記憶する情報記憶部と、
　注目番組の指定を受け付ける受付部と、
　前記注目番組の番組情報を前記情報記憶部から取得し、前記注目番組の番組情報に含まれる説明情報から語句を抽出する語句抽出部と、
　前記語句を有する第１の番組情報を前記情報記憶部から検索する第１検索部と、
　ジャンル及び当該ジャンルに特徴的な語句の組み合わせを記憶するジャンル特徴語記憶部と、
　前記注目番組の番組情報と前記第１の番組情報との語句類似度を算出する語句類似度算出部と、
　前記ジャンル特徴語記憶部に記憶されている語句が前記注目番組の番組情報及び前記第１の番組情報に含まれ、かつ、当該語句と組み合わされているジャンルが前記注目番組の番組情報及び前記第１の番組情報に含まれている場合に、前記語句類似度を減点する減点部と、
　前記減点部により減点された前記語句類似度に基づいて前記第１の番組情報を提示する第１提示部と、
　前記注目番組の番組情報に含まれるジャンル情報を抽出するジャンル抽出部と、
　前記ジャンル情報を有する第２の番組情報を前記情報記憶部から検索する第２検索部と、
　前記注目番組の番組情報と前記第２の番組情報とのジャンル類似度を算出するジャンル類似度算出部と、
　前記ジャンル類似度に基づいて前記第２の番組情報を提示する第２提示部と、
　を備える類似コンテンツ検索装置。
　前記ジャンル特徴語記憶部に記憶されているジャンルが前記注目番組の番組情報及び前記第２の番組情報に含まれ、かつ、当該ジャンルと組み合わされている語句が前記注目番組の番組情報及び前記第２の番組情報に含まれている場合に、前記ジャンル類似度を加点する加点部をさらに備えることを特徴とする請求項１に記載の類似コンテンツ検索装置。
　前記語句抽出部は第１～第Ｍ（Ｍは２以上の整数）の語句を抽出し、
　前記第１検索部は前記第１～第Ｍの語句の少なくともいずれか１つを有する第１の番組情報を検索し、
　前記第１検索部の検索結果から前記注目番組の番組情報と同じジャンル情報を有する番組情報を選択し、選択した番組情報における前記第ｋ（ｋは１≦ｋ≦Ｍを満たす整数）の語句を有する番組情報の割合が第１所定値以上であり、かつ、前記第１の番組情報における前記第ｋの語句を有する番組情報の割合が第２所定値未満である場合に、前記第ｋの語句を、前記ジャンル情報と組み合わせて前記ジャンル特徴語記憶部に追加する追加部をさらに備えることを特徴とする請求項２に記載の類似コンテンツ検索装置。
　前記追加部は、前記注目番組のジャンル情報を示す文字列又は当該文字列の同義語を一部に含む語句を当該ジャンル情報と組み合わせて前記ジャンル特徴語記憶部に追加することを特徴とする請求項３に記載の類似コンテンツ検索装置。
　コンテンツの説明情報及びジャンル情報を含む複数の番組情報を取得するステップと、
　複数の前記番組情報を情報記憶部に記憶させるステップと、
　注目番組の指定を受け付けるステップと、
　前記注目番組の番組情報を前記情報記憶部から取得するステップと、
　前記注目番組の番組情報に含まれる説明情報から語句を抽出するステップと、
　前記語句を有する第１番組情報を前記情報記憶部から検索するステップと、
　前記注目番組の番組情報と前記第１番組情報との語句類似度を算出するステップと
　ジャンル及び当該ジャンルに特徴的な語句の組み合わせを記憶するジャンル特徴語記憶部に記憶されている語句が前記注目番組の番組情報及び前記第１番組情報に含まれ、かつ、当該語句と組み合わされているジャンルが前記注目番組の番組情報及び前記第１番組情報に含まれている場合に、前記語句類似度を減点するステップと、
　前記注目番組の番組情報に含まれるジャンル情報を抽出するステップと、
　前記ジャンル情報を有する第２番組情報を前記情報記憶部から検索するステップと、
　前記注目番組の番組情報と前記第２番組情報とのジャンル類似度を算出するステップと、
　前記減点された語句類似度に基づいて前記第１番組情報を提示するステップと、
　前記ジャンル類似度に基づいて前記第２番組情報を提示するステップと、
　をコンピュータに実行させる類似コンテンツ検索プログラム。