JP5723830B2

JP5723830B2 - 興味分析方法

Info

Publication number: JP5723830B2
Application number: JP2012123669A
Authority: JP
Inventors: 伊藤　浩二; 浩二伊藤; 藤田　将成; 将成藤田; 妙佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-05-30
Filing date: 2012-05-30
Publication date: 2015-05-27
Anticipated expiration: 2032-05-30
Also published as: JP2013250672A

Description

この発明は、コンピュータネットワーク上において、情報提供者が情報利用者毎に適する情報を選択して提示する情報推薦サービスに用いられる興味分析方法に関する。

情報提供者が情報利用者ごとに適する情報を選択し、あるいは情報利用者ごとに適する順番に並び替えて情報を表示する方法として、各コンテンツに内容をサマライズするメタ情報が付与されていることを前提として、ユーザ履歴において出現する概念等の頻度からユーザの興味を推定する方法は、内容ベースフィルタリング手法（Content Based Filtering：ＣＢＦ）で、特にメモリベース手法として研究が進められている。

具体的に、内容ベースフィルタリング技術とは、例えば特定ブランド（ブランドを示す情報を概念タグとして保持）の商品を閲覧した場合に、同じブランドの商品（同じ概念タグを保持）を提示する。この場合のメモリベース手法は、過去に閲覧した履歴から特定ブランドを頻繁に閲覧していれば、特定ブランドの商品を提示することとなる。単純な方法では、閲覧履歴により多く出現した概念タグに関連する商品を提示することとなる。適合性フィードバックと統計的仮説検定を利用した方法としては、例えば、非特許文献１の「適合性フィードバックと統計的仮説検定を利用したニュース推薦手法の提案」がある。

「適合性フィードバックと統計的仮説検定を利用したニュース推薦手法の提案」，第二種研究会資料，WI2-2012-19，pp.53-58，2012

ところが、上記従来技術の手法において、大量かつ詳細な履歴が得られたとしても、ユーザの嗜好はその時々の気分によっても変化する場合があるため、過去の履歴のみからではユーザの興味を常に正確に推定することはできず、ユーザがその時点では望まない情報が提示される可能性がある。

この発明は上記事情に着目してなされたもので、その目的とするところは、ユーザがその時点で望む情報を精度良く提示するための興味分析方法を提供することにある。

本発明の第１の態様は、コンピュータによって複数の概念に対するユーザ興味スコアを体系化した概念体系を用いてユーザの興味を分析する方法であって、前記概念体系における絞り込み条件の選択候補となる複数の概念を一覧として閲覧した第１の条件リストと、前記第１の条件リストから前記ユーザにより選択された概念を含む第２の条件リストとを取得するステップと、前記第１の条件リストに含まれる概念の総数を第１の総数と、前記第１の条件リストにおいて前記ユーザにより選択された概念が出現する数を第１の出現数と、前記第２の条件リストに含まれる概念の総数を第２の総数と、前記第２の条件リストにおいて前記ユーザにより選択された概念が出現する数を第２の出現数としたとき、前記第１の総数、前記第１の出現数、及び前記第２の総数の条件下で、前記第２の条件リストに前記概念が出現する数が、前記第２の出現数以上となる第１の確率及び前記第２の出現数以下となる第２の確率を算出し、前記第１の確率及び前記第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出ステップと、前記特徴スコアを用いて前記概念に対する前記ユーザ興味スコアを更新する更新ステップとを有するものである。

第１の態様によれば、ユーザが第１の条件リストの選択候補から絞り込み条件を選択した場合、絞り込み条件の指定について、偶然と比べて比較的“選ぶ”あるいは、“選ばない”程度を分析して特徴スコアを求め、この特徴スコアを用いてユーザの興味を推定するものであって、コンテンツ選択履歴による興味推定と併せて用いる事に拠り、ユーザが絞り込み条件を指定した場合であっても、ユーザの興味を合理的かつ的確に分析可能となる。

本発明の第２の態様は、コンピュータによって複数の概念に対するユーザ興味スコアを体系化した概念体系を用いてユーザの興味を分析する方法であって、前記概念体系における除外条件の選択候補となる複数の概念を一覧として閲覧した第１の条件リストと、前記第１の条件リストから前記ユーザにより選択された第２の条件リストとを取得するステップと、前記第１の条件リストに含まれる概念の総数を第１の総数と、前記第１の条件リストにおいて前記ユーザにより選択された概念が出現する数を第１の出現数と、前記第２の条件リストに含まれる概念の総数を第２の総数と、前記第２の条件リストにおいて前記ユーザにより選択された概念が出現する数を第２の出現数としたとき、前記第１の総数、前記第１の出現数、及び前記第２の総数の条件下で、前記第２の条件リストに前記概念が出現する数が、前記第２の出現数以上となる第１の確率及び前記第２の出現数以下となる第２の確率を算出し、前記第１の確率及び前記第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出ステップと、前記特徴スコアを用いて前記概念に対する前記ユーザ興味スコアを更新する更新ステップとを有するものである。

第２の態様によれば、ユーザが第１の条件リストの選択候補から除外条件を選択した場合、偶然と比べて比較的“選ぶ”あるいは、“選ばない”という特徴を活用し、ユーザの興味を推定するものであって、コンテンツ選択履歴による興味推定と併せて用いる事に拠り、ユーザが絞り込み条件を指定した場合であっても、ユーザの興味を合理的かつ的確に分析可能となる。

本発明の第３の態様は、上記第１又は第２の態様において、前記算出ステップは、前記第２の条件リストに含まれる概念をもとに前記概念体系における選択経路を特定し、前記選択経路に発生する各選択に対応する各概念について前記特徴スコアを算出するものである。

第３の態様によれば、概念体系における上位概念からの絞り込み条件又は除外条件の選択経路を特定し、それらの各選択についても興味推定に利用することにより、興味推定精度を高めることが可能となる。

本発明の第４の態様は、上記第１乃至第３のいずれかの態様において、前記更新ステップは、前記特徴スコアを用いて当該概念の下位概念のユーザ興味スコアを更新するものである。
第４の態様によれば、特徴スコアを用いて当該概念の下位概念のユーザ興味スコアを更新することで、選択した概念だけでなく、これらの下位概念についても合理的かつ的確に分析可能となる。

本発明の第５の態様は、上記第１乃至第４のいずれかの態様において、１つ以上の概念が出現するコンテンツについて、当該コンテンツに出現する各概念の前記ユーザ興味スコアを用いて、当該コンテンツに対するユーザの評価スコアを算出する評価ステップをさらに有するものである。
第５の態様によれば、算出されたユーザ興味スコアを用いてコンテンツに対するユーザの評価スコアを算出することで、ユーザの興味に合ったコンテンツを推薦することが可能となる。

すなわちこの発明によれば、ユーザがその時点で望む情報を精度良く提示するための興味分析方法を提供することができる。

本発明に係る情報推薦システムの全体構成図。情報選択履歴のみを用いた情報推薦の課題を示す図。情報選択履歴と明示的な条件指定を用いた情報推薦の概念を示す図。図１に示す情報推薦システムの各装置の機能構成を示すブロック図。コンテンツ要求データの一例を示す図。クライアント端末上でのコンテンツ閲覧操作の一例を示す図。一覧閲覧コンテンツリストのデータ構成例を示す図。詳細閲覧コンテンツのデータ構成例を示す図。条件一覧要求データの一例を示す図。条件選択履歴の収集方法を示す図。提示コンテンツリストのデータ構成例を示す図。閲覧履歴からユーザの興味を推定する場合の処理概要を示す図。概念体系を用いた条件設定方法を示す図。条件設定時の対象コンテンツの特定方法を示す図。コンテンツデータベースの一例を示す図。概念体系／ユーザ興味スコアデータベースの一例を示す図。履歴情報受信部の処理フローを示す図。特徴スコア算出部の処理フローを示す図。分析パラメータリストのデータ構成例を示す図。特徴スコア算出部の動作を説明するための模式図。特徴スコア算出処理の詳細を示す図。絞り込み条件選択時の希少性を用いた興味推定方法を示す図。絞り込み条件選択経路の特定方法を示す図。絞り込み条件指定時に行われた選択一覧を示す図。絞り込み条件選択時の特徴スコアの計算結果を示す図。除外条件選択時の希少性を用いた興味推定方法を示す図。除外条件選択経路の特定方法を示す図。除外条件指定時に行われた選択一覧を示す図。除外条件選択時の特徴スコアの計算結果を示す図。除外条件選択時の特徴スコアの算出方法を示す図。概念体系更新処理部の処理フローを示す図。概念体系更新処理の詳細を示す図。概念体系を用いた興味スコアの伝播処理を示す図。絞り込み条件に関する全ての選択を確率結合した特徴スコアを示す図。上位概念からの選択経路を特定しない場合の特徴スコアを示す図。除外条件に関する全ての選択を確率結合した特徴スコアを示す図。上位概念からの選択経路を特定しない場合の特徴スコアを示す図。絞り込み条件に関する全ての選択を確率結合した特徴スコアを示す図。上位概念からの選択経路を特定しない場合の特徴スコアを示す図。コンテンツ評価処理部の処理フローを示す図。コンテンツスコアリストの一例を示す図。コンテンツ評価処理の詳細を示す図。条件設定時の興味学習に関する課題を示す図。

以下、図面を参照してこの発明に係る実施の形態について説明する。
図１は、本発明に係る情報推薦システムの全体構成図である。このシステムは、クライアント端末２００と、コンテンツサーバ３００と、興味分析装置１００とを備える。クライアント端末２００とコンテンツサーバ３００との間、及びコンテンツサーバ３００と興味分析装置１００との間はそれぞれ通信ネットワークで接続される。ユーザは、クライアント端末２００上での閲覧操作及び条件指定により、所望のコンテンツをコンテンツサーバ３００から取得し、取得したコンテンツをクライアント端末２００の画面に提示して閲覧することができる。

クライアント端末２００は、ユーザ操作によるコンテンツ閲覧履歴を収集し、複数のコンテンツを一覧として閲覧した一覧閲覧コンテンツリスト（第１のコンテンツリスト）と、コンテンツの一覧からコンテンツの本体を閲覧した詳細閲覧コンテンツリスト（第２のコンテンツリスト）とをコンテンツサーバ３００に送信する。コンテンツサーバ３００は、この一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを、通信ネットワークを介して興味分析装置１００に転送する。

さらに、クライアント端末２００は、ユーザ操作による絞り込み条件あるいは除外条件指定履歴を収集し、ユーザが条件指定時に選択肢として閲覧した一覧閲覧条件リスト（第１の条件リスト）と、一覧閲覧条件リストから条件を選択した条件選択リスト（第２の条件リスト）とをコンテンツサーバ３００に送信する。コンテンツサーバ３００は、この一覧閲覧条件リスト及び条件選択リストを、通信ネットワークを介して興味分析装置１００に転送する。

興味分析装置１００は、この一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをもとに、コンテンツに出現する各概念に対する特徴スコアの算出及びユーザ興味スコアの更新を行い、ユーザの興味を推定する。また、条件指定があった場合は、興味分析装置１００は、一覧閲覧条件リスト及び条件選択リストをもとに、条件として選択した各概念に対する特徴スコアの算出及びユーザ興味スコアの更新を行い、ユーザの興味を推定する。

興味分析装置１００は、上記ユーザ興味スコアに基づいて、コンテンツサーバ３００から受け取った「提示コンテンツリスト」から、ユーザの興味に合わせてソートを行ったコンテンツのリスト（ソート済み提示コンテンツリスト）を生成し、コンテンツサーバ３００に送信する。

例えば、図２に示す事例では、日頃ラーメン店を選択する頻度が高いユーザが、その日に限ってはお酒を飲みたいとの希望を持つ場合、情報提供側は日頃の情報選択履歴に基づきユーザの興味を“ラーメン好き”と推定することになるため、ラーメン店を推薦する。この推薦結果はユーザの“お酒を飲みたい”という興味に合致していない。つまり、ユーザが希望する情報（この例の場合は飲み屋）を提示できない可能性がある。

そこで、本発明では、ユーザの情報選択履歴だけでなく、ユーザが示した明示的な条件指定も併せて考慮し、ユーザがその時点で望む情報を精度良く提示できるようにする。また、ユーザが明示的に行った条件指定の履歴もユーザの興味を推定するために有用な履歴である。従って、ユーザの閲覧履歴を用いた興味推定とユーザが行った条件指定履歴をと用いた興味推定を組み合わせて用いる事により、推薦精度を向上させる。

例えば、図３に示すとおり、情報提供側は特定のユーザに関し「“全ジャンル”の中では“ラーメン”を選択する割合が高い」、「“お酒”の中では“ビール”を選択する割合が高い」、「“ビール”の中では、“エール”を選択する割合が高い」などの履歴に基づきユーザの興味を「“全ジャンル”の中では、“ラーメン好き”」、「“お酒”の中では“ビール”が好き」、「“ビール”の中では“エール”が好き」と推定する。この結果、ユーザによる“お酒を飲みたい”との明示的な条件指定を考慮し、推薦結果を“お酒”のみに限定した上、“お酒”の中でも特に“ビール”を、“ビール”の中でも、特に“エール”を推薦する事ができるため、ユーザが希望する情報（この例の場合は“ビール”、特に“エール”を提供する飲み屋）を提示することができる。

図４は、図１に示す情報推薦システムの各装置の機能構成を示すブロック図である。なお、図４における各部は、例えば、各装置のＣＰＵ（Central Processing Unit）とメモリ上で実行される制御プログラムにより実現することができる。以下、各装置の詳細について説明を行う。

［クライアント端末］
図４において、クライアント端末２００は、履歴収集部２１０、履歴情報送信部２２０、コンテンツ提示部２３０、及びコンテンツ要求送信部２４０、一覧閲覧条件リスト要求送信部２５０、一覧閲覧条件リスト提示部２６０、閲覧条件選択履歴収集部２７０及び条件選択履歴送信部２８０を備える。

コンテンツ要求送信部２４０は、ユーザの指示（入力）によりコンテンツサーバ３００に対して、コンテンツの提示要求を行う。具体的には図５のようなコンテンツ要求データをコンテンツサーバ３００に送信する。例えば、コンテンツ要求データは、ユーザＩＤ（もしくは、クライアント端末ＩＤ）及び要求時刻を有する。なお、要求時刻は、コンテンツサーバ３００において追加するようにしてもよい。ユーザＩＤ（もしくは、クライアント端末ＩＤ）は、端末（もしくはユーザ）毎に一意に付与される数字あるいは文字列であって、後述する概念体系／ユーザ興味スコアデータベース１４０のユーザ興味スコアテーブルのユーザＩＤと一致するＩＤである。

コンテンツ提示部２３０は、コンテンツサーバ３００から受信したソート済み提示コンテンツリストをもとに、クライアント端末２００の表示画面サイズが許容する範囲でソート順の上位から一覧として表示を行う。図６は、クライアント端末２００上でのユーザによるコンテンツ閲覧操作の一例を示したものである。

図６の例では、１０個のコンテンツ（コンテンツ１〜１０）が一覧表示されている。ユーザのフリック、スクロールバーの操作等で一覧によりソート順下位のコンテンツを表示することができる。このように実際にクライアント端末２００に表示されたコンテンツのリストを一覧閲覧コンテンツリストとする。つまり、ソート済み提示コンテンツリスト内のすべてのコンテンツがクライアント端末２００で表示されるとは限らないため、一覧閲覧コンテンツリストに含まれるとは限らない。ユーザがこの一覧から各コンテンツのタイトルをクリック操作等で選択すると、選択されたタイトルのコンテンツ（図６のコンテンツ３，５，６）の本体（詳細）を閲覧することができる。この詳細を閲覧したコンテンツを、詳細閲覧コンテンツリストに含む。

履歴収集部２１０は、上述したように、ユーザの操作履歴を収集して一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを作成する。履歴情報送信部２２０は、履歴収集部２１０により作成された一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをユーザＩＤ（もしくは、クライアント端末ＩＤ）と共にコンテンツサーバ３００に送信する。

図７に、上記図６の場合の一覧閲覧コンテンツリストのデータ構成例を示す。一覧閲覧コンテンツリストは、クラスタＩＤ、コンテンツＩＤ、及び閲覧時刻を有する。クラスタとは、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストに一意に付与される識別子（図７では“１”）である。別の時刻（時間帯）に表示した一覧閲覧コンテンツをユーザが閲覧した場合は、別のクラスタＩＤが付与される。なお、時刻以外の条件でクラスタＩＤを新たに付与する条件としては、一覧閲覧コンテンツリスト表示中に一定時間操作が無かった場合や、閲覧するユーザ（ユーザＩＤ）を切り替えた場合、一覧閲覧コンテンツリストに対して、絞り込み条件、あるいは除外条件の指定により、コンテンツジャンル等を絞り込んだ場合、その他閲覧アプリケーションにおいて閲覧モードを切り替えた場合がある。コンテンツＩＤは、一覧閲覧コンテンツの各コンテンツに一意に付与された識別子であり、後述するコンテンツデータベース１６０が保持する値と一致するものとする。

図８は、上記図６の場合の詳細閲覧コンテンツリストのデータ構成例を示したものである。詳細閲覧コンテンツリストは、上記一覧閲覧コンテンツリストと同様に、クラスタＩＤ、コンテンツＩＤ、及び閲覧時刻を有する。クラスタＩＤは、一覧閲覧コンテンツリストと同一の値とする（図８では“１”）。コンテンツＩＤ及び閲覧時刻は、詳細閲覧コンテンツリストでは、ユーザが一覧閲覧コンテンツから選択して詳細を閲覧したコンテンツ（図８ではコンテンツ３，５，６）の識別子及び当該コンテンツを閲覧した時刻となる。

一覧閲覧条件リスト要求送信部２５０は、ユーザの指示（入力）により、コンテンツサーバ３００に対して、一覧閲覧条件リストの要求を行う。具体的には図９のような条件一覧要求データをコンテンツサーバ３００に送信する。例えば、条件一覧要求データは、種別、パラメータ名、及びパラメータ値を有する。図９（ａ）に示すように、キーワード検索結果から条件を指定する場合の条件一覧要求データは、種別（＝検索）、パラメータ名（＝キーワード）、及びパラメータ値（＝スポーツ）を有する。図９（ｂ）に示すように、一覧から条件を指定する場合の条件一覧要求データは、種別（＝一覧）、パラメータ名（＝表示ルール）、及びパラメータ値（＝昇順）を有する。また、図９（ｃ）に示すように、概念体系から条件を指定する場合の条件一覧要求データは、種別（＝概念）、パラメータ名（＝親概念）、及びパラメータ値（＝スポーツ）を有する。一覧閲覧リスト要求データは、一覧閲覧条件リスト要求転送部３７０により、一覧閲覧条件リスト作成部１８５に送られる。

一覧閲覧条件リスト提示部２６０は、コンテンツサーバ３００を介して興味分析装置１００から送られてくる提示用一覧閲覧条件リストを、クライアント端末２００の表示画面サイズが許容する範囲で一覧表示する。図１０は、クライアント端末２００上でのユーザによる条件閲覧操作の一例を示したものである。図１０（ａ）は、キーワード検索結果から条件を指定する場合、図１０（ｂ）は、一覧から条件を指定する場合を示す。ユーザは、提示された一覧閲覧条件リストの中から絞り込み条件、あるいは除外条件を選択する。なお、絞り込み条件を選択するか、あるいは除外条件を選択するかの指定は、例えば、選択する際のボタンを変更することで区別する。親概念から条件を指定する場合は、後述するように当該親概念の直接の下位概念を抽出した一覧閲覧条件リストから条件を指定する。

閲覧条件選択履歴収集部２７０は、提示された一覧閲覧条件リスト（第１の条件リスト）と、条件の一覧から選択した１つ以上の条件を含む条件選択リスト（第２の条件リスト）を収集する。興味分析装置１００から送られてくる提示用一覧閲覧条件リストに選択肢が多い場合は、クライアント端末２００の画面上に全ての選択肢を画面内に一覧閲覧条件リストとして表示できない場合もある。そのような場合は、画面上に表示されたもののみを一覧閲覧条件リストとみなすこともできる。

条件が階層構造である場合は、条件の設定に関し、選択経路に応じて複数の選択が発生する場合もある。その場合は、発生した選択毎に条件選択リストを送信する。あるいは、図１０に示すように、条件が階層構造を持たず、キーワード検索の結果やアルファベット順などにより並んだ一覧閲覧条件リストから、条件選択リストを選択する場合もある。そのような場合は単一の条件設定リストを送信する。
条件選択履歴送信部２８０は、閲覧条件選択履歴収集部２７０で収集された条件選択履歴をコンテンツサーバ３００を介して興味分析装置１００に送信する。

［コンテンツサーバ］
上記図４において、コンテンツサーバ３００は、コンテンツ送信処理部３１０、ソート済み提示コンテンツリスト受信部３２０、提示コンテンツリスト送信部３３０、提示コンテンツリスト入力部３４０、履歴情報転送部３５０、コンテンツ要求転送部３６０、一覧閲覧条件リスト要求転送部３７０、一覧閲覧条件リスト転送部３８０及び条件選択履歴転送部３９０を備える。

履歴情報転送部３５０は、クライアント端末２００から受信した一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを通信ネットワークを介して興味分析装置１００に転送する。
提示コンテンツリスト入力部３４０には、サービス運用者により、ユーザの利用するクライアント端末２００に提示するコンテンツを一覧にした提示コンテンツリストが入力される。提示コンテンツリスト送信部３３０は、上記入力された提示コンテンツリストを興味分析装置１００へ通信ネットワークを介して送信する。

図１１に、提示コンテンツリストのデータ構成例を示す。提示コンテンツリストは、コンテンツＩＤ、概念ＩＤ／関連度リスト、コンテンツ本体、及びコンテンツ登録時刻を有する。コンテンツＩＤは、各コンテンツに対してコンテンツサーバ３００にて付与される一意のＩＤである。概念ＩＤ／関連度リストは、コンテンツに出現する概念の概念ＩＤ及び当該概念とコンテンツとの関連性の程度を示す値のセットが格納される。概念ＩＤ／関連度リストは、コンテンツ毎に予め設定されており、具体例としては、コンテンツ１（スポーツ記事）には、｛“野球”の概念ＩＤ=１，関連度＝０．５｝、｛“サッカー”の概念ＩＤ=２，関連度＝０．８｝、｛“ゴルフ”の概念ＩＤ=３、関連度＝０．６｝…のように、概念ＩＤと関連度のセットが格納される。

なお、概念ＩＤは、概念体系／ユーザ興味スコアデータベース１４０に格納される値と一致する。関連度は、例えば、０から１までの値とし、大きいほど関連性が強いものとする。関連度は、サービス運用者がコンテンツ登録時に設定する値、若しくは別システムにより算出される値を利用する。

ソート済み提示コンテンツリスト受信部３２０は、興味分析装置１００から提示コンテンツリストの一部又は全部をソートしたソート済み提示コンテンツリストとユーザＩＤ（もしくは、クライアント端末ＩＤ）を受信する。コンテンツ送信処理部３１０は、ソート済み提示コンテンツリストをユーザＩＤ（もしくは、クライアント端末ＩＤ）に該当するクライアント端末２００に送信する。

コンテンツ要求転送部３６０は、クライアント端末２００のコンテンツ要求送信部２４０から送信されるコンテンツ要求データ（図５）を興味分析装置１００に転送する。
また、一覧閲覧条件リスト要求転送部３７０は、クライアント端末２００の一覧閲覧条件リスト要求送信部２５０から送信される条件一覧要求データ（図９）を興味分析装置１００に転送する。

一覧閲覧条件リスト転送部３８０は、後述する興味分析装置１００の一覧閲覧条件リスト作成部１８５で作成される提示用一覧閲覧条件リストをクライアント端末２００に転送する。
条件選択履歴転送部３９０は、クライアント端末２００の条件選択履歴送信部２８０から送られてくる条件選択履歴を興味分析装置１００に転送する。

［興味分析装置］
興味分析装置１００は、履歴情報受信部１１０、特徴スコア算出部１２０、概念体系更新処理部１３０、概念体系／ユーザ興味スコアデータベース１４０、提示コンテンツリスト受信部１５０、コンテンツデータベース１６０、コンテンツ評価処理部１７０、ソート済みコンテンツスコアリスト送信部１８０、一覧閲覧条件リスト作成部１８５及び条件選択履歴受信部１９０を備える。

図１２は、コンテンツ閲覧履歴からユーザの興味を推定する場合の処理概要を示したものである。履歴情報受信部１１０は、クライアント端末２００からの一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをコンテンツサーバ３００を介して受信する。一覧閲覧コンテンツリストとは、例えば、ユーザがコンテンツのタイトルのみを一覧で閲覧したコンテンツのリストである。詳細閲覧コンテンツリストとは、ユーザがコンテンツ本体の内容（詳細）を閲覧したコンテンツのリストである。例えば、図１２において、一覧閲覧コンテンツリストには、コンテンツ１〜８が含まれ、詳細閲覧コンテンツリストには、コンテンツ１，３，４が含まれる。また、図１２において、斜線パターンで示すコンテンツは、概念Ｂがコンテンツ１，６，７，８に出現することを示す。

特徴スコア算出部１２０は、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを利用して概念選択の統計モデルにより各概念の特徴スコア（後述するＺ値）を算出する。
概念体系更新処理部１３０は、上記特徴スコアを用いて概念体系における概念間の関係情報（上位概念及び下位概念）に基づいて各概念に対するユーザ興味スコアを更新する。概念体系のグラフに含まれるノードは概念を表し、リンクは概念間の関係を表す。ユーザ興味スコアは、概念体系における各概念に対応するノードの値として保持する。概念体系において、上位に位置するノードほど抽象的な概念を表し、下位に位置するノードほど具体的な概念を表す。概念体系及び概念ＩＤ（ノード毎に付与される識別子）は、サービス運用者等が事前に設計し定義するものとする。

コンテンツ評価処理部１７０は、評価コンテンツに出現する各概念のユーザ興味スコアを利用して確率結合によってコンテンツに対するユーザの評価スコアを算出する。図１２の例では、コンテンツ１に出現する概念Ｅ，Ｆ，Ｄのユーザ興味スコアを用いて評価コンテンツ１の評価スコアを求めている。

さらに、条件指定があった場合は、例えば、図１３において、絞り込み条件として“お酒”を指定したり、“ワイン”を指定する事に拠り、ユーザの明示的な興味である絞り込み条件を指定する事ができ、例えば、図１４において“お酒”を絞り込み条件に指定した場合、当該概念を絞り込み条件とみなし、絞り込み条件から、少なくとも１つ以上のリンクを持つコンテンツＢ、Ｃ、Ｄ、Ｅを評価対象コンテンツとする。このとき、絞り込み条件以外の特徴スコアも評価に用いる。例えば、図１４において、”ラーメン”の特徴スコアをコンテンツＢの評価に用いる。

また、例えば、図１３において、除外条件候補一覧（“ワイン”、“ビール”、“ウィスキー”）の中から、除外条件として“ウィスキー”を選択する事により、除外条件を指定する事ができ、図１４において“ウィスキー”を除外条件に指定した場合、当該概念を除外条件とみなし、絞り込み条件からのリンクは評価に用いない。例えば、図１４において、除外条件であるウィスキーからコンテンツＥのリンクは評価に用いず、コンテンツＥは他に絞り込み概念からのリンクを持たないため、評価対象から除外する。あるいは、除外条件からのリンクを持つコンテンツを評価対象から除外する場合もある。この場合、コンテンツＤも評価対象から除外する。

以下、興味分析装置１００の各部の詳細について説明する。
（コンテンツデータベース１６０）
図１５にコンテンツデータベース１６０のデータ構造の一例を示す。コンテンツデータベース１６０は、コンテンツテーブルと、ユーザ履歴テーブルとを有する。コンテンツテーブルは、コンテンツＩＤ、概念ＩＤ／関連度リスト、コンテンツ本体、及びコンテンツ登録時刻を有し、提示コンテンツリスト受信部１５０で受信した各値が格納される。

ユーザ履歴テーブルは、コンテンツＩＤ、ユーザＩＤ（クライアント端末ＩＤ）、詳細閲覧総数、詳細閲覧時刻、一覧閲覧総数、一覧閲覧時刻、及び一覧非表示フラグを格納する。詳細閲覧時刻は、詳細閲覧総数が０の場合はｎｕｌｌ、１以上であれば各閲覧の時系列による閲覧時刻のリストを格納する。一覧閲覧時刻は、一覧閲覧総数が０の場合はｎｕｌｌ、１以上であれば各閲覧の時系列による閲覧時刻のリストを格納する。一覧非表示フラグは、まだユーザにクライアント端末の画面上で一覧としても表示／視認していない場合はｆａｌｓｅ、一度でも閲覧した場合はｔｒｕｅを格納する。ユーザ履歴テーブルおいては、ユーザＩＤ毎に全コンテンツＩＤの値を保持する。詳細閲覧総数及び一覧閲覧総数は、上記クラスタＩＤで示される一覧閲覧コンテンツリストが多数受信された場合には過去の履歴の累計を格納する。

例えば、このユーザ履歴テーブルのデータを利用することで、ユーザの閲覧回数に応じて、コンテンツについて、今後の評価（コンテンツ評価処理部１７０での処理時）で評価スコアを下げるようにする。評価スコアの低減方法としては、あるコンテンツに対する閲覧回数をｋとしたとき、当該コンテンツの評価スコアをｋ＋１で割る、或いは評価スコアに重み（例えば０．９）のｋ乗を乗算するなどがある。この処理により、同じコンテンツの反復提示を興味との一致度を加味して低減することができるためユーザの推薦に対する満足度を向上することができる。

（概念体系／ユーザ興味スコア１４０）
図１６に概念体系／ユーザ興味スコアデータベース１４０のデータ構造の一例を示す。概念体系／ユーザ興味スコア１４０は、ルート概念ノードＩＤと、概念体系テーブルと、ユーザ興味スコアテーブルとを有する。ルート概念ノードＩＤとは、概念体系構造において最上位にある概念ノードＩＤである。システム内に１つだけ存在する。概念体系テーブルは、自概念ＩＤ、親概念ＩＤリスト、及び子概念ＩＤリストを格納する。概念体系内の全ての自概念ＩＤは、親概念ＩＤ及び子概念ＩＤ（ただし、自概念が最下位の場合には子概念ＩＤは無し）と紐付けて保存されており、これにより概念構造が定義される。ユーザ興味スコアテーブルは、概念ＩＤ、ユーザＩＤ（もしくは、クライアント端末ＩＤ）、ＴｏｔａｌＺ（ユーザ興味スコア）、Ｘ、及びＹの値を格納する。ＴｏｔａｌＺ、Ｘ、及びＹの定義及び算出方法は後述する。

（提示コンテンツリスト受信部１５０）
提示コンテンツリスト受信部１５０は、コンテンツサーバ３００から上記図１１のような提示コンテンツリストを受信し、コンテンツデータベース１６０に保存する。
（履歴情報受信部１１０）
図１７に、履歴情報受信部１１０の処理フローを示す。ステップＳ１１において、履歴情報受信部１１０は、クライアント端末２００から送信されるユーザＩＤ（もしくは、クライアント端末ＩＤ）、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをコンテンツサーバ３００を介して受信し、特徴スコア算出部１２０へ出力する。

（条件選択履歴受信部１９０）
条件選択履歴受信部１９０は、クライアント端末２００の条件選択履歴送信部２８０から送信される一覧閲覧条件リスト及び条件選択リストをコンテンツサーバ３００を介して受信し、特徴スコア算出部１２０へ出力する。また、条件選択履歴受信部１９０は、条件選択リストを一覧閲覧条件リスト作成部１８５及びコンテンツ評価処理部１７０へ出力する。

（一覧閲覧条件リスト作成部１８５）
一覧閲覧条件リスト作成部１８５は、コンテンツサーバ３００の一覧閲覧条件リスト要求転送部３７０から送られてくる一覧閲覧リスト要求データに基づいて提示用一覧閲覧条件リストを作成する。例えば、図９（ａ）のような条件検索キーワードが送られてきた場合は、当該キーワードに合致する検索結果を示す提示用一覧閲覧条件リストを作成する。図９（ｂ）のような条件一覧要求が送られてきた場合は、条件一覧を例えば名前順に並び替えた提示用一覧閲覧条件リストを作成する。図９（ｃ）のような親概念が送られてきた場合は、概念体系／ユーザ興味スコアデータベース１４０を参照して、当該親概念の直接の下位概念の一覧を抽出した提示用一覧閲覧条件リストを作成する。また、一覧閲覧条件リスト作成部１８５は、条件選択履歴受信部１９０から条件選択リストが入力されると、概念体系／ユーザ興味スコアデータベース１４０を参照して、条件選択リストで指定される条件に該当する下位概念を抽出した提示用一覧閲覧条件リストを作成する。作成された提示用一覧閲覧条件リストは、通信ネットワークを介してコンテンツサーバ３００に送信される。

（特徴スコア算出部１２０）
特徴スコア算出部１２０は、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを利用して、概念選択の統計モデルにより各概念の特徴スコア（後述するＺ値）を算出する。また、特徴スコア算出部１２０は、条件選択履歴受信部１９０から入力される一覧閲覧条件リスト及び条件選択リストを利用して、条件として選択した各概念に対する特徴スコア（後述するＺ´値）を算出する。

（コンテンツ閲覧履歴からの特徴スコア算出処理）
図１８に、特徴スコア算出部１２０の処理フローを示す。特徴スコア算出部１２０には、履歴情報受信部１１０からユーザＩＤ（もしくは、クライアント端末ＩＤ）、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストが入力される。

ステップＳ１２において、特徴スコア算出部１２０は、詳細閲覧コンテンツリスト内の各コンテンツに出現する概念ＩＤをコンテンツデータベース１６０から抽出する。具体的には、図８詳細閲覧コンテンツリストにおいて、各コンテンツＩＤに紐付けされている「概念ＩＤ」を図１５のコンテンツデータベース１６０のコンテンツテーブルから検索する。特徴スコア算出部１２０は、クラスタデータ｛クラスタＩＤ，一覧閲覧コンテンツリスト，詳細閲覧コンテンツリスト｝と、コンテンツＩＤ／概念ＩＤ関連づけリスト｛｛コンテンツＩＤ，｛関連づいている概念ＩＤ，…｝｝，…｝と、出現概念リスト｛概念ＩＤ｝とを生成する。「コンテンツＩＤ／概念ＩＤ関連付けリスト」とは、コンテンツＩＤをもとに検索された概念ＩＤのリストである。「出現概念リスト」とは、一覧閲覧コンテンツリスト、及び詳細閲覧コンテンツリストに含まれる各コンテンツに出現する概念の概念ＩＤを全て列挙したものである。

ステップＳ１３において、特徴スコア算出部１２０は、「出現概念リスト」の各概念ＩＤについて、図１６の概念体系／ユーザ興味スコアデータベース１４０から上位概念を抽出し、上位概念の概念ＩＤを「出現概念リスト」及び「コンテンツＩＤ／概念ＩＤ関連づけリスト」に追加する。

具体的には、特徴スコア算出部１２０は、「出現概念リスト」の概念ＩＤが、図１６の概念体系テーブルから「自概念ＩＤ」と一致するものを検索し、その「親概念ＩＤ」を抽出する。さらに、上記抽出された「親概念ＩＤ」が図１６の概念体系テーブルの「自概念ＩＤ」と一致するものをさがし、その「親概念ＩＤ」も上位概念として抽出し、さらにこの親概念ＩＤリストの概念ＩＤについて概念体系テーブルを参照して親概念リストを抽出する処理を繰り返す。そして、特徴スコア算出部１２０は、上位概念の概念ＩＤを抽出の元になった出現概念の概念ＩＤを有するコンテンツＩＤに関連づける。すなわち、上記抽出された「上位概念」を「元になった概念ＩＤを持っていたコンテンツＩＤ」に対して上位概念が付与されていたと見なして、「出現概念リスト」「コンテンツＩＤ／概念ＩＤ関連づけリスト」に追加する。なお、概念体系階層におけるルート概念の抽出は除外する。

ステップＳ１４において、特徴スコア算出部１２０は、「出現概念リスト」の各概念について出現数を算出し、特徴スコアの算出に必要な分析パラメータを抽出し、分析パラメータリストを生成する。
図１９に、分析パラメータリストのデータ構成例を示す。分析パラメータリストは、クラスタＩＤ毎に、一覧閲覧コンテンツリストのコンテンツ総数Ｓ（第１の総数）、詳細閲覧コンテンツリストのコンテンツ総数ａ（第２の総数）、クラスタＩＤに紐づいた出現概念リスト内の概念ＩＤ毎に算出するＮとｎがある。Ｎ（第１の出現数）は、一覧閲覧コンテンツリストにおいて当該概念ＩＤが付与されているコンテンツ数とする。ｎ（第２の出現数）は詳細閲覧コンテンツリストにおける当該概念ＩＤが付与されているコンテンツ数とする。なお、ステップＳ１３にて追加した上位概念も含めて出現概念リスト内の概念ＩＤすべてについて、Ｎとｎを算出する。

図２０（ａ）に分析パラメータ抽出処理の模式図を示す。例えば、５０個（＝Ｓ）のコンテンツが一覧表示されている中から、ユーザが１０個（＝ａ）のコンテンツの詳細を閲覧した場合を示す。ここで、一覧表示されている５０個のコンテンツのうち「野球」という概念が含まれている記事が１５個（＝Ｎ）あり、ユーザが閲覧した１０個のコンテンツのうち、「野球」という概念が含まれているコンテンツが５個（＝ｎ）あったことを示す。

ステップＳ１５において、特徴スコア算出部１２０は、上記分析パラメータＳ，ａ，Ｎ，ｎを利用して概念ＩＤ毎に特徴スコアＺを算出する。図２１に特徴スコア算出処理の詳細を示す。図２１において、ｉは概念の識別子、ｊは、クラスタＩＤを示す。Ｈ１（第１の確率）は、一覧閲覧コンテンツリストに含まれる一覧閲覧コンテンツの総数Ｓ、一覧閲覧コンテンツのうち概念ｉが出現するコンテンツ数Ｎのとき、詳細閲覧コンテンツをａ個ランダム選択して閲覧した場合に、概念ｉが出現する詳細閲覧コンテンツの数がｎ以上となる累積確率である。Ｈ２（第２の確率）は、一覧閲覧コンテンツリストに含まれる一覧閲覧コンテンツの総数Ｓ、一覧閲覧コンテンツのうち概念ｉが出現するコンテンツ数Ｎのとき、詳細閲覧コンテンツをａ個ランダム選択して閲覧した場合に、概念ｉが出現する詳細閲覧コンテンツの数がｎ以下となる累積確率である。なお、本実施形態では、累積確率Ｈ１及びＨ２は、超幾何分布により求めるが、この手法に限定するものではない。他の分布の例としては、二項分布、正規分布が存在する。

図２０（ｂ）に示すように、例えば、上記の分析パラメータＳ、Ｎ、ａ、ｎを用いて、ユーザが閲覧した１０個のコンテンツのうち、「野球」という概念が含まれるコンテンツが５以上である確率が、「０．１２」であることを示す。ここで、「０．１２」は、累積確率Ｈ１の値に相当する。

なお、Ｈ２の値を使う例として、上記の分析パラメータでｎが０である場合を考える。この場合は、出現数が０以下の場合の確率を算出する。具体的には、図２０（ｂ）において横軸が０の項目の値となるため「０．０２」となる。
そして、特徴スコア算出部１２０は、図２１に示すように、上記算出した累積確率Ｈ１及びＨ２を用いて、標準正規分布の累積分布関数の逆関数により特徴スコアＺを算出する。図２０（ｃ）に示すように、上記Ｈ１を累積確率とする標準正規分布の累積分布関数の逆関数により特徴スコアＺを求める。なお、累積確率としてＨ２を利用する場合には、標準正規分布の累積分布関数の逆関数の返値の符号を負にして特徴スコアＺを求める。この特徴スコアＺを用いて、後述する概念体系更新処理部１３０は、「野球」という概念に対するユーザ興味スコア（ＴｏｔａｌＺ）を求める。

特徴スコア算出部１２０は、更新対象概念リストを生成し、概念体系更新処理部１３０に出力する。「更新対象概念リスト」とは、概念ＩＤ、前記で算出した特徴スコアＺ、及び重みｗのセットである。なお、この更新対象概念リストに出現する概念ＩＤが、次の概念体系更新処理で更新対象のノード（概念）となる。上位概念を追加した出現概念リスト内の概念ＩＤすべてについて、特徴スコアＺと重みｗを算出する。重みｗは、各クラスタＩＤにおいて概念毎に設定される値である。

なお、重みｗは、初期値ｗ＝１とし、ユーザの特徴的な操作等が有った場合に、以下のように値を変化させることができる。例えば、クライアント端末２００において、ユーザに提示されたコンテンツについて、ユーザは、お気に入りコンテンツとして登録や、他ユーザへのお勧め、又はコンテンツへの評価入力ができる。クライアント端末２００が、このような閲覧操作以外の操作履歴を興味分析装置１００に送信できる場合には以下の処理を行う。

特徴スコア算出部１２０は、例えば、コンテンツがお気に入りに登録されたとき、そのコンテンツが含む全ての概念ＩＤについて重みｗをｗ＝１．５のように増加させる。その他にも、コンテンツ閲覧時刻、閲覧時の天気、気温、湿度、季節、曜日、休日、余暇かどうか、閲覧時のユーザ位置情報、スケジューラ、日記等から収集したイベント情報に応じて重みｗの値を変えることもできる。

（条件として選択した各概念に対する特徴スコア算出処理）
また、特徴スコア算出部１２０は、条件選択履歴受信部１９０から入力される一覧閲覧条件リスト及び条件選択リストを利用して、条件として選択した各概念に対する特徴スコア（Ｚ´値）を算出する。

（絞り込み条件が指定された場合）
例えば、図２２の概念体系において、ビール、あるいは赤ワインを絞り込み条件として指定した場合、“ワイン”配下の選択肢（“赤ワイン”、“白ワイン”、“ロゼ”）の中から、“赤ワイン”を絞り込み条件として選択する事が、偶然と比較しどの程度珍しいかの程度、あるいは、“洋酒”配下の選択肢（“ワイン”、“ビール”、“ウィスキー”）の中から、“ビール”を絞り込み条件として選択する事が、偶然と比較しどの程度珍しいかの程度を用いてユーザの興味スコアを推定することができる。

図２３に示すように、絞り込み選択結果が“赤ワイン”の場合、選択経路は“お酒”→“洋酒”→“ワイン”→“赤ワイン”と特定される。絞り込み選択結果が“ビール”の場合、選択経路は“お酒”→“洋酒”→“ビール”と特定される。特徴スコア算出部１２０は、図２３のように特定された選択経路に従い、発生した選択を全て抽出する。図２４に示すように７つの選択履歴が得られ、“お酒”→“洋酒”→“ワイン”→“赤ワイン”から選択１〜４、“お酒”→“洋酒”→“ビール”から選択５〜７のが抽出される。図２４において、選択１は、選択候補“お酒”，“麺類”から選択結果として“お酒”が選択されたことを示している。

特徴スコア算出部１２０は、図２５に示すように、選択１〜７のそれぞれについて、分析パラメータＮ´，Ｓ´，ｎ´，ａ´を抽出し、絞り込み条件選択時の概念出現の希少性を用いた特徴スコアＺ´を算出する。例えば、図２４の選択１では、一覧閲覧条件リストとして選択候補“お酒”，“麺類”（Ｓ´＝２個）が提示されている中から、ユーザが“お酒”（ａ´＝１個）を条件選択リストとして選択した場合を示す。ここで、一覧閲覧条件リストには“お酒”（Ｎ´＝１個）が含まれており、条件選択リストに“お酒”（ｎ´＝１個）が含まれていることを示す。特徴スコアＺ´は、上記図１９に示す算出式において、Ｎ，Ｓ，ｎ，ａをＮ´，Ｓ´，ｎ´，ａ´に置き換えることで算出することができる。

（除外条件が指定された場合）
例えば、図２６の概念体系において、ウィスキーを除外条件として指定した場合、“洋酒”配下の選択肢（“ワイン”、“ビール”、“ウィスキー”）の中から、“ウィスキー”を除外条件として選択する事が、偶然と比較しどの程度珍しいかの程度を用いてユーザの興味スコアを推定することができる。

図２７に示すように、除外選択結果が“ウィスキー”の場合、除外条件の選択経路は、“お酒”→“洋酒”→“ウィスキー”と特定される。特徴スコア算出部１２０は、図２８のように特定された選択経路に従い、上位概念から下位概念を選択するにあたり、発生した選択を全て抽出する。図２８に示すように３つの除外条件選択履歴（選択８〜１０）が得られる。

特徴スコア算出部１２０は、図２９に示すように選択８〜１０のそれぞれについて、分析パラメータＮ´，Ｓ´，ｎ´，ａ´を抽出し、除外条件選択時の概念出現の希少性を用いた特徴スコアＺ´を算出する。但し、与えられた履歴が除外条件選択履歴である場合は、図３０に示す式を用いて特徴スコアＺ´を計算する。つまり、コンテンツ選択履歴を用いて算出された特徴スコアと条件選択履歴を用いて算出された特徴スコアは、同じ興味スコアに統合することができる。

（概念体系更新処理部１３０）
図３１に、概念体系更新処理部１３０の処理フローを示す。概念体系更新処理部１３０には、特徴スコア算出部１２０から、ユーザＩＤ（もしくは、クライアント端末ＩＤ）及び更新対象概念リスト｛クラスタＩＤ，｛概念ＩＤ，特徴スコア＝Ｚ，重み＝ｗ｝，…｝が入力される。

ステップＳ１６において、概念体系更新処理部１３０は、「更新対象概念リスト」の各概念ＩＤのノード値を更新する。図３２に概念体系更新処理部１３０の処理の詳細を示す。概念体系更新処理部１３０は、コンテンツに出現した概念（出現概念）、及びこの出現概念の上位概念の概念ＩＤについて、図３２に示す各概念ｉに対するユーザ興味スコア更新式を用いて、ユーザ興味スコアＴｏｔａｌＺ_ｉｎ，及びＸ_{ｉ（ｎ−１）}，Ｙ_{ｉ（ｎ−１）}の値を求める。そして、図１６の概念体系／ユーザ興味スコアデータベース１４０のユーザ興味スコアテーブルにおいて、概念ＩＤ及び図１８のステップＳ１２で入力されたユーザＩＤ（クライアント端末ＩＤ）に対応するカラムに格納されている各値（ＴｏｔａｌＺ，Ｘ，Ｙ）を更新する。

ここで、Ｘ_{ｉ（ｎ−１）}は、各概念ＩＤ（ここでは識別子ｉで表現）に対する、過去の（前回までの）前記更新対象概念リストの重みｗの二乗の合計である。Ｙ_{ｉ（ｎ−１）}は、同様に各概念ＩＤ（ここでは識別子ｉで表現）に対する、過去の前記更新対象概念リストの重みｗと特徴スコアＺの乗算の合計である。

この、Ｘ，Ｙはユーザ興味スコア（ＴｏｔａｌＺ）計算過程における中間結果を保持することとなり、省メモリ／ストレージを優先させる場合、最低限では各ノードの変数としてＴｏｔａｌＺ，Ｘ，Ｙの３つの実数値を保持することで実現可能である。省メモリ／ストレージを優先させない場合は、算出した各概念、各クラスタの特徴スコアＺをすべて保存することとなる。この場合は、Ｘ，Ｙの保存は不要となる。

図３２において、ｎは、概念体系更新処理が何度目かを示す識別子である。ユーザ興味スコアＴｏｔａｌＺを求める一連の処理は、クラスタＩＤ単位で行なわれ、この一連の処理が行なわれる単位を１度と数えるとき、ｎはこの一連の処理が何度目に行なわれたものであるかを示す識別子である。ｉは、概念ＩＤの識別子である。Ｚ_ｉｎは、概念ｉの各更新処理に利用するＺ値である。なお、上記Ｚ_ｉｊは一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリスト毎のＺ値であり、Ｚ_ｉｊ∈Ｚ_ｉｎの関係である。重みｗ_ｉｎは、概念ｉの各更新処理に利用する重みである。上記重みｗと同じであり、上記特徴スコア算出部１２０で設定したものと同様である。

例えば、ｗ_ｉｎは、お気に入り登録、他ユーザとの共有等の閲覧以外の特殊な操作をユーザが行った場合、及びコンテンツ閲覧時間（閲覧開始から終了までの間隔）、コンテンツと概念の関連度合い、コンテンツ閲覧時刻、閲覧時の天気・気温・湿度・季節・曜日・休日・余暇かどうか、閲覧時のユーザ位置情報、スケジューラ・日記等から収集したイベント情報に応じて値を変化させる。その他サービス利用者、サービス運用者が特に指定した場合にも変化させる。あるいは、概念（若しくは概念グループ）毎に値を変化させることもできる。これにより、例えば、サービス提供者側の判断で、特定の概念の学習を重視するといった設定が可能である。

なお、一定期間過ぎた履歴の影響を低減させるため等のユーザ興味スコアの忘却は、最終更新時から現在の時刻までの時間間隔の閾値を超えた場合に、ＴｏｔａｌＺ，Ｘ，Ｙをそれぞれ減衰させることで実現する。
減衰の計算式の例を示す。例えば、ｋを減衰率（例えばｋ＝０・８）と設定し、以下のように算出することができる。
ＴｏｔａｌＺ（減衰後）＝ｋ×ＴｏｔａｌＺ（現在）
Ｘ（減衰後）＝ｋ^２×Ｘ（現在）
Ｙ（減衰後）＝ｋ^２×Ｙ（現在）
さらに、ステップＳ１７において、概念体系更新処理部１３０は、「更新対象概念リスト」の各概念ＩＤ（出現概念及び上位概念）の下位概念を抽出し、下位概念のノード値を更新する。下位概念の抽出では、「更新対象概念リスト」の各概念ＩＤについて、図１６の概念体系／興味度データベース１４０の概念体系テーブルを参照し、子概念ＩＤリストから概念ＩＤのリストを抽出し、さらに各子概念ＩＤリストの概念ＩＤについて概念体系テーブルを参照して子概念リストを抽出する処理を繰り返す。

下位概念の興味度の更新に利用する特徴スコアＺは、例えば、隣接した親ノードのうち特徴スコアの絶対値が最も大きい値を利用、最も近い上位ノードの値を利用、親ノードの値を平均、または確率結合した値とする。なお、「更新対象概念リスト」のうち、上記ステップＳ１６で更新済みの概念（コンテンツに出現した概念、及び上位概念）のユーザ興味スコアは更新しない。
また、興味概念体系更新処理部１３０は、絞り込み条件または除外条件が指定された場合、特徴スコアＺ´を用いて概念体系における概念間の関係情報（上位概念及び下位概念）に基づいて各概念に対するユーザ興味スコアを更新する。

（絞り込み条件が指定された場合）
興味概念体系更新処理部１３０は、図２５のように算出された各選択についての特徴スコアを、図３３に示すように子孫概念に伝播させる。例えば、“洋酒”について算出された特徴スコア（Ｚ´＝０．６７）を“洋酒”の子ノードにも確率結合により加える。子孫概念に特徴スコアを伝播させ、かつ絞り込み条件選択経路の特定を考慮し、絞り込み条件に関する全ての選択を確率結合すると、図３４に示す結果が得られる。あるいは、図２３に示すような条件選択経路を特定しない場合は、図３５に示す結果が得られる。なお、図３４，図３５中の値は、図１７に示すユーザ興味スコアを算出するために用いる（Ｚ，Ｘ，Ｙ）の値を表す。

（除外条件が指定された場合）
興味概念体系更新処理部１３０は、図２９のように計算された各選択についての特徴スコアを図３６に示すように子孫概念に伝播させる。例えば、“洋酒”について算出された特徴スコア（Ｚ´＝−０．６７）を“洋酒”の子ノードにも確率結合により加える。子孫概念に特徴スコアを伝播させ、かつ除外条件選択経路の特定を考慮し、除外条件に関する全ての選択を確率結合すると、図３６に示す結果が得られる。あるいは、図２７に示すような除外条件選択経路を特定しない場合は、図３７に示す結果が得られる。なお、図３６，図３７中の値は、図３２に示すユーザ興味スコアを算出するために用いる（Ｚ，Ｘ，Ｙ）の値を表す。
さらに、図３４に示す結果と図３６に示す結果を統合すると図３８に示す結果が得られる。図３５に示す結果と図３７に示す結果を統合すると図３９に示す結果を得ることができる。

（コンテンツ評価処理部１７０）
図４０にコンテンツ評価処理部１７０の処理フローを示す。コンテンツ評価処理部１７０には、コンテンツサーバ３００のコンテンツ要求転送部３６０からの通知を入力として、コンテンツデータベース１６０のコンテンツテーブルから図１１のような形式の提示コンテンツリストを読み出して以下のコンテンツ評価処理を行う。コンテンツ要求転送部３６０からはユーザＩＤ（もしくは、クライアント端末ＩＤ）を含む、図５に示すようなコンテンツ要求データを受信する。また、上記提示コンテンツリストについては、サービス運用者もしくはサービス利用者（クライアント端末利用者）の事前設定により、過去何日以内に登録されたコンテンツのみを評価対象とするか（提示コンテンツリストに含めるか）を設定することができる。

ステップＳ２１の分析対象概念フィルタリングでは、サービス運用者又はサービス利用者が、条件選択履歴受信部１９０や事前設定等で特に分析対象の概念ＩＤ、あるいは分析対象から除外する概念ＩＤを指定した場合は、概念体系／興味度データベース１４０を参照し、図１４に示すように、指定された分析対象の概念ＩＤおよび下位の概念ＩＤのみを評価対象とする。あるいは除外条件に指定された概念ＩＤおよび下位の概念ＩＤを評価対象から除外する。コンテンツ評価処理部１７０は、入力された提示コンテンツリストが保持する概念ＩＤについて、事前にサービス運用者又はサービス利用者が設定した条件にしたがってフィルタリングし、「フィルタリング済みコンテンツリスト」を生成する。

例えば、ユーザが、野球に関するコンテンツのレコメンドを求めた場合には、図１６の概念体系テーブルを参照し、野球に対応する概念ＩＤの下位概念のみを分析対象とする。「フィルタリング済みコンテンツリスト」とは上記処理によって、各コンテンツＩＤに紐付けされている概念ＩＤを事前にサービス運用者又はユーザが設定した条件にしたがってフィルタリングしたコンテンツリストである。「フィルタリング済みコンテンツリスト」は、上記図１１の提示コンテンツリストと同じデータ構成である。

ステップＳ２２において、コンテンツ評価処理部１７０は、「フィルタリング済みコンテンツリスト」に含まれるコンテンツの評価スコアを算出し、図４１に示すようなコンテンツスコアリストを生成する。コンテンツスコアリストは、コンテンツＩＤ、評価スコア、コンテンツ本体、及びコンテンツ登録時刻を有する。

図４２に評価スコアの算出方法の一例を示す。例えば、図４２に示すコンテンツ評価式により、コンテンツｘに対する評価スコアＥｎｔｉｔｙＺ_ｘを概念ｉのユーザ興味スコアＴｏｔａｌＺ_ｉ、コンテンツｘと概念ｉとの関連度ｗ_ｉ（もしくは、概念ｉの重要度）、及びコンテンツｘに出現する概念ＩＤの集合ｐを用いて算出することができる。なお、概念の識別子ｉは集合ｐ内の概念ＩＤに対応する。

図４２の算出で利用するユーザ興味スコア（ＴｏｔａｌＺ）は、各コンテンツに関連した概念ＩＤについて、概念体系／ユーザ興味スコアデータベース１４０のユーザ興味スコアテーブル（図１６）から、ユーザＩＤ（もしくは、クライアント端末ＩＤ）をもとに読み出し利用する。図４２において、概念Ｋ、概念Ｂ及び概念Ｄが出現する評価コンテンツ１を評価コンテンツとした場合、概念Ｋ、概念Ｂ及び概念ＤのＴｏｔａｌＺ，ｗを利用して評価スコアＥｎｔｉｔｙＺ_{評価コンテンツ１}＝０．１８と算出できる。一方、概念Ｂのみが出現するコンテンツ２を評価コンテンツとした場合、概念ＢのＴｏｔａｌＺ，ｗを利用して評価スコアＥｎｔｉｔｙＺ_{評価コンテンツ２}＝−０．３と算出できる。評価スコアＥｎｔｉｔｙＺ_ｘの値が大きいコンテンツ１が優先して表示される。

その他にも、評価スコアＥｎｔｉｔｙＺ_ｘは、以下の変形例１〜３の方法により求めることができる。
変形例１としては、ＥｎｔｉｔｙＺ_ｘ=ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）により求める。ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）は、ｉ∈ｐのＴｏｔａｌＺ_ｉ＊ｗ_ｉの最大値を返す関数とする。

変形例２としては、ＥｎｔｉｔｙＺ_ｘの値は、ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）の値が閾値を超えた場合には、ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）の返り値とする。ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）はｉ∈ｐのＴｏｔａｌＺ_ｉ＊ｗ_ｉの最大値を返す関数とする。閾値を超えない場合は、図４２のコンテンツ評価式の結果をＥｎｔｉｔｙＺ_ｘとする。ＭＡＸ（）は、はｉ∈ｐのＴｏｔａｌＺ_ｉ＊ｗ_ｉで最大値を返す関数とする。閾値はサービス運用者が設定する値とする。

変形例３としては、ＴｏｔａｌＺ_ｉが正の値のｉ∈ｐについてのみ取り出し、図４２のコンテンツ評価式で統合した値をＥｎｔｉｔｙＺ_ｘとする。
ステップＳ２３において、コンテンツ評価処理部１７０は、コンテンツスコアリストに含まれるコンテンツを評価スコアＥｎｔｉｔｙＺ_ｘの降順にソートし、ソート済みコンテンツスコアリストをソート済みコンテンツスコアリスト送信部１８０に出力する。

（ソート済みコンテンツスコアリスト送信部１８０）
ソート済みコンテンツスコアリスト送信部１８０は、コンテンツ評価処理部１７０から入力されるソート済みコンテンツスコアリストとユーザＩＤ（もしくは、クライアント端末ＩＤ）を通信ネットワークを介してコンテンツサーバ３００に送信する。

以上述べたように、上記構成によれば、ユーザの選択候補となる一覧リストを定義し、そこからのコンテンツ選択における概念の出現数を分析することで、各概念の出現の希少性を考慮し、且つ一覧から選ばれない概念の履歴特徴を利用することができるため、ユーザの興味を高精度に推定することが可能となる。

さらに、上記ステップＳ１５、ステップＳ１６、ステップＳ１７に示したように、特徴スコアの算出やユーザ興味スコアの算出に際し、閲覧時のユーザの状況や閲覧操作の特徴（お気に入り登録、長時間閲覧等）などを重み係数（重みｗ）を介して反映することができるため、ユーザ興味スコアをさらに精度良く求めることが可能となる。

また、タクソノミ（オントロジ）等で定義された概念をメタタグとして付与したコンテンツ閲覧履歴分析において、概念出現の希少性を合理的に分析に反映することが難しかったため、従来はタクソノミ（オントロジ）構造の深さを一定する等によりコンテンツに付与する概念の抽象度を統一する等のオントロジ構造側の調整が必要があったが、本実施形態では概念出現の希少性を考慮するオントロジ構造によるユーザ興味スコアの更新処理により上位概念が付与されたコンテンツと、下位概念が付与されたコンテンツの閲覧履歴を統合して分析可能となるため、分析に利用するタクソノミ（オントロジ）への制約を低減し、タクソノミ（オントロジ）の維持・運用・管理コストを低減することが可能となる。

さらに、ユーザ興味スコアを用いてコンテンツに対するユーザの評価スコアを算出することで、ユーザの興味に合ったコンテンツを推薦することが可能となる。
また、本実施形態では、ユーザの履歴を用いた興味推定とユーザが行った条件指定履歴を用いた興味推定を組合せ、ユーザがその時点で望む情報を精度良く提示する事ができる。

例えば、図４３に示す例は、ユーザが“ビール”を絞り込み条件として指定した場合であるが、この場合、第１のコンテンツリスト、及び第２のコンテンツリスト共に全て“ビール”のコンテンツとなるため、第２のコンテンツリストが全て“ビール”に関するコンテンツである事は当然であり、ユーザが偶然と比べて比較的“エール”を選ぶ、あるいは、偶然と比べて比較的“ラガー”を選ばないという事実から、“エールが好き”、あるいは“ラガーが嫌い”という興味推定を行う事ができるが、一方、ユーザが絞り込み条件に、“ビール”を指定したとしても”ビール”が好きであるという興味は学習できない。

この課題に対し、本実施形態では、ユーザが絞り込み条件を絞り込み条件の選択候補から選択した場合、絞り込み条件の指定について、偶然と比べて比較的“選ぶ”あるいは、“選ばない”程度を分析し、ユーザの興味を推定するものであって、コンテンツ選択履歴による興味推定と併せて用いる事に拠り、ユーザが絞り込み条件を指定した場合であっても、ユーザの興味を合理的かつ的確に分析可能となる。

例えば、図２２の概念体系において、ビール、あるいは赤ワインを絞り込み条件として指定した場合、“ワイン”配下の選択肢（“赤ワイン”、“白ワイン”、“ロゼ”）の中から、“赤ワイン”を絞り込み条件として選択する事が、偶然と比較しどの程度珍しいかの程度、あるいは、”洋酒”配下の選択肢（“ワイン”、“ビール”、“ウィスキー”）の中から、“ビール”を絞り込み条件として選択する事が、偶然と比較しどの程度珍しいかの程度を用いてユーザの興味スコアを推定することができ、コンテンツ閲覧履歴を用いた興味推定結果と併せて用いる事により興味推定の精度を高める事ができる。

さらに、絞り込み選択結果について、概念体系における上位概念からの絞り込み条件選択経路を特定し、それらの選択についても興味推定に利用することにより、興味推定精度を高めることを目的とするものであって、例えば図２３において、“お酒”、“洋酒”、“ワイン”、“赤ワイン”という順に上位概念から選択を行った場合、“ワイン”配下の選択肢（“赤ワイン”、“白ワイン”、“ロゼ”）の中から、“赤ワイン”を絞り込み条件として選択した事実だけでなく、“お酒”配下の選択肢（“日本のお酒”、“洋酒”、“韓国のお酒”、“中国のお酒”）の中から、“洋酒”を選んだ事実などもさらに加えて分析することにより、興味推定精度を高めることができる。

また、本実施形態では、ユーザが一覧閲覧条件リストから除外条件を選択した場合、偶然と比べて比較的“選ぶ”あるいは、“選ばない”という特徴を活用し、ユーザの興味を推定するものであって、コンテンツ選択履歴による興味推定と併せて用いる事に拠り、ユーザが除外条件を指定した場合であっても、ユーザの興味を合理的かつ的確に分析可能となる。

例えば、図２６の概念体系において、ウィスキーを除外条件として指定した場合、“洋酒”配下の選択肢（“ワイン”、“ビール”、“ウィスキー”）の中から、“ウィスキー”を除外条件として選択する事が、偶然と比較しどの程度珍しいかの程度を用いてユーザの興味スコアを推定することができ、コンテンツ閲覧履歴を用いた興味推定結果と併せて用いる事により興味推定の精度を高める事ができる。

さらに、除外条件選択結果について、概念体系における上位概念からの除外条件選択経路を特定し、それらの選択についても興味推定に利用することにより、興味推定精度を高めることを目的とするものであって、例えば図２７において、“お酒”、“洋酒”、“ウィスキーという順に上位概念から選択を行った場合、“洋酒”配下の選択肢（“ワイン”、“ビール”、“ウィスキー”）の中から、“ウィスキー”を除外条件として選択した事実だけでなく、“お酒”配下の選択肢（“日本のお酒”、“洋酒”、“韓国のお酒”、“中国のお酒”）の中から、“洋酒”を選んだ事実などもさらに加えて分析することにより、興味推定精度を高めることができる。

また、本実施形態では、各選択について算出した特徴スコアを子概念群に同じく適用する。例えば、図３３の例において、洋酒に関する特徴スコアが０．６７と計算された場合、洋酒の子孫概念である“ワイン”や“赤ワイン”についても特徴スコアを同じく加算することにより、興味推定精度を高めることができる。

なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

１００…興味分析装置、２００…クライアント端末、３００…コンテンツサーバ、１１０…履歴情報受信部、１２０…特徴スコア算出部、１３０…概念体系更新処理部、１４０…概念体系／ユーザ興味スコアデータベース、１５０…提示コンテンツリスト受信部、１６０…コンテンツデータベース、１７０…コンテンツ評価処理部、１８０…ソート済みコンテンツスコアリスト送信部、１８５…一覧閲覧条件リスト作成部、１９０…条件選択履歴受信部、２１０…履歴収集部、２２０…履歴情報送信部、２３０…コンテンツ提示部、２４０…コンテンツ要求送信部、２５０…一覧閲覧条件リスト要求送信部、２６０…一覧閲覧条件リスト提示部、２７０…閲覧条件選択履歴収集部、２８０…条件選択履歴送信部、３１０…コンテンツ送信処理部、３２０…ソート済み提示コンテンツリスト受信部、３３０…提示コンテンツリスト送信部、３４０…提示コンテンツリスト入力部、３５０…履歴情報転送部、３６０…コンテンツ要求転送部、３７０…一覧閲覧条件リスト要求転送部、３８０…一覧閲覧条件リスト転送部、３９０…条件選択履歴転送部。

Claims

コンピュータによって複数の概念に対するユーザ興味スコアを体系化した概念体系を用いてユーザの興味を分析する方法であって、
前記概念体系における絞り込み条件の選択候補となる複数の概念を一覧として閲覧した第１の条件リストと、前記第１の条件リストから前記ユーザにより選択された概念から成る第２の条件リストとを取得するステップと、
前記第１の条件リストに含まれる概念ｉの総数を第１の総数、前記第１の条件リストにおいて前記ユーザにより選択された概念ｉが出現する数を第１の出現数、前記第２の条件リストに含まれる概念ｉの総数を第２の総数、前記第２の条件リストにおいて前記ユーザにより選択された概念ｉが出現する数を第２の出現数としたとき、前記第１の総数、前記第１の出現数、及び前記第２の総数の条件下で、前記第１の条件リストから前記ユーザにより選択された概念ｉが前記第２の条件リストに出現する数が、前記第２の出現数以上となる第１の確率及び前記第２の出現数以下となる第２の確率を算出し、前記第１の確率及び前記第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出ステップと、
前記特徴スコアを用いて前記概念ｉに対する前記ユーザ興味スコアを更新する更新ステップと
を有することを特徴とする興味分析方法。
コンピュータによって複数の概念に対するユーザ興味スコアを体系化した概念体系を用いてユーザの興味を分析する方法であって、
前記概念体系における除外条件の選択候補となる複数の概念を一覧として閲覧した第１の条件リストと、前記第１の条件リストから前記ユーザにより選択された概念から成る第２の条件リストとを取得するステップと、
前記第１の条件リストに含まれる概念ｉの総数を第１の総数、前記第１の条件リストにおいて前記ユーザにより選択された概念ｉが出現する数を第１の出現数、前記第２の条件リストに含まれる概念ｉの総数を第２の総数、前記第２の条件リストにおいて前記ユーザにより選択された概念ｉが出現する数を第２の出現数としたとき、前記第１の総数、前記第１の出現数、及び前記第２の総数の条件下で、前記第１の条件リストから前記ユーザにより選択された概念ｉが前記第２の条件リストに出現する数が、前記第２の出現数以上となる第１の確率及び前記第２の出現数以下となる第２の確率を算出し、前記第１の確率及び前記第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出ステップと、
前記特徴スコアを用いて前記概念ｉに対する前記ユーザ興味スコアを更新する更新ステップと
を有することを特徴とする興味分析方法。
前記算出ステップは、前記第２の条件リストに含まれる概念ｉをもとに前記概念体系における選択経路を特定し、前記選択経路に発生する各選択に対応する各概念について前記特徴スコアを算出することを特徴とする請求項１又は２に記載の興味分析方法。
前記更新ステップは、前記特徴スコアを用いて当該概念ｉの下位概念のユーザ興味スコアを更新することを特徴とする請求項１乃至３のいずれか１項に記載の興味分析方法。
１つ以上の概念が出現するコンテンツについて、当該コンテンツに出現する各概念の前記ユーザ興味スコアを用いて、当該コンテンツに対するユーザの評価スコアを算出する評価ステップをさらに有することを特徴とする請求項１乃至４のいずれか１項に記載の興味分析方法。