JP5096400B2 - コンテンツ検索装置、方法及びプログラム - Google Patents

コンテンツ検索装置、方法及びプログラム Download PDF

Info

Publication number
JP5096400B2
JP5096400B2 JP2009084319A JP2009084319A JP5096400B2 JP 5096400 B2 JP5096400 B2 JP 5096400B2 JP 2009084319 A JP2009084319 A JP 2009084319A JP 2009084319 A JP2009084319 A JP 2009084319A JP 5096400 B2 JP5096400 B2 JP 5096400B2
Authority
JP
Japan
Prior art keywords
content
feature information
information
extracted
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009084319A
Other languages
English (en)
Other versions
JP2010237916A (ja
Inventor
浩史 土井
弘利 岩崎
敬祐 宇土
伸洋 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2009084319A priority Critical patent/JP5096400B2/ja
Publication of JP2010237916A publication Critical patent/JP2010237916A/ja
Application granted granted Critical
Publication of JP5096400B2 publication Critical patent/JP5096400B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、画像、音声、テキスト等のコンテンツを検索するコンテンツ検索装置、方法及びプログラムに関する。
ネットワークやデータベース内に存在する膨大な数のコンテンツから、所望のコンテンツを閲覧するための検索装置が広く用いられている。
従来の検索エンジンによりキーワード検索が行われると、多数のコンテンツの候補が検索結果として抽出されるところ、コンテンツの記載が利用者の好みに合わない場合が多い。このような場合、検索エンジンの利用者は、所望のコンテンツを得るために、抽出された多数のコンテンツを順番に確認するか、検索キーワードを変えて検索をやり直す必要があり、検索に時間がかかっていた。
そこで、特許文献1に記載のモバイル端末では、キーワードの候補となる単語をコンテンツから抽出するとともに、抽出されたキーワードを検索時に表示する技術が開示されており、これにより利用者がキーワード入力をする手間を省略することができる。
特開2008−123239号公報
前記特許文献1に記載のモバイル端末では、端末の利用者が所望のコンテンツを得るためには、キーワードを適切に選択する必要があるため、やはりキーワードを考える手間からは解放されない。
また、コンテンツに対する嗜好性は利用者毎に異なっている。例えば、文字数の少ないコンテンツを好む利用者や、画像を見て旅行先を決定したいと考える利用者にとっては、文字数が長い文章から構成されるコンテンツや、画像の少ないコンテンツは読み飛ばす場合が多い。かかる場合には、利用者が読み飛ばす蓋然性が高いコンテンツを抽出する必要性に乏しい。
また、インターネット上のコンテンツでは、コンテンツの最後の部分に「この記事は役に立ちましたか?」といった質問を記載し、回答結果を集計するものがある。しかし、集計結果は他の利用者の参考指標となるに過ぎないし、回答結果が利用者の嗜好と一致するものではないことから、利用者の嗜好に合致したコンテンツを検索するための指標とはなり得ない。
本発明は、従来の問題を解決するためになされたものであり、その目的は、キーワード抽出の手間を省略するとともに、利用者の嗜好に応じたコンテンツを抽出することのできるコンテンツ検索装置を提供することにある。
本発明のコンテンツ検索装置は、コンテンツの情報を記憶するコンテンツ記憶部と、前記コンテンツの特徴を示す特徴情報を抽出する特徴情報抽出部と、前記特徴情報を前記コンテンツに対応づけて記憶する特徴情報記憶部と、少なくとも1つの入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す嗜好性モデルを記憶する嗜好性モデル記憶部と、前記嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定する嗜好推定部と、前記嗜好推定部で推定された前記特徴情報に対応する前記コンテンツを、前記コンテンツ記憶部から抽出するコンテンツ抽出部と、抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記嗜好性モデルを更新する嗜好学習部を備えたことを特徴とする。
この構成により、抽出されたコンテンツに対する評価を繰り返すことで、コンテンツに対する利用者の嗜好性を学習することができるので、検索用のキーワードを入力することなく、利用者の嗜好に応じたコンテンツを抽出することができる。
本発明のコンテンツ検索装置において、入力情報は、抽出された前記コンテンツに対する利用者の肯定的評価及び否定的評価の少なくとも一方を含むことを特徴とする。
この構成により、抽出されたコンテンツに対して肯定的な評価が得られた場合には特徴が類似するコンテンツを抽出し、否定的な評価が得られた場合には特徴が異なるコンテンツを表示するといった制御が可能となり、利用者の嗜好に応じたコンテンツを適切に表示することができる。
本発明のコンテンツ検索装置において、入力情報は、抽出された前記コンテンツの前記特徴情報に対する利用者の評価情報を含むことを特徴とする。
この構成により、以前に抽出されたコンテンツの特徴情報に対する利用者の評価を学習するから、コンテンツの特徴に対する利用者の嗜好性を反映したコンテンツを抽出することができる。
本発明のコンテンツ検索装置において、嗜好推定部は、前記入力情報との関係が所定値よりも小さい前記特徴情報に対しては、前記入力情報から除外することを特徴とする。
ある特徴情報に対する利用者の評価が否定的であることが明らかである場合には、その特徴情報が嗜好性の推定に与える影響は乏しい。このため、この構成により、利用者の嗜好性を推定するプロセスを簡略化することができる。
本発明のコンテンツ検索装置において、入力情報は、抽出された前記コンテンツに対して利用者が評価したときの状況を含むことを特徴とする。
この構成により、例えば昼間にコンテンツ検索を行ったときの嗜好性と、夜間にコンテンツ検索を行ったときの嗜好性を区別して学習することができるから、状況に応じた適切なコンテンツを抽出することができる。
本発明のコンテンツ検索装置において、特徴情報抽出部は、前記コンテンツの特徴が所定条件を満たす場合には、コンテンツの主要な特徴を示す主要特徴情報として抽出し、前記嗜好記憶部は、前記主要特徴情報を含む前記入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す主要嗜好性モデルを記憶し、前記嗜好推定部は、抽出されたコンテンツが前記主要特徴情報を有する場合には、前記主要嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定し、前記嗜好学習部は、抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記主要嗜好性モデルを更新することを特徴とする。
抽出されたコンテンツに顕著な特徴が見られる場合、利用者はその特徴に対する印象が強く残るため、当該コンテンツに対する利用者の評価は、当該主要な特徴に対する評価が支配的になる。このため、この構成により、際だった特徴をもつコンテンツに対する利用者の嗜好性を学習することで、利用者の嗜好に合致したコンテンツを抽出することができる。
抽出すべきコンテンツの特徴情報を算出する方法としては、入力情報をパラメータとする定式化モデルまたは確率推論モデルを用いることができる。また、特徴情報としては、コンテンツの文字数、品詞数、画像数の情報を適用することができる。
本発明の別の態様としてのコンテンツ検索方法は、前記コンテンツの情報をコンテンツ記憶部に記憶し、前記コンテンツの特徴を示す特徴情報を抽出し、前記特徴情報を前記コンテンツに対応づけて特徴情報記憶部に記憶し、少なくとも1つの入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す嗜好性モデルを嗜好性モデル記憶部に記憶し、前記嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定し、推定された前記特徴情報に対応する前記コンテンツを、前記コンテンツ記憶部から抽出し、抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記嗜好性モデルを更新することを特徴とする。この構成によっても、上記の本発明の効果が好適に得られる。
本発明の別の態様としてのコンテンツ検索プログラムは、コンピュータに対し、前記コンテンツの情報をコンテンツ記憶部に記憶するステップと、前記コンテンツの特徴を示す特徴情報を抽出するステップと、前記特徴情報を前記コンテンツに対応づけて特徴情報記憶部に記憶するステップと、少なくとも1つの入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す嗜好性モデルを嗜好性モデル記憶部に記憶するステップと、前記嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定するステップと、推定された前記特徴情報に対応する前記コンテンツを、前記コンテンツ記憶部から抽出するステップと、抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記嗜好性モデルを更新するステップを実行させることを特徴とする。この構成によっても、上記の本発明の効果が好適に得られる。
上記のように、本発明は、利用者の嗜好性モデル及び入力情報に基づいて、抽出すべきコンテンツの特徴情報を推定するとともに、抽出されたコンテンツに対する利用者の評価情報に基づいて嗜好性モデルを更新するので、キーワード抽出の手間を省略するとともに、利用者の嗜好に応じたコンテンツを抽出することのできるという優れた効果を有する。
(第1実施形態)
図1は、本発明の第1実施形態に係るコンテンツ検索装置の構成を示すブロック図である。コンテンツ検索装置10は、図示しないCPU、ROM、RAM、記憶装置及びこれらを接続するデータバス等によって構成されるコンピュータであり、ROMに書き込まれたプログラムに従って、CPUが演算処理を実行することにより、保存されている多数のコンテンツから、利用者の所望するコンテンツを検索するものである。
図1のコンテンツ検索装置10は、コンテンツ収集部11及びコンテンツデータベース(DB)12を備える。コンテンツ収集部11は、例えばインターネットや外部記憶装置を介して、テキスト情報、画像情報、音声情報などから構成されるコンテンツのデータを取得する。
コンテンツDB12は、ハードディスク等から構成される記憶装置であり、コンテンツ収集部11から送られるコンテンツを、コンテンツIDと対応づけて記憶するものである。
コンテンツ検索装置10は、特徴情報抽出部13、コンテンツ分類部14及び特徴情報DB15を備える。特徴情報抽出部13は、コンテンツDB12から読み出されたコンテンツからテキスト情報を抽出するとともに、公知の形態素解析及び構文解析の手法を施すことにより、文字数が多い/少ない、感嘆詞が多い/少ない、形容詞が多い/少ないといった、コンテンツの特徴を示す特徴情報を抽出する。
例えば、コンテンツに含まれる文字数が100文字以上である場合には、文字数が多いコンテンツであると判定する。また、コンテンツの100文字あたりの感嘆詞の数が5以上である場合には、感嘆詞が多いと判定する。形容詞についても、感嘆詞と同様の方法により、多いか少ないかを判定することができる。また、前述したのと異なる方法により、特徴情報を抽出しても良いことはもちろんである。
特徴情報抽出部13は、音声情報から構成されるコンテンツに対しては、公知の音声解析の手法により、当該音声情報をテキスト化して形態素に分類することにより、コンテンツ特徴情報を抽出することができる。
また、特徴情報抽出部13は、読み出されたコンテンツに含まれる画像の数をカウントし、これを基準値と比較することにより、画像数の大小を示す特徴情報を抽出する。
図2は、コンテンツの特徴情報をコンテンツIDと対応づけて示した説明図である。図2において、例えば「文字数」の欄に「1」とあるのは、「文字数:多い」という特徴情報であることを示し、同欄に「0」とあるのは「文字数:少ない」という特徴情報であることを示す。同様に、「感嘆詞」の欄に「1」とあるのは、「感嘆詞:多い」という特徴情報であることを示す。
例えば、コンテンツID「0001」に対応するコンテンツは、「文字数:多い」「感嘆詞:少ない」「形容詞:少ない」…「画像数:少ない」といった特徴情報を有する。また、コンテンツID「0002」に対応するコンテンツは、「文字数:少ない」「感嘆詞:多い」「形容詞:多い」…「画像数:多い」といった特徴情報を有する。
コンテンツ分類部14は、特徴情報が共通するコンテンツをグループ化することでコンテンツを分類するとともに、各々のグループに属するコンテンツのコンテンツIDとを特徴情報DB15に記憶する。
図3は、特徴情報DB15に記憶された特徴情報の一例を示すものである。 図3の例では、コンテンツID「0033」及び「0044」のコンテンツは、「文字数:多い」「感嘆詞:多い」「形容詞:多い」…「画像数:多い」という特徴情報を有することを示す。また、コンテンツID「0055」及び「0066」のコンテンツは、「文字数:多い」「感嘆詞:多い」「形容詞:多い」…「画像数:少ない」という特徴情報を有することを示す。
図1のコンテンツ検索装置10は、コンテンツの特徴情報に対する利用者の嗜好性を推定し、推定された嗜好性に応じたコンテンツを抽出するために、嗜好性モデルDB16とコンテンツ抽出部17とを備える。
嗜好性モデルDB16は、利用者がコンテンツ検索を行ったときの状況(時間帯、コンテンツの既読数)と、特徴情報との関係を示した嗜好性モデルが記憶されている。図4は、コンテンツ検索時の状況から特徴情報を推論する推論モデルを示したものであり、第1実施形態に係る嗜好性モデルは、時間帯(コンテンツを閲覧した時間帯)、既読数(検索を開始してから閲覧したコンテンツ数)の値を入力情報とした場合に、利用者が肯定的な評価をなしたコンテンツの特徴情報(文字数、感嘆詞)の分布を示したものである。なお、以下では、説明を簡略化するために、コンテンツの特徴は文字数及び感嘆詞のみと仮定する。
図5に示すように、この嗜好性モデルは、「文字数」の特徴情報は、時間帯を示す「昼」及び「夜」、コンテンツの既読数を示す「3回以下」「4回以上」の入力情報と関連づけられている。また、「感嘆詞」の特徴情報は、時間帯の入力情報と関連づけられている。図5の推論モデルにおいて、数字が並べられた欄の上側が入力情報を示し、同欄の左側が推定された特徴情報(出力情報)を示す。
例えば、時間帯が「昼」、既読数が「3回以内」の状況下で抽出されたコンテンツのうち、文字数が多いコンテンツに対して5回の肯定的評価がなされ、文字数が少ないコンテンツに対し4回の肯定的な評価がなされたことが示される。また、時間帯が「昼」の状況で抽出されたコンテンツのうち、感嘆詞が多いコンテンツに対して11回の肯定的評価がなされ、感嘆詞が少ないコンテンツに対して8回の肯定的評価がなされたことが示されている。
図1において、コンテンツ抽出部17は、状況検出部18、嗜好学習部19及び嗜好推定部20を備える。また、コンテンツ抽出部17には、抽出されたコンテンツを表示する表示部21と、表示されたコンテンツに対して利用者が肯定的あるいは否定的な評価を入力する操作入力部22が接続されている。
状況検出部18は、コンテンツを抽出する際の時間帯(昼か夜か)、コンテンツ検索装置10にログインして(検索を開始して)からのコンテンツ既読数(3回以内か4回以上か)といった状況情報を取得する。
嗜好学習部19は、コンテンツ抽出時の状況と、抽出されたコンテンツに対する利用者の評価情報とに基づいて、嗜好性モデルDB16内の嗜好性モデルを更新する。嗜好性モデルが図5の状態であり、コンテンツ抽出時の状況が「昼」「3回以内」であり、表示部21に表示された(すなわち、コンテンツ検索装置によって抽出された)コンテンツの特徴情報が「文字数:多い」「感嘆詞:多い」であった場合に、当該コンテンツに対して肯定的な評価がなされると、図6に示すように、「昼」「3回以下」「文字数:多い」の欄に1が加算されるとともに、「昼」「感嘆詞:多い」の欄に1が加算される。これにより、コンテンツ検索時の状況毎に、肯定的に評価された特徴情報の頻度に関する学習が行われる。
嗜好推定部20は、状況検出部18で検出された状況に対応する頻度情報を、嗜好性モデルから抽出し、最も高い頻度情報に対応する出力情報を、次に抽出すべきコンテンツの特徴情報として推定する。例えば、図6の嗜好性モデルが与えられ、コンテンツ抽出時の状況が「昼」「3回」である場合には、「文字数:多い」に6回、「文字数:少ない」に4回の肯定的評価が与えられているから、嗜好推定部20は、頻度の高い「文字数:多い」の特徴情報を、次に抽出すべきコンテンツの特徴情報として推定する。同様に、感嘆詞については、頻度の高い「感嘆詞:多い」の特徴情報を、次に抽出すべきコンテンツの特徴情報として推定する。
コンテンツ抽出部17は、嗜好推定部20によって推定された特徴情報に対応するコンテンツのIDを、特徴情報DB15より読み出し、対応するコンテンツをコンテンツDB12から抽出する。前述の例では、「文字数:多い」「感嘆詞:多い」の特徴情報を有するコンテンツを抽出し、表示部21に送る。
上記構成によるコンテンツ検索装置の動作について、図7のフローチャートを参照して説明する。
コンテンツの抽出を行うために、状況検出部18が現在の時間帯と、利用者のコンテンツ既読数の状況を検出する(S11)。次に、嗜好推定部20は、嗜好性モデルを参照して、検出された状況に対応する頻度情報を抽出し、頻度が最も高い特徴情報を抽出する。嗜好推定部20は、この抽出処理を全ての特徴情報に対して行うことで、次に抽出すべきコンテンツの特徴情報を推定する(S12)。コンテンツ抽出部17は、推定された特徴情報に対応するコンテンツを、コンテンツDB12から読み出して、これを表示部21に表示する(S13)。
コンテンツ検索装置10の利用者は、表示部21に表示されたコンテンツに対して、肯定的あるいは否定的な評価を入力する(S14)。肯定的な評価が入力されると、嗜好学習部19は、検出された状況情報(入力情報)と、表示されたコンテンツの特徴情報(出力情報)とに対応する嗜好性モデルの欄に1を加算する。これにより、嗜好性モデルが更新され、利用者の嗜好性を学習する(S16)。一方、否定的な評価が入力された場合は嗜好性モデルの更新は行われず、再びステップS11に戻って状況情報の検出が行われる。
(第2実施形態)
本発明の第2の実施形態について説明する。第2の実施形態は、前述した状況情報のほかに、特徴情報及びユーザ態度情報を入力情報として、抽出すべきコンテンツの特徴情報を推定するものである。コンテンツ検索装置の基本的な構成は前記第1の実施形態と同様であるため、第1の実施形態と同じ部分については詳細な説明を省略する。
図8は、第2実施形態における推論モデルを示す説明図である。この推論モデルは、入力情報として、コンテンツの既読数を示す「既読数」、特徴情報を示す「文字数」「感嘆詞」、利用者による評価を示す「評価」の情報を含むとともに、推論により得られる出力情報が「文字数」「感嘆詞」の特徴情報であることを示す。
図9は、嗜好性モデルDB16に記憶された嗜好性モデルの一例を示す説明図である。この嗜好性モデルは、所定の状況下で、所定の特徴情報を有するコンテンツを表示し、利用者が所定の評価を行った場合に、次に提示されたコンテンツに対して肯定的な評価が入力された頻度を、出力情報としての特徴情報毎に示したものである。なお、図9において、「評価:○」は肯定的な評価を、「評価:×」は否定的な評価を示す。
図9の例では、「既読数:3回以下」の状況下で「文字数:多い」の特徴情報を有するコンテンツに対する評価が「評価:○」であって、次に表示されたコンテンツが「文字数:多い」の特徴情報を有していた場合、利用者は6回の肯定的評価を行ったこと、同じ入力条件で「文字数:少ない」の特徴情報を有するコンテンツを表示したときに、利用者は4回の肯定的評価を行ったことが示されている。
同様に、「文字数:多い」「感嘆詞:少ない」の特徴情報を有するコンテンツに対する評価が「評価:○」であって、次に「感嘆詞:多い」の特徴情報を有するコンテンツを表示した場合に、利用者は7回の肯定的評価をしたこと、同じ条件のもとで「感嘆詞:少ない」の特徴情報を有するコンテンツを表示したときに、利用者は3回の肯定的評価を行ったことが示されている。
図9の嗜好性モデルが嗜好性モデルDB16に記録されている場合において、「既読数:3回以下」の状況で、前回に表示されたコンテンツが「文字数:多い」「感嘆詞:少ない」の特徴情報を有しており、このコンテンツに対して利用者が肯定的な評価を入力した場合、「文字数:多い」の特徴情報を有するコンテンツに対する肯定的評価の頻度が、「文字数:少ない」の特徴情報のそれよりも多いため、嗜好推定部20は、「文字数:多い」の特徴情報を抽出する。同様にして、嗜好推定部20は、「感嘆詞:多い」の特徴情報を抽出する。
コンテンツ抽出部17は、「文字数:多い」「感嘆詞:多い」の特徴情報を有するコンテンツを抽出し、表示部21に表示する。表示されたコンテンツに対して、利用者が肯定的な評価を入力すると、「既読数:3回以下」「文字数:多い」「感嘆詞:多い」「評価:○」に対応する頻度欄に1を加算する。これにより、利用者の嗜好の学習が行われる。
図10は、2回前及び1回前に表示されたコンテンツの特徴、状況、利用者評価の情報を入力情報として、特徴情報に対する利用者の嗜好性を推論する推論モデルを示したものである。この推論モデルに対応する嗜好性モデルについては、図9で示したモデルを複数組み合わせることで構成することができる。同様に、過去に表示された複数のコンテンツの特徴、状況、利用者評価の情報に対する嗜好性モデルを構築することで、時系列を考慮した嗜好性の推論を行うことができる。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。この実施形態は、コンテンツの顕著な特徴を示す主要特徴情報に基づいて、嗜好性の推論を行うモデルである。この実施形態において、コンテンツ検索装置の基本的な構成については、前記第1の実施形態と同様であるため、詳細な説明は省略する。
特徴情報抽出部13は、コンテンツを解析して特徴情報を抽出するとともに、所定の条件を満たす特徴情報に対しては、当該コンテンツの顕著な特徴を示す主要特徴情報として抽出する。そして、コンテンツ分類部14は、コンテンツIDと主要特徴情報とを対応づけて、特徴情報DB15に記録する。
主要特徴情報と判定する条件としては、例えば、コンテンツに含まれる文字数が30文字未満の場合に、「文字数:30未満」の主要特徴情報を有すると判定される。また、文字数が300文字以上の場合に、「文字数:300以上」の主要特徴情報を有すると判定される。また、感嘆詞の頻度が10回/100文字よりも多い場合には、感嘆詞を主要特徴情報として抽出する。また、文字数及び感嘆詞のいずれも前記条件を満たした場合には、感嘆詞を主要特徴情報として抽出することができる。さらに、文字数及び感嘆詞以外の特徴情報を主要特徴情報と定めることができる。
嗜好性モデルDB16には、特徴情報に対する嗜好性モデルとともに、主要特徴情報に固有の嗜好性モデル(主要嗜好性モデル)が備えられる。この主要嗜好性モデルは、表示されたコンテンツに主要特徴情報が含まれていると判定された場合に嗜好性モデルDB16から読み出され、嗜好性の推定に用いられる。
上記実施形態によるコンテンツ検索装置の動作について、図11のフローチャートを用いて説明する。推論により得られた特徴情報に基づき、抽出されたコンテンツが表示部21に表示される(S21)。利用者は、表示されたコンテンツに対する評価情報を入力する(S22)。その際、コンテンツ抽出部17は、特徴DB15を参照して、表示されたコンテンツに対する主要特徴情報の有無を判定する(S23)。
表示されたコンテンツに主要特徴情報が含まれることが検出されると、嗜好学習部19は、検出された主要特徴情報と対応する主要嗜好性モデルを嗜好性モデルDB16から読み出す。そして、主要嗜好性モデルの該当する部分を加算して、嗜好性モデルを更新する(S25)。
例えば、図9に示す主要嗜好性モデルが与えられ、「既読数:3回以下」「文字数:多い」「評価:○」の入力情報下において、肯定的に評価されたコンテンツに「文字数:400文字以上」の主要特徴情報と「感嘆詞:多い」の特徴情報が含まれることが検出されると、嗜好学習部19は、入力情報として「文字数」が含まれる嗜好性モデルに対しては、「文字数:多い」の対応する箇所に1を加える。
そして、主要特徴情報でない、「感嘆詞」の特徴情報が入力情報として含まれる嗜好性モデルに対しては、「感嘆詞:多い」「感嘆詞:少ない」の対応する箇所に、同じ値(この例では0.5ずつ)を加える。すなわち、入力情報として「感嘆詞」が含まれる「感嘆詞」嗜好性モデルにおいて、入力側が「文字数:多い」「評価:○」であり、出力側が「感嘆詞:多い」に該当する2つの欄(「7」が入力されている欄)に、0.5ずつ加算して、嗜好性モデルを更新する(図12参照)。
そして、嗜好性推定部20は、更新された主要特徴情報に対応する嗜好性モデルと、入力情報とに基づいて、次に表示すべきコンテンツの特徴情報を推定する(S26)。これにより、コンテンツに顕著な特徴に対する利用者の評価を、嗜好性モデルの学習に強く反映させることができる。
一方、表示されたコンテンツに主要特徴情報が含まれていない場合には、上記第2の実施形態で説明したのと同様に、全ての特徴情報に対して同一の条件で、嗜好性モデルの更新が行われる(S27)。そして、更新された嗜好性モデルと入力情報とに基づいて、次に表示すべきコンテンツの特徴情報が推定される(S28)。
この実施例では、主要特徴情報が含まれる場合に、嗜好性モデルへの入力値を変更しているが、主要特徴情報が含まれる場合には適用すべき推論モデル自体を切り替えても良い。例えば、図13に示すように、表示されたコンテンツに「文字数」の主要特徴情報が含まれている場合には、「既読数」「文字数」「評価」のみを入力情報とする(特徴情報のうち、「文字数」以外の「感嘆詞」については入力情報としない)嗜好性モデルに対して、嗜好性の学習を行う。
この場合の嗜好性モデルは、図14に示すとおりであり、図9に示す嗜好性モデルから「感嘆詞」の入力情報を除いたものとなっている。嗜好学習部19は、「既読数」「文字数」「評価」の入力情報に基づいて、次に表示すべきコンテンツの特徴情報を推定する。これにより、主要な特徴以外の特徴に対しては、嗜好性の推定に用いられないから、コンテンツの主要な特徴に対する評価を、嗜好性の推定に強く反映させることができる。
上記実施形態では、主要な特徴情報が検出された場合は、当該主要特徴情報に対応する主要嗜好性モデルに基づいてコンテンツを抽出しているが、これに加えて、主要特徴情報に対応しない通常の嗜好性モデルに基づいてコンテンツを抽出しても良い。この場合は、図15に示すように、主要特徴情報に対応する嗜好性モデルに基づき抽出されたコンテンツ31a〜31dと、通常の嗜好性モデルに基づいて抽出されたコンテンツ32a〜32dとを並べて表示することができる。そして、利用者によって選択されたコンテンツ30が画面中央部分に大きく表示される。このように、複数の嗜好性モデルに基づいて抽出されたコンテンツを並べて表示することで、コンテンツ検索を効果的に行うことができる。
上記実施形態では、全ての特徴情報を入力情報として、利用者の嗜好性を推論しているが(相補型の決定方略)、入力情報との関係が所定値よりも小さく、出力される可能性が低い特徴情報がある場合には、利用者の嗜好性はその特徴情報から外れていると判断し、推論の際に入力情報から除外しても良い(非相補型の決定方略)。例えば、「文字数:多い」と出力される頻度が、「文字数:少ない」と出力される頻度よりも非常に小さい場合(例えば、10%以下)には、「文字列:多い」の特徴情報を有するコンテンツが選択されにくく、推論の際の入力情報として用いられる可能性も低いため、入力情報から除外する。これにより、嗜好推定部20における処理を簡略化できる。
上記実施形態では、肯定評価を受けた頻度に基づいて特徴情報を算出する定式化モデルにより、利用者の嗜好情報を推定する例について説明したが、本発明はこれに限定されることはなく、例えば図16に示す確率推論モデルを用いて利用者の嗜好情報を推定しても良い。
図16の例では、「既読数:3回以下」の状況下で、「文字数:多い」の特徴情報を有するコンテンツに対する評価が「評価:○」であった場合に、「文字数:多い」の特徴情報を有するコンテンツを表示すれば、利用者は60%の確率で肯定的評価を行うことが示される。また、前記と同一の条件で、「文字数:少ない」の特徴情報を有するコンテンツを表示すれば、利用者は40%の確率で肯定的評価を行うことが示されている。
同様に、嗜好性モデルへの入力情報として、「文字数:多い」「感嘆詞:少ない」の特徴情報を有するコンテンツに対する評価が「評価:○」であった場合に、「感嘆詞:多い」の特徴情報を有するコンテンツを表示すれば、利用者は70%の確率で肯定的評価を行うこと、同一条件で「感嘆詞:少ない」の特徴情報を有するコンテンツを表示すれば、利用者は30%の確率で肯定的評価を行うことが示されている。
特徴情報ごとに定められた確率分布を組み合わせることで、コンテンツの全ての特徴情報の組み合わせを出力情報とする確率分布モデルが構成される。嗜好推定部20は、この確率分布モデルに基づいて、次に表示すべきコンテンツを推定することができる。そして、嗜好学習部19は、表示されたコンテンツに対する利用者の評価情報に基づいて確率分布モデルを更新することで、利用者の嗜好性を学習する。
確率推論モデルの他の例としては、例えば、ベイジアンネットワークやニューラルネットワーク等が用いられる。例えば、「文字数」の特徴情報を例にして説明すると、次に表示すべきコンテンツの「文字数」の特徴情報に寄与するデータである、過去に閲覧されたコンテンツの既読数、「文字数」の特徴情報、利用者の評価情報のデータを入力として、ベイジアンネットワークやニューラルネットワークの確率推論モデルを構築し、その推論結果として、次に表示すべきコンテンツの「文字数」の特徴情報が推定される。
次に表示すべきコンテンツの特徴情報に寄与する入力情報としては、図8に挙げた以外にも、利用者の性格、職業、性別、消費特性といった情報を用いることもできる。さらに、確率推論モデルにより推定された特徴情報に対応するコンテンツと、定式化モデルにより推定された特徴情報に対応するコンテンツとを、表示部21に同時にリスト表示することもできる。
上記実施形態では、操作入力部22を介してコンテンツに対する肯定または否定の評価を入力することで、利用者評価情報を検出しているが、本発明はこれに限定されることはなく、例えば、コンテンツの閲覧時間が所定値を超えた場合に肯定の評価が自動的に入力されるようにしても良い。
上記実施形態では、各特徴に対して「多い」「少ない」の2段階の特徴情報を定めているが、例えば「文字数:0〜50」「文字数:50〜100」「文字数:100〜150」のように、多段階の特徴情報を定めても良い。
コンテンツ自体をコンテンツDB12に入力する代わりに、コンテンツの所在情報(URL等)をコンテンツDB12に入力しても良い。
以上に本発明の好適な実施の形態を説明した。しかし、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。
以上のように、本発明にかかるコンテンツ検索装置は、抽出されたコンテンツに対する評価を繰り返すことで、コンテンツに対する利用者の嗜好性を学習することができるので、検索用のキーワードを入力することなく、利用者の嗜好に応じたコンテンツを抽出することのできるという効果を有し、例えばコンテンツ検索サーバとして有用である。
本発明のコンテンツ検索装置の構成を示すブロック図 特徴情報の一覧を示す説明図 特徴情報に応じてコンテンツを分類した例を示す説明図 第1の実施形態における推論モデルを示す説明図 嗜好性モデルの例を示す説明図 嗜好性モデルが更新された例を示す説明図 嗜好性モデルに基づいて特徴情報を推定する手順を示すフローチャート 第2の実施形態における推論モデルを示す説明図 嗜好性モデルの例を示す説明図 第2の実施形態における推論モデルの別の例を示す説明図 第3の実施形態において、嗜好性モデルに基づき特徴情報を推定する手順を示すフローチャート 第3の実施形態において、嗜好性モデルが更新された例を示す説明図 第3の実施形態における、推論モデルの別の例を示す説明図 図13に対応する嗜好性モデルの例を示す説明図 抽出されたコンテンツが表示された様子を示す説明図 確率分布モデルとしての嗜好性モデルの例を示す説明図
10 コンテンツ検索装置
11 コンテンツ収集部
12 コンテンツDB
13 特徴情報抽出部
15 特徴情報DB
16 嗜好性モデルDB
17 コンテンツ抽出部
18 状況検出部
19 嗜好学習部
20 嗜好推定部

Claims (11)

  1. 複数のコンテンツの中から少なくとも1つのコンテンツを検索するコンテンツ検索装置において、
    前記コンテンツの情報を記憶するコンテンツ記憶部と、
    前記コンテンツの特徴を示す特徴情報を抽出する特徴情報抽出部と、
    前記特徴情報を前記コンテンツに対応づけて記憶する特徴情報記憶部と、
    少なくとも1つの入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す嗜好性モデルを記憶する嗜好性モデル記憶部と、
    前記嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定する嗜好推定部と、
    前記嗜好推定部で推定された前記特徴情報に対応する前記コンテンツを、前記コンテンツ記憶部から抽出するコンテンツ抽出部と、
    抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記嗜好性モデルを更新する嗜好学習部を備え
    前記特徴情報抽出部は、前記コンテンツの特徴が所定条件を満たす場合には、コンテンツの主要な特徴を示す主要特徴情報として抽出し、
    前記嗜好記憶部は、前記主要特徴情報を含む前記入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す主要嗜好性モデルを記憶し、
    前記嗜好推定部は、抽出されたコンテンツが前記主要特徴情報を有する場合には、前記主要嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定し、
    前記嗜好学習部は、抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記主要嗜好性モデルを更新することを特徴とするコンテンツ検索装置。
  2. 前記入力情報は、抽出された前記コンテンツに対する利用者の肯定的評価及び否定的評価の少なくとも一方を含むことを特徴とする、請求項1記載のコンテンツ検索装置。
  3. 前記入力情報は、抽出された前記コンテンツの前記特徴情報に対する利用者の評価情報を含むことを特徴とする、請求項1または2記載のコンテンツ検索装置。
  4. 前記嗜好推定部は、前記入力情報との関係が所定値よりも小さい前記特徴情報に対しては、前記入力情報から除外することを特徴とする、請求項3記載のコンテンツ検索装置。
  5. 前記入力情報は、抽出された前記コンテンツに対して利用者が評価したときの状況を含むことを特徴とする、請求項1〜4にいずれか記載のコンテンツ検索装置。
  6. 前記嗜好学習部は、前記主要嗜好性モデルと前記嗜好性モデルとを、異なる条件にて更新することを特徴とする、請求項1〜5のいずれか記載のコンテンツ検索装置。
  7. 前記嗜好性モデルは、前記特徴情報ごとに、前記入力情報をパラメータとして前記特徴情報を算出する定式化モデルであることを特徴とする、請求項1〜6のいずれか記載のコンテンツ検索装置。
  8. 前記嗜好性モデルは、前記入力情報をパラメータとして前記特徴情報を算出する確率推論モデルであることを特徴とする、請求項1〜6のいずれか記載のコンテンツ検索装置。
  9. 前記特徴情報は、前記コンテンツに含まれる文字数、品詞数、画像数のうち、少なくとも1つを含むことを特徴とする、請求項1〜8のいずれか記載のコンテンツ検索装置。
  10. 複数のコンテンツの中から少なくとも1つのコンテンツを検索するコンテンツ検索方法において、コンテンツ検索装置は、
    前記コンテンツの情報をコンテンツ記憶部に記憶し、
    前記コンテンツの特徴を示す特徴情報を抽出し、
    前記特徴情報を前記コンテンツに対応づけて特徴情報記憶部に記憶し、
    少なくとも1つの入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す嗜好性モデルを嗜好性モデル記憶部に記憶し、
    前記嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定し、
    推定された前記特徴情報に対応する前記コンテンツを、前記コンテンツ記憶部から抽出し、
    抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記嗜好性モデルを更新し、
    前記コンテンツの特徴が所定条件を満たす場合には、コンテンツの主要な特徴を示す主要特徴情報として抽出し、
    前記主要特徴情報を含む前記入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す主要嗜好性モデルを記憶し、
    抽出されたコンテンツが前記主要特徴情報を有する場合には、前記主要嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定し、
    抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記主要嗜好性モデルを更新することを特徴とするコンテンツ検索方法。
  11. 複数のコンテンツの中から少なくとも1つのコンテンツを検索するためのプログラムであって、コンピュータに対し、
    前記コンテンツの情報をコンテンツ記憶部に記憶するステップと、
    前記コンテンツの特徴を示す特徴情報を抽出するステップと、
    前記特徴情報を前記コンテンツに対応づけて特徴情報記憶部に記憶するステップと、
    少なくとも1つの入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す嗜好性モデルを嗜好性モデル記憶部に記憶するステップと、
    前記嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定するステップと、
    推定された前記特徴情報に対応する前記コンテンツを、前記コンテンツ記憶部から抽出するステップと、
    抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記嗜好性モデルを更新するステップと、
    前記コンテンツの特徴が所定条件を満たす場合には、コンテンツの主要な特徴を示す主要特徴情報として抽出するステップと、
    前記主要特徴情報を含む前記入力情報と、抽出すべきコンテンツの前記特徴情報との関係を示す主要嗜好性モデルを記憶するステップと、
    抽出されたコンテンツが前記主要特徴情報を有する場合には、前記主要嗜好性モデル及び前記入力情報に基づいて、抽出すべきコンテンツの前記特徴情報を推定するステップと、
    抽出された前記コンテンツに対する利用者の評価情報に基づいて、前記主要嗜好性モデルを更新するステップとを実行させることを特徴とするコンテンツ検索プログラム。
JP2009084319A 2009-03-31 2009-03-31 コンテンツ検索装置、方法及びプログラム Expired - Fee Related JP5096400B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009084319A JP5096400B2 (ja) 2009-03-31 2009-03-31 コンテンツ検索装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009084319A JP5096400B2 (ja) 2009-03-31 2009-03-31 コンテンツ検索装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010237916A JP2010237916A (ja) 2010-10-21
JP5096400B2 true JP5096400B2 (ja) 2012-12-12

Family

ID=43092173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009084319A Expired - Fee Related JP5096400B2 (ja) 2009-03-31 2009-03-31 コンテンツ検索装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5096400B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5460632B2 (ja) * 2011-03-14 2014-04-02 日本電信電話株式会社 情報推薦処理装置、方法及びプログラム
JP5431532B2 (ja) * 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム
JP5723835B2 (ja) * 2012-06-11 2015-05-27 日本電信電話株式会社 興味分析方法、興味分析装置及びそのプログラム
JP6178366B2 (ja) * 2015-07-02 2017-08-09 Necパーソナルコンピュータ株式会社 情報処理システム、情報処理方法、及び、プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3838014B2 (ja) * 2000-09-27 2006-10-25 日本電気株式会社 嗜好学習装置、嗜好学習システム、嗜好学習方法および記録媒体
EP1898320A4 (en) * 2005-06-24 2010-01-20 Pioneer Corp DEVICE FOR SEARCHING FOR MUSIC PIECES, METHOD FOR SEARCHING FOR MUSIC PIECES AND PROGRAM FOR SEARCHING FOR MUSIC PIECES

Also Published As

Publication number Publication date
JP2010237916A (ja) 2010-10-21

Similar Documents

Publication Publication Date Title
US8630972B2 (en) Providing context for web articles
US7313515B2 (en) Systems and methods for detecting entailment and contradiction
WO2016180270A1 (zh) 网页分类方法和装置、计算设备以及机器可读存储介质
CN111310011B (zh) 一种信息推送方法、装置、电子设备及存储介质
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
US20100169331A1 (en) Online relevance engine
US8788503B1 (en) Content identification
US20140379719A1 (en) System and method for tagging and searching documents
CN109582847B (zh) 一种信息处理方法及装置、存储介质
WO2014206151A1 (en) System and method for tagging and searching documents
US11126783B2 (en) Output apparatus and non-transitory computer readable medium
KR20110045519A (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
JP5096400B2 (ja) コンテンツ検索装置、方法及びプログラム
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN103324641B (zh) 信息记录推荐方法和装置
KR101543680B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
AU2013201006B2 (en) Information classification program, information classification method, and information processing apparatus
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
US11132699B2 (en) Apparatuses, method, and computer program for acquiring and evaluating information and noise removal
JP4959603B2 (ja) ドキュメントを解析するためのプログラム,装置および方法
US20190213646A1 (en) Information display program, data transmission program, data-transmitting apparatus, method for transmitting data, information-providing apparatus, and method for providing information
CN113157871A (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN112527963A (zh) 基于词典的多标签情感分类方法及装置、设备、存储介质
US20150154195A1 (en) Method for entity-driven alerts based on disambiguated features

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120920

R150 Certificate of patent or registration of utility model

Ref document number: 5096400

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees