JP6235386B2 - 情報提示装置、情報提示方法およびプログラム - Google Patents

情報提示装置、情報提示方法およびプログラム Download PDF

Info

Publication number
JP6235386B2
JP6235386B2 JP2014057009A JP2014057009A JP6235386B2 JP 6235386 B2 JP6235386 B2 JP 6235386B2 JP 2014057009 A JP2014057009 A JP 2014057009A JP 2014057009 A JP2014057009 A JP 2014057009A JP 6235386 B2 JP6235386 B2 JP 6235386B2
Authority
JP
Japan
Prior art keywords
product
document group
score
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014057009A
Other languages
English (en)
Other versions
JP2015179441A (ja
Inventor
浜田 伸一郎
伸一郎 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2014057009A priority Critical patent/JP6235386B2/ja
Publication of JP2015179441A publication Critical patent/JP2015179441A/ja
Application granted granted Critical
Publication of JP6235386B2 publication Critical patent/JP6235386B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明の実施形態は、情報提示装置、情報提示方法およびプログラムに関する。
電子商取引(EC:Electronic Commerce)のサービスを提供するECシステムの多くは、ユーザがある商品を参照しているときに、その商品に関連する別の商品を併せて提示する商品推薦機能を持つ。商品推薦機能は、ユーザが参照している商品(以下、「第1商品」という。)と同種の商品を購入の選択肢として提示する対立型推薦と、第1商品と調和する別商品(以下、「第2商品」という。)を紹介して、いわゆる“ついで買い”を促す調和型推薦に大別される。このうち調和型推薦は、多くの場合、統計的観点において第1商品と相関性の高い商品を第2商品として提示する仕組みによって実現されている。
調和型推薦においては、第1商品と第2商品との組み合わせ効果をユーザが認識していることが重要である。つまり、第1商品と併せて単に第2商品を提示しただけでは、ユーザがこれらの商品の組み合わせ効果を認識していない場合、第2商品を“ついで買い”する動機付けが生まれない。例えば、秩父のB級グルメとして話題になった「味噌ポテト」を知らないユーザにとっては、「味噌」と併せて「ジャガイモ」が提示されただけでは、これらは奇妙な食材の組み合わせに感じられるだけで、「味噌」のついでに「ジャガイモ」を買おうとする購買意欲は生じない。このため、第2商品を提示する際には、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を併せて提示することが、調和型推薦による販売促進の効果を高める上で有効になると考えられる。
しかし、これまでのECシステムでは、商品単体に関する推薦理由を提示する仕組み(例えばレビュー表示機能など)は持っていても、複数の商品の組み合わせ効果に関する情報を含む推薦理由を提示する仕組みは持っていない。このため、このような組み合わせ効果に関する情報を含む推薦理由を提示する仕組みの構築が求められている。
特開2006−190127号公報
本発明が解決しようとする課題は、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる情報提示装置、情報提示方法およびプログラムを提供することである。
実施形態の情報提示装置は、ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置であり、第1スコア算出部と、第2スコア算出部と、第3スコア算出部と、統合スコア算出部と、提示部と、を備える。第1スコア算出部は、検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する。第2スコア算出部は、検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する。第3スコア算出部は、検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する。統合スコア算出部は、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する。提示部は、前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する。
図1は、第1実施形態の情報提示装置の構成例を示す図である。 図2は、A文書群抽出器の処理手順を示すフローチャートである。 図3は、単語の表現正規化に用いる同意語辞書の一例を示す図である。 図4は、全文書群抽出器の処理手順を示すフローチャートである。 図5は、単語関連度評価器の処理手順を示すフローチャートである。 図6は、単語重要度評価器の処理手順を示すフローチャートである。 図7は、統合スコア算出部の処理手順を示すフローチャートである。 図8は、固有文出力器の処理手順を示すフローチャートである。 図9は、第2実施形態の情報提示装置の構成例を示す図である。 図10は、A文書群抽出器の処理手順を示すフローチャートである。 図11は、A∩B文書群抽出器の処理手順を示すフローチャートである。 図12は、A∩B文書群抽出器の判定例を説明する図である。 図13は、単語関連度評価器の処理手順を示すフローチャートである。 図14は、情報提示装置のハードウェア構成例を示すブロック図である。
以下、実施形態の情報提示装置、情報提示方法およびプログラムを、図面を参照して詳細に説明する。
実施形態の情報提示装置は、ユーザが参照している第1商品に調和する第2商品を推薦する際に、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する。このような推薦理由をあらゆる商品の組み合わせについて予め人手で作成することは困難である。しかし、商品の組み合わせ効果に関する情報は、例えば、各種のWebページ、SNS(Social Networking Service)、ブログなどの文書群に存在する。そこで、本実施形態では、このような文書群から両商品に関する文書群を見つけ出し、さらに商品の組み合わせ効果などの推薦理由としてふさわしい言及箇所を特定してユーザに提示する。なお、以下では説明の簡便化のため、第1商品を商品A、第1商品に関する記載のある文書をA文書、第2商品を商品B、第2商品に関する記載のある文書をB文書、第1商品と第2商品との双方に関する記載のある文書をA∩B文書と呼ぶ。
<第1実施形態>
まず、第1実施形態の情報提示装置について説明する。図1は、第1実施形態の情報提示装置の構成例を示す図である。本実施形態の情報提示装置は、図1に示すように、第1スコア算出部10と、第2スコア算出部20と、第3スコア算出部30と、第4スコア算出部40と、統合スコア算出部50と、提示部60とを備え、文書DB(Database)100から取得した第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を画面200に表示して、ECシステムのサービスを利用しているユーザに提示する。なお、本実施形態の情報処理装置は、ECシステムの機能の一部として実現されることを想定するが、これに限らず、例えばECシステムと連動して動作する独立のシステムあるいは装置として構成されてもよい。
文書DB100は、本実施形態において検索対象とする任意の文書群であり、各種のWebページ、SNS、ブログなどを想定している。また、画面200は、ECシステムのサービスを利用しているユーザの端末装置に表示される画面を想定しており、一般的にはWebブラウザを搭載する端末装置に表示されるWeb画面である。
第1スコア算出部10は、A文書群抽出器11と、単語関連度評価器12とを含む。
A文書群抽出器11は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Aに関する記載のあるA文書をすべて抽出してA文書群15を得る。
単語関連度評価器12は、A文書群15における各単語のヒストグラム(単語ごとの頻度を列挙したデータ)を作成し、各単語のそれぞれについて、A文書群15中の出現頻度に応じた第1スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第1スコアとする。したがって、第1スコアは負の値であり、A文書群15中の出現頻度が高い単語ほど、0に近い高い値の第1スコアが与えられる。
第2スコア算出部20は、B文書群抽出器21と、単語関連度評価器22とを含む。
B文書群抽出器21は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Bについての記載のあるB文書をすべて抽出してB文書群25を得る。
単語関連度評価器22は、B文書群25における各単語のヒストグラムを作成し、各単語のそれぞれについて、B文書群25中の出現頻度に応じた第2スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第2スコアとする。したがって、第2スコアは負の値であり、B文書群25中の出現頻度が高い単語ほど、0に近い高い値の第2スコアが与えられる。
第3スコア算出部30は、A∩B文書群抽出器31と、単語関連度評価器32とを含む。
A∩B文書群抽出器31は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Aと商品Bとの双方についての記載のあるA∩B文書をすべて抽出してA∩B文書群35を得る。
単語関連度評価器32は、A∩B文書群35における各単語のヒストグラムを作成し、各単語のそれぞれについて、A∩B文書群35中の出現頻度に応じた第3スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第3スコアとする。したがって、第3スコアは負の値であり、A∩B文書群中の出現頻度が高い単語ほど、0に近い高い値の第3スコアが与えられる。
第4スコア算出部40は、全文書群抽出器41と、単語重要度評価器42とを含む。
全文書群抽出器41は、文書DB100から文書をすべて抽出して全文書群45を得る。
単語重要度評価器42は、全文書群45における各単語が含まれる文書数のヒストグラムを作成し、各単語のそれぞれについて、全文書群45中における当該単語を含む文書の出現頻度に応じた第4スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語を含む文書の出現頻度は総文書数で割ることで数値を正規化し、logスケールにしてさらに正負を反転させたものを第4スコアとする。したがって、第4スコアは正の値であり、当該単語を含む文書の出現頻度が低いほど高い値の第4スコアが与えられる。
統合スコア算出部50は、A∩B文書群35に含まれる各単語のそれぞれについて、第3スコアと、第1スコアと、第2スコアと、第4スコアとを用いて、後述の式(1)を用いた計算によって統合スコアを算出する。統合スコアは、商品Aと商品Bとの双方に関する話題に対する固有性を表す指標であり、商品Aと商品Bとの双方に関する話題に対する固有性が高い単語ほど、高い値の統合スコアが与えられる。
提示部60は、固有語出力器61と、固有文出力器62とを含む。
固有語出力器61は、統合スコアに基づいて、商品Aと商品Bとの双方に関する話題に対する固有性が高い1以上の重要単語(固有語)を選択し、単語ベースの推薦理由65として画面200に出力する。推薦理由が単語のみでよい場合は、この固有語出力器61が出力する単語ベースの推薦理由65が画面200に表示される。
固有文出力器62は、A∩B文書群35から、固有語出力器61により選択された重要単語(固有語)を多く持つ1以上の文を選択し、文ベースの推薦理由66として画面200に出力する。推薦理由を文とすることが要求される場合は、この固有文出力器62が出力する文ベースの推薦理由66が画面200に表示される。また、固有語出力器61が出力する単語ベースの推薦理由65と、固有文出力器62が出力する文ベースの推薦理由66との双方を画面200に表示させるようにしてもよい。
なお、本実施形態では、固有文出力器62の処理単位を文としているが、固有文出力器62は、文ではなく、フレーズ、パッセージ、パラグラフなどを処理単位としてもよい。この場合も、固有文出力器62の処理単位が変わるだけで、同様の処理により所望のテキストを推薦理由として画面200に表示させることができる。
次に、本実施形態の情報提示装置を構成する上述した各部による処理手順の詳細について説明する。
まず、A文書群抽出器11の処理手順を説明する。A文書群抽出器11の処理は、文書DB100からすべてのA文書を見つけ出すことが目的である。A文書の抽出は、例えば、従来的な方法を用いた単語ベースの検索により行うことができる。一般的な検索処理では、検索対象の文書群のインデックスをあらかじめ作成しておく処理方式を用いるのが一般的である。しかし、本実施形態では説明を簡単にするため、インデックスを作成しないで検索するgrep方式を用いるものとする。
図2は、A文書群抽出器11の処理手順を示すフローチャートである。A文書群抽出器11は、まず、A商品に関するメタデータから商品名を取り出して、これを検索のクエリとする(ステップS101)。
次に、A文書群抽出器11は、クエリの表現正規化を行う(ステップS102)。具体的には、A文書群抽出器11は、まずクエリの表記ゆれ(半全角、日英、送り仮名など)を吸収し、さらに図3に示すような同意語辞書を用いて、クエリ(ここでは商品Aの商品名)を代表的表現に置き換える。例えば、クエリ「スマホ」は「スマートフォン」に置換され、クエリ「パソコン」は「PC」に置換される。
次に、A文書群抽出器11は、文書DB100から文書を1つ取り出す(ステップS103)。そして、A文書抽出器11は、ステップS103で取り出した文書に含まれる各単語に対して、ステップS102と同様の手法により表現正規化を行う(ステップS104)。
次に、A文書群抽出器11は、ステップS104で単語の表現正規化が行われた文書内に、ステップS102で表現正規化が行われたクエリ(つまり商品Aの商品名)が含まれているか確認し、表現正規化されたクエリが含まれていれば、出力するA文書群15に当該文書を追加する(ステップS105)。
次に、A文書群抽出器11は、文書DB100から取り出していない文書があるか否かを判定し(ステップS106)、文書DB100から取り出していない文書があれば(ステップS106:Yes)、ステップS103に戻って以降の処理を繰り返す。一方、文書DB100のすべての文書に対してステップS103〜ステップS105の処理を行っていれば(ステップS106:No)、A文書群抽出器11は、A文書群15を出力し(ステップS107)、一連の処理を終了する。
B文書群抽出器21の処理は、文書DB100からすべてのB文書を見つけ出すことが目的である。B文書の抽出は、A文書の抽出と同様に単語ベースの検索により行う。B文書群抽出器21の処理は、検索に用いるクエリが商品Bの商品名に置き換わり、出力する文書群がB文書群25となるだけで、上述したA文書群抽出器11の処理と同様であるため、詳細な説明は省略する。
A∩B文書群抽出器31の処理は、文書DB100からすべてのA∩B文書を見つけ出すことが目的である。A∩B文書の抽出は、A文書やB文書の抽出と同様に単語ベースの検索により行う。A∩B文書群抽出器31の処理は、検索に用いるクエリが商品Aの商品名と商品Bの商品名のアンド条件となり、出力する文書群がA∩B文書群35となるだけで、上述したA文書群抽出器11やB文書群抽出器21の処理と同様であるため、詳細な説明は省略する。
全文書群抽出器41の処理は、文書DB100から全文書を取り出して、後続処理のためにそれぞれの文書に含まれる各単語の表現正規化を行うことが目的である。
図4は、全文書群抽出器41の処理手順を示すフローチャートである。全文書群抽出器41は、まず、文書DB100から文書を1つ取り出す(ステップS201)。そして、全文書抽出器41は、ステップS201で取り出した文書に含まれる各単語に対して、図2のステップS102と同様の手法により表現正規化を行い(ステップS202)、出力する全文書群45に当該文書を追加する(ステップS203)。
次に、全文書群抽出器41は、文書DB100から取り出していない文書があるか否かを判定し(ステップS204)、文書DB100から取り出していない文書があれば(ステップS204:Yes)、ステップS201に戻って以降の処理を繰り返す。一方、文書DB100のすべての文書に対してステップS201〜ステップS203の処理を行っていれば(ステップS204:No)、全文書群抽出器41は、全文書群45を出力し(ステップS205)、一連の処理を終了する。
次に、単語関連度評価器12の処理手順を説明する。単語関連度評価器12の処理は、A文書群15に含まれる各単語について、商品Aとの関連性を表す第1スコアを算出することを目的とする。本実施形態では、A文書群15における各単語の出現数を総単語数で割りlogスケールに変換することで各単語の対数確率を求め、これを第1スコアとする。これは、単位テキスト量あたりの各単語の頻度を計測していることとなり、情報検索においてよく用いられる指標であるtf(term frequency)を正規化したものと同等と言える。
図5は、単語関連度評価器12の処理手順を示すフローチャートである。単語関連度評価器12は、まず、各単語の出現数を集計するための集計用ヒストグラムを初期化する(ステップS301)。
次に、単語関連度評価器12は、A文書群15から文書を1つ取り出す(ステップS302)。そして、単語関連度評価器12は、ステップS302で取り出した文書内に含まれる単語のヒストグラムを作成し(ステップS303)、得られたヒストグラムを集計用ヒストグラムに加算する(ステップS304)。
次に、単語関連度評価器12は、A文書群15から取り出していない文書があるか否かを判定し(ステップS305)、A文書群15から取り出していない文書があれば(ステップS305:Yes)、ステップS302に戻って以降の処理を繰り返す。一方、A文書群15のすべての文書に対してステップS302〜ステップS304の処理を行っていれば(ステップS305:No)、単語関連度評価器12は、集計用ヒストグラムから各単語の対数確率を割り出す(ステップS306)。具体的には、集計用ヒストグラムが示す各単語の頻度をx、A文書群15中の総単語数をyとすると、対数確率はlog(x/y)である。そして、単語関連度評価器12は、ステップS306で算出した各単語の対数確率を、各単語の第1スコアとして出力し(ステップS307)、一連の処理を終了する。なお、x=0の場合、対数確率は−∞となる。∞や−∞は計算機では直接扱えないため、極端に大きな値や小さな値で代用する方法が考えられる。以降においても∞や−∞を扱う場合は同様の方法を用いればよい。
単語関連度評価器22の処理は、B文書群25に含まれる各単語について、商品Bとの関連性を表す第2スコアを算出することを目的とする。第2スコアは、第1スコアと同様に、B文書群25に含まれる各単語の対数確率である。単語関連度評価器22の処理は、与えられる文書セットがB文書群25に置き換わり、B文書群25に含まれる各単語の対数確率を第2スコアとして出力するだけで、上述した単語関連度評価器12の処理と同様であるため、詳細な説明は省略する。
単語関連度評価器32の処理は、A∩B文書群35に含まれる各単語について、商品Aおよび商品Bの双方との関連性を表す第3スコアを算出することを目的とする。第3スコアは、第1スコアや第2スコアと同様に、A∩B文書群35に含まれる各単語の対数確率である。単語関連度評価器32の処理は、与えられる文書セットがA∩B文書群35に置き換わり、A∩B文書群35に含まれる各単語の対数確率を第3スコアとして出力するだけで、上述した単語関連度評価器12の処理と同様であるため、詳細な説明は省略する。
次に、単語重要度評価器42の処理手順を説明する。単語重要度評価器42の処理は、文書DB100内の各単語が持つ一般的な重要性を表す第4スコアを算出することを目的とする。本実施形態では、単語の重要性の指標として情報検索などでよく用いられるidf(Inverse Document Frequency)を求めて、これを各単語の第4スコアとする。ある単語のidfは,当該単語を含む文書の負の対数確率である。つまり、当該単語を含む文書数をx、全文書数をyとすると、idf=−log(x/y)である。一般的に、めったに出現しない単語(すなわち出現確率の低い単語)は、出現した際に読者に与える情報量が多く重要であると考えられるが、この場合、idfは高い値を示す。
図6は、単語重要度評価器42の処理手順を示すフローチャートである。単語重要度評価器42は、まず、各単語の出現数を集計するための集計用ヒストグラムを初期化する(ステップS401)。
次に、単語重要度評価器42は、全文書群45から文書を1つ取り出す(ステップS402)。そして、単語重要度評価器42は、ステップS402で取り出した文書内に含まれる単語の2値ヒストグラムを作成し(ステップS403)、得られたヒストグラムを集計用ヒストグラムに加算する(ステップS404)。2値ヒストグラムは、1か0の頻度値しか持たないヒストグラムであり、文書内に出現する単語に対して、出現数にかかわらず1が与えられる。
次に、単語重要度評価器42は、全文書群45から取り出していない文書があるか否かを判定し(ステップS405)、全文書群45から取り出していない文書があれば(ステップS405:Yes)、ステップS402に戻って以降の処理を繰り返す。一方、全文書群45のすべての文書に対してステップS402〜ステップS404の処理を行っていれば(ステップS405:No)、単語重要度評価器42は、集計用ヒストグラムから各単語を含む文書の負の対数確率を割り出す(ステップS406)。具体的には、集計用ヒストグラムが示す各単語の頻度x、全文書群45の総文書数をyとすると、負の対数確率は−log(x/y)である。そして、単語重要度評価器42は、各単語のそれぞれについて、ステップS406で算出した当該単語を含む文書の負の対数確率を、各単語の第4スコアとして出力し(ステップS407)、一連の処理を終了する。
次に、統合スコア算出部50の処理手順を説明する。統合スコア算出部50の処理は、A∩B文書群35内の各単語について、商品Aと商品Bとの双方に関する話題に対する固有性(つまり、A∩B文書群35にのみ顕著に出現する単語であるかどうかの度合い)を表す指標となる統合スコアを算出することを目的とする。これにより、商品Aと商品Bとの組み合わせに関する説明にふさわしい単語を見つけることができるようになる。
本実施形態では、統合スコアの計算に下記式(1)を用いるものとする。ただし、下記式(1)のwは単語、ntf(w)は与えられた文書セットにおける単語wの対数確率、idfは全文書群45における単語wを含む文書の負の対数確率である。
Figure 0006235386
式(1)の第1項は、A∩B文書群35における単語wの対数確率を示しており、単語関連度評価器32が出力する第3スコアに相当する。この第1項の値(第3スコア)が高いほど、当該単語wが、A∩B文書群35において多く出現していることを示している。
式(1)の第2項は、A文書群15における単語wの対数確率を示しており、単語関連度評価器12が出力する第1スコアに相当する。この第2項の値(第1スコア)が高いほど、当該単語wがA文書群15において多く出現していることを示している。
式(1)の第3項は、B文書群25における単語wの対数確率を示しており、単語関連度評価器22が出力する第2スコアに相当する。この第3項の値(第2スコア)が高いほど、当該単語wがB文書群25において多く出現していることを示している。
式(1)の第4項は、全文書群45における単語wの希少性を示しており、単語重要度評価器42が出力する第4スコアに相当する。この第4項の値(第4スコア)が高いほど、当該単語wは希少性があり、出現したときの情報量が多く重要な単語であることを示している。
式(1)は、第1項から第2項および第3項を減算して統合スコアを求める計算式となっている。これにより、A∩B文書群35において多く出現し、かつ、A文書群15やB文書群25ではあまり出現していない単語に対し、高い値の統合スコアが与えられることとなる。このことから、統合スコアは、商品Aや商品Bの個別説明ではなく、両商品にまたがる説明にふさわしい度合いを示していると考えられる。なお、第1項を2倍しているのは、第1項から減算している項が2つあるためである。A∩B文書群35、A文書群15、B文書群25のそれぞれで同頻度で出現する単語の固有性は0と考えられるが、式(1)のように第1項を2倍しておくことで、この場合の統合スコアを0とすることができる。ただし、第1項を2倍することは必須ではなく、第1項を2倍せずに第2項および第3項を減算してもよい。
また、式(1)は、第1項から第2項および第3項を減算した値に、さらに第4項を乗算して統合スコアを求める計算式となっている。これにより、各単語の一般的な観点での重要性を加味した統合スコアが得られる。つまり、A文書群15の文書数、B文書群25の文書数、およびA∩B文書群35の文書数が十分でない場合、第4項を乗算せずに各単語の統合スコアを算出すると統合スコアが過適応してしまうリスクがあるが、第4項を乗算することで、このリスクを回避できる。ただし、第4項の乗算は必須ではなく、第4項を乗算せずに統合スコアを算出してもよい。
図7は、統合スコア算出部50の処理手順を示すフローチャートである。統合スコア算出部50は、まず、A∩B文書群35から単語を1つ取り出す(ステップS501)。
次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器32が出力した第3スコアの値を、式(1)の第1項に当てはめる(ステップS502)。
次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器12が出力した第1スコアの値を、式(1)の第2項に当てはめる(ステップS503)。
次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器22が出力した第2スコアの値を、式(1)の第3項に当てはめる(ステップS504)。
次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語重要度評価器42が出力した第4スコアの値を、式(1)の第4項に当てはめる(ステップS505)。
次に、統合スコア算出部50は、式(1)を用いて、ステップS501で取り出した単語の統合スコアを算出する(ステップS506)。
次に、統合スコア算出部50は、A∩B文書群35から取り出していない単語があるか否かを判定し(ステップS507)、A∩B文書群35から取り出していない単語があれば(ステップS507:Yes)、ステップS501に戻って以降の処理を繰り返す。一方、A∩B文書群35に含まれるすべての単語に対してステップS501〜ステップS506の処理を行っていれば(ステップS507:No)、統合スコア算出部50は、各単語の統合スコアを出力し(ステップS508)、一連の処理を終了する。
次に、固有語出力器61の処理手順を説明する。固有語出力器61の処理は、A∩B文書群35に含まれる単語のうち、商品Aと商品Bとの双方に関する話題に対する固有性の高い単語(固有語)を重要単語として選択して出力することを目的とする。本実施形態では、A∩B文書群35に含まれる単語のうち、統合スコアが高い上位k個の単語を重要単語として出力するものとする。
すなわち、固有語出力器61は、統合スコア算出部50から出力された統合スコアを値が高い順にソートし、統合スコアの値が高い順に上記k個の単語を重要単語として選択して出力する。B商品の推薦理由が単語のみでよい場合は、この固有語出力器61が出力する重要単語が、単語ベースの推薦理由65として画面200に表示される。また、推薦理由を文とすることが要求される場合は、固有語出力器61が出力する重要単語が、固有文出力器62に渡される。
次に、固有文出力器62の処理手順を説明する。固有文出力器62の処理は、A∩B文書群35から重要単語を多く含む文を見つけ出し、文ベースの推薦理由66として画面200に出力することを目的とする。本実施形態では、重要単語を最も多く含むA∩B文書群35中の文をベスト文として見つけ出し、文ベースの推薦理由66として画面200に出力するものとする。なお、上述したように、文の代わりにフレーズ、パッセージ、パラグラフなどを推薦理由として画面200に表示させるようにしてもよい。
図8は、固有文出力器62の処理手順を示すフローチャートである。固有文出力器62は、まず、ベスト文およびベストスコアを初期化する(ステップS601)。つまり、文ベースの推薦理由66として最終的に出力するベスト文を空文とし、そのベスト文に含まれる各単語の統合スコアの合計値であるベストスコアを−∞にする。
次に、固有文出力器62は、A∩B文書群35から文を1つ取り出す(ステップS602)。そして、固有文出力器62は、ステップS602で取り出した文に含まれる各単語の統合スコアを合計したものを当該文のスコアとする(ステップS603)。
次に、固有文出力器62は、ステップS603で求めた文のスコアがベストスコアを上回っているか確認し、ベストスコアを上回っていれば、ベスト文およびベストスコアを、当該文とそのスコアで置き換える(ステップS604)。
次に、固有文出力器62は、A∩B文書群35から取り出していない文があるか否かを判定し(ステップS605)、A∩B文書群35から取り出していない文があれば(ステップS605:Yes)、ステップS602に戻って以降の処理を繰り返す。一方、A∩B文書群35に含まれるすべての文に対してステップS602〜ステップS604の処理を行っていれば(ステップS605:No)、固有文出力器62は、ベスト文を文ベースの推薦理由66として出力し(ステップS606)、一連の処理を終了する。
以上、具体的な例を挙げながら説明したように、本実施形態の情報提示装置によれば、商品Aと商品Bとの双方に関する話題に対する固有が高い単語、あるいはその単語を含む文を特定して単語ベースの推薦理由65、あるいは文ベースの推薦理由66として画面200に表示させる。したがって、この情報提示装置を用いることによって、ECシステムを利用するユーザに対して、商品Aと商品Bとの組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる。すなわち、ECシステムを利用するユーザにとっては、本実施形態の情報提示装置により提示される推薦理由を参照することでB商品を購入する動機付けが生まれ、新体験を伴う商品購入がしやすくなり、店舗にとっては販売機会を増やすことができる。
<第2実施形態>
次に、第2実施形態の情報提示装置について説明する。本実施形態では、ECシステムを利用したユーザによるレビュー記事など、ある商品について記載されていることが事前に予測される文書を、検索対象の文書群として用いる。ECシステムは、商品ページごとにユーザによるレビュー記事を管理していることが多い。このようなレビュー記事は、それぞれの商品に対する感想などを記載した文書であるため、推薦理由を見つけ出す対象として有効に利用できる。ただし、各レビュー記事は、レビュー対象の商品ID(商品識別情報)およびレビュー記事を記載したユーザの購入ログがメタデータとして紐付けられているとする。以下、商品IDおよび購入ログと紐付けられたレビュー記事をラベル付き文書と呼ぶ。
第1実施形態では、一般的な文書を検索対象としていたため、A文書、B文書、A∩B文書を検索する手がかりとして、文書内に商品名が含まれているかどうかを用いていた。これに対し本実施形態では、検索対象とする各文書に付与されたレビュー対象の商品ID(レビュー記事に商品名が紐付けられている場合は商品名でもよい)を用いて検索する方法を取る。このため、文書検索エラーを排除できる(第1実施形態では表現揺れなどによるエラーのリスクがある)ほか、単に「おいしかった!また買います」などのように商品名が含まれていない文書であっても、メタデータを用いることで簡単に仕分けを行うことができるメリットがある。ただし、文書に紐付けられている商品IDは1つであるため、A∩B文書を判定するのには工夫が必要である。そこで、本実施形態では、近いタイミングで商品Aと商品Bの両商品を購入したユーザがこれらの商品の購入から近いタイミングで記載したレビュー記事は、両商品への言及を含むレビュー記事である可能性が高いという仮説に基づいて、A∩B文書を特定するようにしている。
図9は、第2実施形態の情報提示装置の構成例を示す図である。第2実施形態の情報提示装置は、図9に示すように、第1実施形態の第1スコア算出部10、第2スコア算出部20および第3スコア算出部30(図1参照)に代えて、第1スコア算出部70、第2スコア算出部80および第3スコア算出部90を備えている。また、第2実施形態の情報提示装置は、検索対象の文書集合として、第1実施形態の文書DB100(図1参照)に代えて、ラベル付き文書DB300を用いる。ラベル付き文書DB300は、上述したように、例えばECシステムを利用したユーザによるレビュー記事の集合であり、各レビュー記事は商品IDおよび購入ログ400と紐付けられている。なお、第2実施形態の情報提示装置におけるその他の構成は、上述した第1実施形態と同様であるため、以下、第1実施形態と共通の構成要素については同一の符号を付して、重複した説明を適宜省略する。
第1スコア算出部70は、A文書群抽出器71と、単語関連度評価器12とを含む。A文書群抽出器71は、商品Aの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からA文書をすべて抽出してA文書群15を得る。単語関連度評価器12は、第1実施形態と共通である。
第2スコア算出部80は、B文書群抽出器81と、単語関連度評価器22とを含む。B文書群抽出器81は、商品Bの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からB文書をすべて抽出してB文書群25を得る。単語関連度評価器22は、第1実施形態と共通である。
第3スコア算出部90は、A∩B文書群抽出器91と、単語関連度評価器92とを含む。
A∩B文書群抽出器91は、商品Aの商品IDおよび商品Bの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からA∩B文書を抽出して確信度付きA∩B文書群95を得る。ここでラベル付き文書DB300から抽出されるA∩B文書は、上述した仮説に基づいて抽出されるレビュー記事などのラベル付き文書であり、その文書に商品Aと商品Bとの双方に関する記述が含まれていることの確信度が与えられたものである。
単語関連度評価器92は、確信度付きA∩B文書群95に含まれる各単語のそれぞれについて、第1実施形態の関連度評価器32と同様に、出現頻度に応じた第3スコアを算出する。ただし、本実施形態では、A∩B文書のそれぞれに商品Aと商品Bとの双方に関する記述が含まれていることの確信度が与えられており、各単語の頻度が、その単語が出現する文書の確信度を用いて計算される点が第1実施形態とは異なる。
次に、本実施形態の情報提示装置において、第1実施形態とは異なる部分の処理手順の詳細について説明する。
まず、A文書群抽出器71の処理手順を説明する。A文書群抽出器71の処理は、ラベル付き文書DB300からすべてのA文書を見つけ出すことが目的である。
図10は、A文書群抽出器71の処理手順を示すフローチャートである。A文書群抽出器71は、まず、A商品に関するメタデータからA商品の商品IDを取り出して、これを検索のクエリとする(ステップS701)。
次に、A文書群抽出器71は、ラベル付き文書DB300から文書を1つ取り出す(ステップS702)。そして、A文書抽出器71は、ステップS701で取り出した文書のラベルがクエリの商品IDと一致するか確認し、一致していれば、出力するA文書群15に当該文書を追加する(ステップS703)。
次に、A文書群抽出器71は、ラベル付き文書DB300から取り出していない文書があるか否かを判定し(ステップS704)、ラベル付き文書DB300から取り出していない文書があれば(ステップS704:Yes)、ステップS702に戻って以降の処理を繰り返す。一方、ラベル付き文書DB300のすべての文書に対してステップS702およびステップS703の処理を行っていれば(ステップS704:No)、A文書群抽出器71は、A文書群15を出力し(ステップS705)、一連の処理を終了する。
B文書群抽出器81の処理は、ラベル付き文書DB300からすべてのB文書を見つけ出すことが目的である。B文書群抽出器81の処理は、検索に用いるクエリが商品Bの商品IDに置き換わり、出力する文書群がB文書群25となるだけで、上述したA文書群抽出器71の処理と同様であるため、詳細な説明は省略する。
次に、A∩B文書群抽出器91の処理手順を説明する。A∩B文書群抽出器91の処理は、ラベル付き文書DB300からA∩B文書を見つけ出すことが目的である。ラベル付き文書DB300内の各ラベル付き文書は1つの商品IDにしか結びついていないため、そのラベル付き文書が商品Aと商品Bとの双方に関する記述を含んでいるかどうかをメタデータだけから判定することはできない。ここで視点を変えて、商品Aと商品Bとを同時あるいは近いタイミングで購入したユーザは、両商品の組合せに意図を持っており、そのようなユーザがそれに近いタイミングで記載したレビュー文書には、両商品の組合せに関する記述が含まれている可能性が高いと考えられる。そこで、本実施形態では、購買ログ400を用いてこの仮説に適合するユーザを選び、このユーザが記載したレビュー記事から、この仮説に適合するレビュー記事を、A∩B文書として抽出する。さらに、このように抽出されたA∩B文書群に対し、商品Aと商品Bとの双方に関する記述が含まれていることの確信度を与えて、確信度付きA∩B文書群95を得る。
図11は、A∩B文書群抽出器91の処理手順を示すフローチャートである。A∩B文書群抽出器91は、まず、購入ログ400から1人のユーザを選択する(ステップS801)。
次に、A∩B文書群抽出器91は、ステップS801で選択したユーザが、所定の第1期間内に商品Aと商品Bを購入していることを示す購入ログのペアをすべて抜き出す(ステップS802)。このときの判定例を図12(a)に示す。上記の第1期間を2日とすると、図12(a)の判定例1のように、ユーザXの購入ログのうち、「11/7 15:20 商品A購入」と「11/7 18:20 商品B購入」のペアは、両商品を購入した時間差が2日以内のため、ステップS802の処理で抜き出される。一方、「11/7 18:20 商品B購入」と「11/10 9:50 商品A購入」のペアは、両商品を購入した時間差が2日を超えるため、ステップS802の処理では抜き出されない。この購入ログのペアの購入時刻の時間差を以下では「購入時間差」と呼ぶ。
次に、A∩B文書群抽出器91は、ステップS802で抜き出した購入ログのペアを1つ取り出す(ステップS803)。そして、A∩B文書群抽出器91は、ラベル付き文書DB300から、ステップS801で選択したユーザによって、ステップS803で取り出した購入ログのペアが示す購入時刻のうちの遅い方の購入時刻から所定の第2期間内に記載された、商品Aまたは商品Bの商品IDをラベルとして持つ文書(レビュー記事)をすべて取り出す(ステップS804)。
このときの判定例を図12(b)に示す。上記の第2期間を3日とすると、図12(b)の判定例2のように、ユーザXが記載したレビュー記事のうち、「11/9 12:00 商品Aレビュー記事」は、「11/7 18:20 商品B購入」の購入ログの購入時刻から3日以内に記載されたレビュー記事であるため、ステップS804の処理で取り出される。一方、「11/11 12:00 商品Aレビュー記事」は、「11/7 18:20 商品B購入」の購入ログの購入時刻から3日経過した後に記載されたレビュー記事であるため、ステップS804の処理では取り出されない。この購入ログの購入時刻とレビュー記載時刻の時間差を以下では「レビュー時間差」と呼ぶ。
次に、A∩B文書群抽出器91は、ステップS803で取り出した購入ログのペアの購入時間差に応じた確信度を、ステップS804で取り出した各文書に対して割り当てる(ステップS805)。例えば、購入ログのペアが同じセッションでの購入の場合の確信度を100%、1時間以内の購入の場合の確信度を90%、2時間以内の購入の場合の確信度を80%、同日購入の場合の確信度を50%といったように、購入時間差が大きいほど低い値となる確信度を与える。なお、本実施形態では、ラベル付き文書DB300から取り出した文書に対し、その文書を取り出す要因となった購入ログのペアの購入時間差に応じた確信度を与えるようにしているが、確信度を与える方法はこれに限らない。例えば、ラベル付き文書DB300から取り出した文書に対して、レビュー時間差が大きくなるほど低い値となる確信度を与えるようにしてもよいし、購入時間差とレビュー時間差との双方を考慮した確信度を与えるようにしてもよい。
次に、A∩B文書群抽出器91は、ステップS805の処理により得られた確信度付き文書を、出力する確信度付きA∩B文書群95に追加する(ステップS806)。
次に、A∩B文書群抽出器91は、ステップS803で取り出していない購入ログのペアがあるか否かを判定し(ステップS807)、取り出していない購入ログのペアがあれば(ステップS807:Yes)、ステップS803に戻って以降の処理を繰り返す。一方、すべての購入ログのペアに対してステップS803〜ステップS806の処理を行っていれば(ステップS807:No)、A∩B文書群抽出器91は、ステップS801で選択していないユーザがいるか否かを判定し(ステップS808)、選択していないユーザがいれば(ステップS808:Yes)、ステップS801に戻って以降の処理を繰り返す。
一方、購入ログに含まれるすべてのユーザを選択してステップS802〜ステップS806の処理を行っていれば(ステップS808:No)、A∩B文書群抽出器91は、確信度付きA∩B文書群95を出力し(ステップS809)、一連の処理を終了する。
次に、単語関連度評価器92の処理手順を説明する。単語関連度評価器92の処理は、確信度付きA∩B文書群95に含まれる各単語のそれぞれについて、第1実施形態の単語関連度評価器32と同様に、商品Aおよび商品Bの双方との関連性を表す第3スコアを算出することを目的とする。ただし、A∩B文書には確信度が与えられているため、それに伴う処理が第1実施形態の単語関連度評価器32とは異なる。
図13は、単語関連度評価器92の処理手順を示すフローチャートである。単語関連度評価器92は、まず、各単語の出現数を集計するための集計用ヒストグラムおよび総単語数を初期化する(ステップS901)。総単語数は、後述のように確信度付きA∩B文書群95に含まれる総単語数を文書の確信度に応じて調整した値である。
次に、単語関連度評価器92は、確信度付きA∩B文書群95から文書を1つ取り出す(ステップS902)。そして、単語関連度評価器92は、ステップS902で取り出した文書内に含まれる単語のヒストグラムを作成する(ステップS903)。ただし、この際、各単語に与えられる頻度は、実際の頻度に確信度を積算したものとする。例えば確信度が50%の文書において、単語Aが10回、単語Bが6回、単語Cが4回出現したとすると、単語Aに与える頻度は5回、単語Bに与える頻度は3回、単語Cに与える頻度は2回となる。
次に、単語関連度評価器92は、ステップS903で得られたヒストグラムを集計用ヒストグラムに加算する(ステップS904)。また、単語関連度評価器92は、当該文書の単語数に確信度を積算した値を総単語数に加算する(ステップS905)。例えば、当該文書の単語数が1000、確信度が50%であれば、加算する単語数は500となる。
次に、単語関連度評価器92は、確信度付きA∩B文書群95から取り出していない文書があるか否かを判定し(ステップS906)、確信度付きA∩B文書群95から取り出していない文書があれば(ステップS906:Yes)、ステップS902に戻って以降の処理を繰り返す。一方、確信度付きA∩B文書群95のすべての文書に対してステップS902〜ステップS905の処理を行っていれば(ステップS906:No)、単語関連度評価器92は、集計用ヒストグラムから各単語の対数確率を割り出す(ステップS907)。具体的には、集計用ヒストグラムが示す各単語の頻度をx、確信度付きA∩B文書群95の総単語数(ステップS905で加算された総単語数)をyとすると、対数確率はlog(x/y)である。そして、単語関連度評価器92は、ステップS907で算出した各単語の対数確率を、各単語の第3スコアとして出力し(ステップS908)、一連の処理を終了する。
なお、単語関連度評価器92において、上述した購入時間差やレビュー時間差に応じた確信度に基づく処理を行う方法を用いる場合、A∩B文書群抽出器91においてA∩B文書群を抽出する際に、第1期間や第2期間を用いた閾値処理を必ずしも行わなくてもよい。A∩B文書群抽出器91において閾値処理を行わなければ、非常に大きな購入時間差やレビュー時間差を持つレビュー記事も抽出されるが、そのようなレビュー記事には非常に小さな確信度が与えられるためである。閾値処理を行わなければ抽出されるレビュー記事が増大するため計算量が増えるが、閾値処理によるレビュー記事の取りこぼしを回避することができる。
本実施形態の情報提示装置におけるその他の処理は、上述した第1実施形態と同様である。つまり、本実施形態の情報提示装置においても、統合スコア算出部50により、確信度付きA∩B文書群95に含まれる各単語について統合スコアが算出され、固有語出力器61により、統合スコアが高い重要単語が単語ベースの推薦理由65として画面200に出力され、固有文出力器62により、重要単語を多く含む文が文ベースの推薦理由66として画面200に出力される。
したがって、本実施形態の情報提示装置を用いることによって、ECシステムを利用するユーザに対して、商品Aと商品Bとの組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる。すなわち、ECシステムを利用するユーザにとっては、本実施形態の情報提示装置により提示される推薦理由を参照することでB商品を購入する動機付けが生まれ、新体験を伴う商品購入がしやすくなり、店舗にとっては販売機会を増やすことができる。
以上説明した第1実施形態または第2実施形態の情報提示装置における上述した各機能は、例えば、情報提示装置において所定のプログラムを実行することにより実現することができる。この場合、情報提示装置は、例えば図14に示すように、CPU(Central Processing Unit)510などのプロセッサ、ROM(Read Only Memory)520やRAM(Random Access Memory)530などの記憶装置、表示器や各種操作デバイスが接続される入出力I/F540、ネットワークに接続して通信を行う通信I/F550、各部を接続するバス560などを備えた、通常のコンピュータを利用したハードウェア構成とすることができる。
上述した情報提示装置で実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、上述した情報提示装置で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の情報提示装置で実行されるプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。
また、上述した情報提示装置で実行されるプログラムを、ROM520などに予め組み込んで提供するように構成してもよい。
上述した情報提示装置で実行されるプログラムは、情報提示装置の各処理部(第1スコア算出部10,70、第2スコア算出部20,80、第3スコア算出部30,90、第4スコア算出部40、統合スコア算出部50および提示部60)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU510(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がRAM530(主記憶)上にロードされ、上述した各処理部がRAM530(主記憶)上に生成されるようになっている。なお、実施形態の情報提示装置は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
10,70 第1スコア算出部
20,80 第2スコア算出部
30,90 第3スコア算出部
40 第4スコア算出部
50 統合スコア算出部
60 提示部

Claims (8)

  1. ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置であって、
    検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する第1スコア算出部と、
    検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する第2スコア算出部と、
    検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する第3スコア算出部と、
    前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する統合スコア算出部と、
    前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する提示部と、を備える情報提示装置。
  2. 前記第1スコア算出部は、検索対象の文書群から前記第1商品を表す記述を含む前記第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1文書群における該単語の出現頻度が高いほど高い値となる前記第1スコアを算出し、
    前記第2スコア算出部は、検索対象の文書群から前記第2商品を表す記述を含む前記第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2文書群における該単語の出現頻度が高いほど高い値となる前記第2スコアを算出し、
    前記第3スコア算出部は、検索対象の文書群から前記第1商品を表す記述と前記第2商品を表す記述との双方を含む前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項1に記載の情報提示装置。
  3. 検索対象の文書群に含まれる各単語のそれぞれについて、検索対象の文書群における該単語を含む文書の出現頻度が低いほど高い値となる第4スコアを算出する第4スコア算出部をさらに備え、
    前記統合スコア算出部は、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算した値に、さらに前記第4スコアを積算または加算して、前記統合スコアを算出する、請求項2に記載の情報提示装置。
  4. 検索対象の文書群は、商品の識別情報と関連付けられた文書群であり、
    前記第1スコア算出部は、検索対象の文書群から前記第1商品の識別情報に関連付けられた前記第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1文書群における該単語の出現頻度が高いほど高い値となる前記第1スコアを算出し、
    前記第2スコア算出部は、検索対象の文書群から前記第2商品の識別情報に関連付けられた前記第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2文書群における該単語の出現頻度が高いほど高い値となる前記第2スコアを算出し、
    前記第3スコア算出部は、検索対象の文書群から、前記第1商品と前記第2商品の双方を購入したユーザによって記載された、前記第1商品の識別情報または前記第2商品の識別情報に関連付けられた前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項1に記載の情報提示装置。
  5. 前記第3スコア算出部は、検索対象の文書群から、前記第1商品と前記第2商品の双方を所定の第1期間内に購入したユーザによって、前記第1商品または前記第2商品の購入時から所定の第2期間内に記載された、前記第1商品の識別情報または前記第2商品の識別情報に関連付けられた前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項4に記載の情報提示装置。
  6. 前記第3スコア算出部は、前記第3文書群に含まれる各文書について、前記第1商品と前記第2商品の購入時間の差、あるいは、前記第1商品または前記第2商品の購入時から該文書が記載された時刻までの時間差をもとに、該文書に前記第1商品と前記第2商品の双方についての記述が含まれていることの確信度を設定し、前記第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度に応じたスコアに対して、該単語を含む文書に設定した確信度を積算または加算し、前記第3スコアを算出する、請求項4または5に記載の情報提示装置。
  7. ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置により実行される情報提示方法であって、
    前記情報提示装置が、検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する工程と、
    前記情報提示装置が、検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する工程と、
    前記情報提示装置が、検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する工程と、
    前記情報提示装置が、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する工程と、
    前記情報提示装置が、前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する工程と、を含む情報提示方法。
  8. コンピュータに、
    検索対象の文書群からユーザが参照している第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する機能と、
    検索対象の文書群から前記第1商品に調和する第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する機能と、
    検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する機能と、
    前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する機能と、
    前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由として提示する機能と、を実現させるためのプログラム。
JP2014057009A 2014-03-19 2014-03-19 情報提示装置、情報提示方法およびプログラム Expired - Fee Related JP6235386B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014057009A JP6235386B2 (ja) 2014-03-19 2014-03-19 情報提示装置、情報提示方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014057009A JP6235386B2 (ja) 2014-03-19 2014-03-19 情報提示装置、情報提示方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015179441A JP2015179441A (ja) 2015-10-08
JP6235386B2 true JP6235386B2 (ja) 2017-11-22

Family

ID=54263424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014057009A Expired - Fee Related JP6235386B2 (ja) 2014-03-19 2014-03-19 情報提示装置、情報提示方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6235386B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089364B2 (en) 2014-10-31 2018-10-02 Kabushiki Kaisha Toshiba Item recommendation device, item recommendation method, and computer program product
CN108259546A (zh) * 2017-01-16 2018-07-06 广州市动景计算机科技有限公司 消息推送方法、设备及可编程设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5018148B2 (ja) * 2007-03-09 2012-09-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2009064187A (ja) * 2007-09-05 2009-03-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010113557A (ja) * 2008-11-07 2010-05-20 Nippon Telegr & Teleph Corp <Ntt> レコメンデーション装置、レコメンデーション方法およびレコメンデーションプログラム
JP2012027845A (ja) * 2010-07-27 2012-02-09 Sony Corp 情報処理装置、関連文提供方法、及びプログラム

Also Published As

Publication number Publication date
JP2015179441A (ja) 2015-10-08

Similar Documents

Publication Publication Date Title
Ghiassi et al. A domain transferable lexicon set for Twitter sentiment analysis using a supervised machine learning approach
Rauh Validating a sentiment dictionary for German political language—a workbench note
Bhatia et al. Automatic labelling of topics with neural embeddings
Assiri et al. Towards enhancement of a lexicon-based approach for Saudi dialect sentiment analysis
Chai Comparison of text preprocessing methods
Korenek et al. Sentiment analysis on microblog utilizing appraisal theory
EP3398082A1 (en) Systems and methods for suggesting emoji
US20190349320A1 (en) System and method for automatically responding to user requests
US10878233B2 (en) Analyzing technical documents against known art
US20140136323A1 (en) System and methods for advertising based on user intention detection
JP5442401B2 (ja) 行動情報抽出システム及び抽出方法
Serigos Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish
Lu et al. Spell checker for consumer language (CSpell)
Singh et al. SentiVerb system: classification of social media text using sentiment analysis
Ghosh et al. A rule based extractive text summarization technique for Bangla news documents
Kaur et al. Improving sentiment scoring mechanism: a case study on airline services
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
Hassan et al. Exploiting tweet sentiments in altmetrics large-scale data
JP6235386B2 (ja) 情報提示装置、情報提示方法およびプログラム
WO2016181475A1 (ja) 情報提示装置、情報提示方法およびプログラム
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
Iserman et al. Dictionaries and decision trees for the 2019 CLPsych shared task
Tian et al. A prediction model for web search hit counts using word frequencies
Balage Filho Aspect extraction in sentiment analysis for portuguese language
Francis et al. SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171026

R150 Certificate of patent or registration of utility model

Ref document number: 6235386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees