JP6235386B2

JP6235386B2 - 情報提示装置、情報提示方法およびプログラム

Info

Publication number: JP6235386B2
Application number: JP2014057009A
Authority: JP
Inventors: 浜田　伸一郎; 伸一郎浜田
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2017-11-22
Anticipated expiration: 2034-03-19
Also published as: JP2015179441A

Description

本発明の実施形態は、情報提示装置、情報提示方法およびプログラムに関する。

電子商取引（ＥＣ：Electronic Commerce）のサービスを提供するＥＣシステムの多くは、ユーザがある商品を参照しているときに、その商品に関連する別の商品を併せて提示する商品推薦機能を持つ。商品推薦機能は、ユーザが参照している商品（以下、「第１商品」という。）と同種の商品を購入の選択肢として提示する対立型推薦と、第１商品と調和する別商品（以下、「第２商品」という。）を紹介して、いわゆる“ついで買い”を促す調和型推薦に大別される。このうち調和型推薦は、多くの場合、統計的観点において第１商品と相関性の高い商品を第２商品として提示する仕組みによって実現されている。

調和型推薦においては、第１商品と第２商品との組み合わせ効果をユーザが認識していることが重要である。つまり、第１商品と併せて単に第２商品を提示しただけでは、ユーザがこれらの商品の組み合わせ効果を認識していない場合、第２商品を“ついで買い”する動機付けが生まれない。例えば、秩父のＢ級グルメとして話題になった「味噌ポテト」を知らないユーザにとっては、「味噌」と併せて「ジャガイモ」が提示されただけでは、これらは奇妙な食材の組み合わせに感じられるだけで、「味噌」のついでに「ジャガイモ」を買おうとする購買意欲は生じない。このため、第２商品を提示する際には、第１商品と第２商品との組み合わせ効果に関する情報を含む推薦理由を併せて提示することが、調和型推薦による販売促進の効果を高める上で有効になると考えられる。

しかし、これまでのＥＣシステムでは、商品単体に関する推薦理由を提示する仕組み（例えばレビュー表示機能など）は持っていても、複数の商品の組み合わせ効果に関する情報を含む推薦理由を提示する仕組みは持っていない。このため、このような組み合わせ効果に関する情報を含む推薦理由を提示する仕組みの構築が求められている。

特開２００６−１９０１２７号公報

本発明が解決しようとする課題は、第１商品と第２商品との組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる情報提示装置、情報提示方法およびプログラムを提供することである。

実施形態の情報提示装置は、ユーザが参照している第１商品に調和する第２商品を推薦する際に、前記第１商品と前記第２商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置であり、第１スコア算出部と、第２スコア算出部と、第３スコア算出部と、統合スコア算出部と、提示部と、を備える。第１スコア算出部は、検索対象の文書群から前記第１商品に関する第１文書群を抽出し、該第１文書群に含まれる各単語のそれぞれについて、前記第１商品との関連性を表す第１スコアを算出する。第２スコア算出部は、検索対象の文書群から前記第２商品に関する第２文書群を抽出し、該第２文書群に含まれる各単語のそれぞれについて、前記第２商品との関連性を表す第２スコアを算出する。第３スコア算出部は、検索対象の文書群から前記第１商品と前記第２商品との双方に関する第３文書群を抽出し、該第３文書群に含まれる各単語のそれぞれについて、前記第１商品および前記第２商品の双方との関連性を表す第３スコアを算出する。統合スコア算出部は、前記第３文書群に含まれる各単語のそれぞれについて、前記第３スコアから前記第１スコアと前記第２スコアとを減算し、統合スコアを算出する。提示部は、前記統合スコアに基づいて所定の基準に従って選択された１以上の重要単語、または、該重要単語を含む前記第３文書群中の１以上のテキストの少なくとも一方を、前記推薦理由として提示する。

図１は、第１実施形態の情報提示装置の構成例を示す図である。図２は、Ａ文書群抽出器の処理手順を示すフローチャートである。図３は、単語の表現正規化に用いる同意語辞書の一例を示す図である。図４は、全文書群抽出器の処理手順を示すフローチャートである。図５は、単語関連度評価器の処理手順を示すフローチャートである。図６は、単語重要度評価器の処理手順を示すフローチャートである。図７は、統合スコア算出部の処理手順を示すフローチャートである。図８は、固有文出力器の処理手順を示すフローチャートである。図９は、第２実施形態の情報提示装置の構成例を示す図である。図１０は、Ａ文書群抽出器の処理手順を示すフローチャートである。図１１は、Ａ∩Ｂ文書群抽出器の処理手順を示すフローチャートである。図１２は、Ａ∩Ｂ文書群抽出器の判定例を説明する図である。図１３は、単語関連度評価器の処理手順を示すフローチャートである。図１４は、情報提示装置のハードウェア構成例を示すブロック図である。

以下、実施形態の情報提示装置、情報提示方法およびプログラムを、図面を参照して詳細に説明する。

実施形態の情報提示装置は、ユーザが参照している第１商品に調和する第２商品を推薦する際に、第１商品と第２商品との組み合わせ効果に関する情報を含む推薦理由を提示する。このような推薦理由をあらゆる商品の組み合わせについて予め人手で作成することは困難である。しかし、商品の組み合わせ効果に関する情報は、例えば、各種のＷｅｂページ、ＳＮＳ（Social Networking Service）、ブログなどの文書群に存在する。そこで、本実施形態では、このような文書群から両商品に関する文書群を見つけ出し、さらに商品の組み合わせ効果などの推薦理由としてふさわしい言及箇所を特定してユーザに提示する。なお、以下では説明の簡便化のため、第１商品を商品Ａ、第１商品に関する記載のある文書をＡ文書、第２商品を商品Ｂ、第２商品に関する記載のある文書をＢ文書、第１商品と第２商品との双方に関する記載のある文書をＡ∩Ｂ文書と呼ぶ。

＜第１実施形態＞
まず、第１実施形態の情報提示装置について説明する。図１は、第１実施形態の情報提示装置の構成例を示す図である。本実施形態の情報提示装置は、図１に示すように、第１スコア算出部１０と、第２スコア算出部２０と、第３スコア算出部３０と、第４スコア算出部４０と、統合スコア算出部５０と、提示部６０とを備え、文書ＤＢ（Database）１００から取得した第１商品と第２商品との組み合わせ効果に関する情報を含む推薦理由を画面２００に表示して、ＥＣシステムのサービスを利用しているユーザに提示する。なお、本実施形態の情報処理装置は、ＥＣシステムの機能の一部として実現されることを想定するが、これに限らず、例えばＥＣシステムと連動して動作する独立のシステムあるいは装置として構成されてもよい。

文書ＤＢ１００は、本実施形態において検索対象とする任意の文書群であり、各種のＷｅｂページ、ＳＮＳ、ブログなどを想定している。また、画面２００は、ＥＣシステムのサービスを利用しているユーザの端末装置に表示される画面を想定しており、一般的にはＷｅｂブラウザを搭載する端末装置に表示されるＷｅｂ画面である。

第１スコア算出部１０は、Ａ文書群抽出器１１と、単語関連度評価器１２とを含む。

Ａ文書群抽出器１１は、文書ＤＢ１００に対して単語ベースの検索を行い、文書ＤＢ１００から商品Ａに関する記載のあるＡ文書をすべて抽出してＡ文書群１５を得る。

単語関連度評価器１２は、Ａ文書群１５における各単語のヒストグラム（単語ごとの頻度を列挙したデータ）を作成し、各単語のそれぞれについて、Ａ文書群１５中の出現頻度に応じた第１スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、ｌｏｇスケールにしたものを第１スコアとする。したがって、第１スコアは負の値であり、Ａ文書群１５中の出現頻度が高い単語ほど、０に近い高い値の第１スコアが与えられる。

第２スコア算出部２０は、Ｂ文書群抽出器２１と、単語関連度評価器２２とを含む。

Ｂ文書群抽出器２１は、文書ＤＢ１００に対して単語ベースの検索を行い、文書ＤＢ１００から商品Ｂについての記載のあるＢ文書をすべて抽出してＢ文書群２５を得る。

単語関連度評価器２２は、Ｂ文書群２５における各単語のヒストグラムを作成し、各単語のそれぞれについて、Ｂ文書群２５中の出現頻度に応じた第２スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、ｌｏｇスケールにしたものを第２スコアとする。したがって、第２スコアは負の値であり、Ｂ文書群２５中の出現頻度が高い単語ほど、０に近い高い値の第２スコアが与えられる。

第３スコア算出部３０は、Ａ∩Ｂ文書群抽出器３１と、単語関連度評価器３２とを含む。

Ａ∩Ｂ文書群抽出器３１は、文書ＤＢ１００に対して単語ベースの検索を行い、文書ＤＢ１００から商品Ａと商品Ｂとの双方についての記載のあるＡ∩Ｂ文書をすべて抽出してＡ∩Ｂ文書群３５を得る。

単語関連度評価器３２は、Ａ∩Ｂ文書群３５における各単語のヒストグラムを作成し、各単語のそれぞれについて、Ａ∩Ｂ文書群３５中の出現頻度に応じた第３スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、ｌｏｇスケールにしたものを第３スコアとする。したがって、第３スコアは負の値であり、Ａ∩Ｂ文書群中の出現頻度が高い単語ほど、０に近い高い値の第３スコアが与えられる。

第４スコア算出部４０は、全文書群抽出器４１と、単語重要度評価器４２とを含む。

全文書群抽出器４１は、文書ＤＢ１００から文書をすべて抽出して全文書群４５を得る。

単語重要度評価器４２は、全文書群４５における各単語が含まれる文書数のヒストグラムを作成し、各単語のそれぞれについて、全文書群４５中における当該単語を含む文書の出現頻度に応じた第４スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語を含む文書の出現頻度は総文書数で割ることで数値を正規化し、ｌｏｇスケールにしてさらに正負を反転させたものを第４スコアとする。したがって、第４スコアは正の値であり、当該単語を含む文書の出現頻度が低いほど高い値の第４スコアが与えられる。

統合スコア算出部５０は、Ａ∩Ｂ文書群３５に含まれる各単語のそれぞれについて、第３スコアと、第１スコアと、第２スコアと、第４スコアとを用いて、後述の式（１）を用いた計算によって統合スコアを算出する。統合スコアは、商品Ａと商品Ｂとの双方に関する話題に対する固有性を表す指標であり、商品Ａと商品Ｂとの双方に関する話題に対する固有性が高い単語ほど、高い値の統合スコアが与えられる。

提示部６０は、固有語出力器６１と、固有文出力器６２とを含む。

固有語出力器６１は、統合スコアに基づいて、商品Ａと商品Ｂとの双方に関する話題に対する固有性が高い１以上の重要単語（固有語）を選択し、単語ベースの推薦理由６５として画面２００に出力する。推薦理由が単語のみでよい場合は、この固有語出力器６１が出力する単語ベースの推薦理由６５が画面２００に表示される。

固有文出力器６２は、Ａ∩Ｂ文書群３５から、固有語出力器６１により選択された重要単語（固有語）を多く持つ１以上の文を選択し、文ベースの推薦理由６６として画面２００に出力する。推薦理由を文とすることが要求される場合は、この固有文出力器６２が出力する文ベースの推薦理由６６が画面２００に表示される。また、固有語出力器６１が出力する単語ベースの推薦理由６５と、固有文出力器６２が出力する文ベースの推薦理由６６との双方を画面２００に表示させるようにしてもよい。

なお、本実施形態では、固有文出力器６２の処理単位を文としているが、固有文出力器６２は、文ではなく、フレーズ、パッセージ、パラグラフなどを処理単位としてもよい。この場合も、固有文出力器６２の処理単位が変わるだけで、同様の処理により所望のテキストを推薦理由として画面２００に表示させることができる。

次に、本実施形態の情報提示装置を構成する上述した各部による処理手順の詳細について説明する。

まず、Ａ文書群抽出器１１の処理手順を説明する。Ａ文書群抽出器１１の処理は、文書ＤＢ１００からすべてのＡ文書を見つけ出すことが目的である。Ａ文書の抽出は、例えば、従来的な方法を用いた単語ベースの検索により行うことができる。一般的な検索処理では、検索対象の文書群のインデックスをあらかじめ作成しておく処理方式を用いるのが一般的である。しかし、本実施形態では説明を簡単にするため、インデックスを作成しないで検索するｇｒｅｐ方式を用いるものとする。

図２は、Ａ文書群抽出器１１の処理手順を示すフローチャートである。Ａ文書群抽出器１１は、まず、Ａ商品に関するメタデータから商品名を取り出して、これを検索のクエリとする（ステップＳ１０１）。

次に、Ａ文書群抽出器１１は、クエリの表現正規化を行う（ステップＳ１０２）。具体的には、Ａ文書群抽出器１１は、まずクエリの表記ゆれ（半全角、日英、送り仮名など）を吸収し、さらに図３に示すような同意語辞書を用いて、クエリ（ここでは商品Ａの商品名）を代表的表現に置き換える。例えば、クエリ「スマホ」は「スマートフォン」に置換され、クエリ「パソコン」は「ＰＣ」に置換される。

次に、Ａ文書群抽出器１１は、文書ＤＢ１００から文書を１つ取り出す（ステップＳ１０３）。そして、Ａ文書抽出器１１は、ステップＳ１０３で取り出した文書に含まれる各単語に対して、ステップＳ１０２と同様の手法により表現正規化を行う（ステップＳ１０４）。

次に、Ａ文書群抽出器１１は、ステップＳ１０４で単語の表現正規化が行われた文書内に、ステップＳ１０２で表現正規化が行われたクエリ（つまり商品Ａの商品名）が含まれているか確認し、表現正規化されたクエリが含まれていれば、出力するＡ文書群１５に当該文書を追加する（ステップＳ１０５）。

次に、Ａ文書群抽出器１１は、文書ＤＢ１００から取り出していない文書があるか否かを判定し（ステップＳ１０６）、文書ＤＢ１００から取り出していない文書があれば（ステップＳ１０６：Ｙｅｓ）、ステップＳ１０３に戻って以降の処理を繰り返す。一方、文書ＤＢ１００のすべての文書に対してステップＳ１０３〜ステップＳ１０５の処理を行っていれば（ステップＳ１０６：Ｎｏ）、Ａ文書群抽出器１１は、Ａ文書群１５を出力し（ステップＳ１０７）、一連の処理を終了する。

Ｂ文書群抽出器２１の処理は、文書ＤＢ１００からすべてのＢ文書を見つけ出すことが目的である。Ｂ文書の抽出は、Ａ文書の抽出と同様に単語ベースの検索により行う。Ｂ文書群抽出器２１の処理は、検索に用いるクエリが商品Ｂの商品名に置き換わり、出力する文書群がＢ文書群２５となるだけで、上述したＡ文書群抽出器１１の処理と同様であるため、詳細な説明は省略する。

Ａ∩Ｂ文書群抽出器３１の処理は、文書ＤＢ１００からすべてのＡ∩Ｂ文書を見つけ出すことが目的である。Ａ∩Ｂ文書の抽出は、Ａ文書やＢ文書の抽出と同様に単語ベースの検索により行う。Ａ∩Ｂ文書群抽出器３１の処理は、検索に用いるクエリが商品Ａの商品名と商品Ｂの商品名のアンド条件となり、出力する文書群がＡ∩Ｂ文書群３５となるだけで、上述したＡ文書群抽出器１１やＢ文書群抽出器２１の処理と同様であるため、詳細な説明は省略する。

全文書群抽出器４１の処理は、文書ＤＢ１００から全文書を取り出して、後続処理のためにそれぞれの文書に含まれる各単語の表現正規化を行うことが目的である。

図４は、全文書群抽出器４１の処理手順を示すフローチャートである。全文書群抽出器４１は、まず、文書ＤＢ１００から文書を１つ取り出す（ステップＳ２０１）。そして、全文書抽出器４１は、ステップＳ２０１で取り出した文書に含まれる各単語に対して、図２のステップＳ１０２と同様の手法により表現正規化を行い（ステップＳ２０２）、出力する全文書群４５に当該文書を追加する（ステップＳ２０３）。

次に、全文書群抽出器４１は、文書ＤＢ１００から取り出していない文書があるか否かを判定し（ステップＳ２０４）、文書ＤＢ１００から取り出していない文書があれば（ステップＳ２０４：Ｙｅｓ）、ステップＳ２０１に戻って以降の処理を繰り返す。一方、文書ＤＢ１００のすべての文書に対してステップＳ２０１〜ステップＳ２０３の処理を行っていれば（ステップＳ２０４：Ｎｏ）、全文書群抽出器４１は、全文書群４５を出力し（ステップＳ２０５）、一連の処理を終了する。

次に、単語関連度評価器１２の処理手順を説明する。単語関連度評価器１２の処理は、Ａ文書群１５に含まれる各単語について、商品Ａとの関連性を表す第１スコアを算出することを目的とする。本実施形態では、Ａ文書群１５における各単語の出現数を総単語数で割りｌｏｇスケールに変換することで各単語の対数確率を求め、これを第１スコアとする。これは、単位テキスト量あたりの各単語の頻度を計測していることとなり、情報検索においてよく用いられる指標であるｔｆ（term frequency）を正規化したものと同等と言える。

図５は、単語関連度評価器１２の処理手順を示すフローチャートである。単語関連度評価器１２は、まず、各単語の出現数を集計するための集計用ヒストグラムを初期化する（ステップＳ３０１）。

次に、単語関連度評価器１２は、Ａ文書群１５から文書を１つ取り出す（ステップＳ３０２）。そして、単語関連度評価器１２は、ステップＳ３０２で取り出した文書内に含まれる単語のヒストグラムを作成し（ステップＳ３０３）、得られたヒストグラムを集計用ヒストグラムに加算する（ステップＳ３０４）。

次に、単語関連度評価器１２は、Ａ文書群１５から取り出していない文書があるか否かを判定し（ステップＳ３０５）、Ａ文書群１５から取り出していない文書があれば（ステップＳ３０５：Ｙｅｓ）、ステップＳ３０２に戻って以降の処理を繰り返す。一方、Ａ文書群１５のすべての文書に対してステップＳ３０２〜ステップＳ３０４の処理を行っていれば（ステップＳ３０５：Ｎｏ）、単語関連度評価器１２は、集計用ヒストグラムから各単語の対数確率を割り出す（ステップＳ３０６）。具体的には、集計用ヒストグラムが示す各単語の頻度をｘ、Ａ文書群１５中の総単語数をｙとすると、対数確率はｌｏｇ（ｘ／ｙ）である。そして、単語関連度評価器１２は、ステップＳ３０６で算出した各単語の対数確率を、各単語の第１スコアとして出力し（ステップＳ３０７）、一連の処理を終了する。なお、ｘ＝０の場合、対数確率は−∞となる。∞や−∞は計算機では直接扱えないため、極端に大きな値や小さな値で代用する方法が考えられる。以降においても∞や−∞を扱う場合は同様の方法を用いればよい。

単語関連度評価器２２の処理は、Ｂ文書群２５に含まれる各単語について、商品Ｂとの関連性を表す第２スコアを算出することを目的とする。第２スコアは、第１スコアと同様に、Ｂ文書群２５に含まれる各単語の対数確率である。単語関連度評価器２２の処理は、与えられる文書セットがＢ文書群２５に置き換わり、Ｂ文書群２５に含まれる各単語の対数確率を第２スコアとして出力するだけで、上述した単語関連度評価器１２の処理と同様であるため、詳細な説明は省略する。

単語関連度評価器３２の処理は、Ａ∩Ｂ文書群３５に含まれる各単語について、商品Ａおよび商品Ｂの双方との関連性を表す第３スコアを算出することを目的とする。第３スコアは、第１スコアや第２スコアと同様に、Ａ∩Ｂ文書群３５に含まれる各単語の対数確率である。単語関連度評価器３２の処理は、与えられる文書セットがＡ∩Ｂ文書群３５に置き換わり、Ａ∩Ｂ文書群３５に含まれる各単語の対数確率を第３スコアとして出力するだけで、上述した単語関連度評価器１２の処理と同様であるため、詳細な説明は省略する。

次に、単語重要度評価器４２の処理手順を説明する。単語重要度評価器４２の処理は、文書ＤＢ１００内の各単語が持つ一般的な重要性を表す第４スコアを算出することを目的とする。本実施形態では、単語の重要性の指標として情報検索などでよく用いられるｉｄｆ（Inverse Document Frequency）を求めて、これを各単語の第４スコアとする。ある単語のｉｄｆは，当該単語を含む文書の負の対数確率である。つまり、当該単語を含む文書数をｘ、全文書数をｙとすると、ｉｄｆ＝−ｌｏｇ（ｘ/ｙ）である。一般的に、めったに出現しない単語（すなわち出現確率の低い単語）は、出現した際に読者に与える情報量が多く重要であると考えられるが、この場合、ｉｄｆは高い値を示す。

図６は、単語重要度評価器４２の処理手順を示すフローチャートである。単語重要度評価器４２は、まず、各単語の出現数を集計するための集計用ヒストグラムを初期化する（ステップＳ４０１）。

次に、単語重要度評価器４２は、全文書群４５から文書を１つ取り出す（ステップＳ４０２）。そして、単語重要度評価器４２は、ステップＳ４０２で取り出した文書内に含まれる単語の２値ヒストグラムを作成し（ステップＳ４０３）、得られたヒストグラムを集計用ヒストグラムに加算する（ステップＳ４０４）。２値ヒストグラムは、１か０の頻度値しか持たないヒストグラムであり、文書内に出現する単語に対して、出現数にかかわらず１が与えられる。

次に、単語重要度評価器４２は、全文書群４５から取り出していない文書があるか否かを判定し（ステップＳ４０５）、全文書群４５から取り出していない文書があれば（ステップＳ４０５：Ｙｅｓ）、ステップＳ４０２に戻って以降の処理を繰り返す。一方、全文書群４５のすべての文書に対してステップＳ４０２〜ステップＳ４０４の処理を行っていれば（ステップＳ４０５：Ｎｏ）、単語重要度評価器４２は、集計用ヒストグラムから各単語を含む文書の負の対数確率を割り出す（ステップＳ４０６）。具体的には、集計用ヒストグラムが示す各単語の頻度ｘ、全文書群４５の総文書数をｙとすると、負の対数確率は−ｌｏｇ（ｘ／ｙ）である。そして、単語重要度評価器４２は、各単語のそれぞれについて、ステップＳ４０６で算出した当該単語を含む文書の負の対数確率を、各単語の第４スコアとして出力し（ステップＳ４０７）、一連の処理を終了する。

次に、統合スコア算出部５０の処理手順を説明する。統合スコア算出部５０の処理は、Ａ∩Ｂ文書群３５内の各単語について、商品Ａと商品Ｂとの双方に関する話題に対する固有性（つまり、Ａ∩Ｂ文書群３５にのみ顕著に出現する単語であるかどうかの度合い）を表す指標となる統合スコアを算出することを目的とする。これにより、商品Ａと商品Ｂとの組み合わせに関する説明にふさわしい単語を見つけることができるようになる。

本実施形態では、統合スコアの計算に下記式（１）を用いるものとする。ただし、下記式（１）のｗは単語、ｎｔｆ（ｗ）は与えられた文書セットにおける単語ｗの対数確率、ｉｄｆは全文書群４５における単語ｗを含む文書の負の対数確率である。

式（１）の第１項は、Ａ∩Ｂ文書群３５における単語ｗの対数確率を示しており、単語関連度評価器３２が出力する第３スコアに相当する。この第１項の値（第３スコア）が高いほど、当該単語ｗが、Ａ∩Ｂ文書群３５において多く出現していることを示している。

式（１）の第２項は、Ａ文書群１５における単語ｗの対数確率を示しており、単語関連度評価器１２が出力する第１スコアに相当する。この第２項の値（第１スコア）が高いほど、当該単語ｗがＡ文書群１５において多く出現していることを示している。

式（１）の第３項は、Ｂ文書群２５における単語ｗの対数確率を示しており、単語関連度評価器２２が出力する第２スコアに相当する。この第３項の値（第２スコア）が高いほど、当該単語ｗがＢ文書群２５において多く出現していることを示している。

式（１）の第４項は、全文書群４５における単語ｗの希少性を示しており、単語重要度評価器４２が出力する第４スコアに相当する。この第４項の値（第４スコア）が高いほど、当該単語ｗは希少性があり、出現したときの情報量が多く重要な単語であることを示している。

式（１）は、第１項から第２項および第３項を減算して統合スコアを求める計算式となっている。これにより、Ａ∩Ｂ文書群３５において多く出現し、かつ、Ａ文書群１５やＢ文書群２５ではあまり出現していない単語に対し、高い値の統合スコアが与えられることとなる。このことから、統合スコアは、商品Ａや商品Ｂの個別説明ではなく、両商品にまたがる説明にふさわしい度合いを示していると考えられる。なお、第１項を２倍しているのは、第１項から減算している項が２つあるためである。Ａ∩Ｂ文書群３５、Ａ文書群１５、Ｂ文書群２５のそれぞれで同頻度で出現する単語の固有性は０と考えられるが、式（１）のように第１項を２倍しておくことで、この場合の統合スコアを０とすることができる。ただし、第１項を２倍することは必須ではなく、第１項を２倍せずに第２項および第３項を減算してもよい。

また、式（１）は、第１項から第２項および第３項を減算した値に、さらに第４項を乗算して統合スコアを求める計算式となっている。これにより、各単語の一般的な観点での重要性を加味した統合スコアが得られる。つまり、Ａ文書群１５の文書数、Ｂ文書群２５の文書数、およびＡ∩Ｂ文書群３５の文書数が十分でない場合、第４項を乗算せずに各単語の統合スコアを算出すると統合スコアが過適応してしまうリスクがあるが、第４項を乗算することで、このリスクを回避できる。ただし、第４項の乗算は必須ではなく、第４項を乗算せずに統合スコアを算出してもよい。

図７は、統合スコア算出部５０の処理手順を示すフローチャートである。統合スコア算出部５０は、まず、Ａ∩Ｂ文書群３５から単語を１つ取り出す（ステップＳ５０１）。

次に、統合スコア算出部５０は、ステップＳ５０１で取り出した単語について、単語関連度評価器３２が出力した第３スコアの値を、式（１）の第１項に当てはめる（ステップＳ５０２）。

次に、統合スコア算出部５０は、ステップＳ５０１で取り出した単語について、単語関連度評価器１２が出力した第１スコアの値を、式（１）の第２項に当てはめる（ステップＳ５０３）。

次に、統合スコア算出部５０は、ステップＳ５０１で取り出した単語について、単語関連度評価器２２が出力した第２スコアの値を、式（１）の第３項に当てはめる（ステップＳ５０４）。

次に、統合スコア算出部５０は、ステップＳ５０１で取り出した単語について、単語重要度評価器４２が出力した第４スコアの値を、式（１）の第４項に当てはめる（ステップＳ５０５）。

次に、統合スコア算出部５０は、式（１）を用いて、ステップＳ５０１で取り出した単語の統合スコアを算出する（ステップＳ５０６）。

次に、統合スコア算出部５０は、Ａ∩Ｂ文書群３５から取り出していない単語があるか否かを判定し（ステップＳ５０７）、Ａ∩Ｂ文書群３５から取り出していない単語があれば（ステップＳ５０７：Ｙｅｓ）、ステップＳ５０１に戻って以降の処理を繰り返す。一方、Ａ∩Ｂ文書群３５に含まれるすべての単語に対してステップＳ５０１〜ステップＳ５０６の処理を行っていれば（ステップＳ５０７：Ｎｏ）、統合スコア算出部５０は、各単語の統合スコアを出力し（ステップＳ５０８）、一連の処理を終了する。

次に、固有語出力器６１の処理手順を説明する。固有語出力器６１の処理は、Ａ∩Ｂ文書群３５に含まれる単語のうち、商品Ａと商品Ｂとの双方に関する話題に対する固有性の高い単語（固有語）を重要単語として選択して出力することを目的とする。本実施形態では、Ａ∩Ｂ文書群３５に含まれる単語のうち、統合スコアが高い上位ｋ個の単語を重要単語として出力するものとする。

すなわち、固有語出力器６１は、統合スコア算出部５０から出力された統合スコアを値が高い順にソートし、統合スコアの値が高い順に上記ｋ個の単語を重要単語として選択して出力する。Ｂ商品の推薦理由が単語のみでよい場合は、この固有語出力器６１が出力する重要単語が、単語ベースの推薦理由６５として画面２００に表示される。また、推薦理由を文とすることが要求される場合は、固有語出力器６１が出力する重要単語が、固有文出力器６２に渡される。

次に、固有文出力器６２の処理手順を説明する。固有文出力器６２の処理は、Ａ∩Ｂ文書群３５から重要単語を多く含む文を見つけ出し、文ベースの推薦理由６６として画面２００に出力することを目的とする。本実施形態では、重要単語を最も多く含むＡ∩Ｂ文書群３５中の文をベスト文として見つけ出し、文ベースの推薦理由６６として画面２００に出力するものとする。なお、上述したように、文の代わりにフレーズ、パッセージ、パラグラフなどを推薦理由として画面２００に表示させるようにしてもよい。

図８は、固有文出力器６２の処理手順を示すフローチャートである。固有文出力器６２は、まず、ベスト文およびベストスコアを初期化する（ステップＳ６０１）。つまり、文ベースの推薦理由６６として最終的に出力するベスト文を空文とし、そのベスト文に含まれる各単語の統合スコアの合計値であるベストスコアを−∞にする。

次に、固有文出力器６２は、Ａ∩Ｂ文書群３５から文を１つ取り出す（ステップＳ６０２）。そして、固有文出力器６２は、ステップＳ６０２で取り出した文に含まれる各単語の統合スコアを合計したものを当該文のスコアとする（ステップＳ６０３）。

次に、固有文出力器６２は、ステップＳ６０３で求めた文のスコアがベストスコアを上回っているか確認し、ベストスコアを上回っていれば、ベスト文およびベストスコアを、当該文とそのスコアで置き換える（ステップＳ６０４）。

次に、固有文出力器６２は、Ａ∩Ｂ文書群３５から取り出していない文があるか否かを判定し（ステップＳ６０５）、Ａ∩Ｂ文書群３５から取り出していない文があれば（ステップＳ６０５：Ｙｅｓ）、ステップＳ６０２に戻って以降の処理を繰り返す。一方、Ａ∩Ｂ文書群３５に含まれるすべての文に対してステップＳ６０２〜ステップＳ６０４の処理を行っていれば（ステップＳ６０５：Ｎｏ）、固有文出力器６２は、ベスト文を文ベースの推薦理由６６として出力し（ステップＳ６０６）、一連の処理を終了する。

以上、具体的な例を挙げながら説明したように、本実施形態の情報提示装置によれば、商品Ａと商品Ｂとの双方に関する話題に対する固有が高い単語、あるいはその単語を含む文を特定して単語ベースの推薦理由６５、あるいは文ベースの推薦理由６６として画面２００に表示させる。したがって、この情報提示装置を用いることによって、ＥＣシステムを利用するユーザに対して、商品Ａと商品Ｂとの組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる。すなわち、ＥＣシステムを利用するユーザにとっては、本実施形態の情報提示装置により提示される推薦理由を参照することでＢ商品を購入する動機付けが生まれ、新体験を伴う商品購入がしやすくなり、店舗にとっては販売機会を増やすことができる。

＜第２実施形態＞
次に、第２実施形態の情報提示装置について説明する。本実施形態では、ＥＣシステムを利用したユーザによるレビュー記事など、ある商品について記載されていることが事前に予測される文書を、検索対象の文書群として用いる。ＥＣシステムは、商品ページごとにユーザによるレビュー記事を管理していることが多い。このようなレビュー記事は、それぞれの商品に対する感想などを記載した文書であるため、推薦理由を見つけ出す対象として有効に利用できる。ただし、各レビュー記事は、レビュー対象の商品ＩＤ（商品識別情報）およびレビュー記事を記載したユーザの購入ログがメタデータとして紐付けられているとする。以下、商品ＩＤおよび購入ログと紐付けられたレビュー記事をラベル付き文書と呼ぶ。

第１実施形態では、一般的な文書を検索対象としていたため、Ａ文書、Ｂ文書、Ａ∩Ｂ文書を検索する手がかりとして、文書内に商品名が含まれているかどうかを用いていた。これに対し本実施形態では、検索対象とする各文書に付与されたレビュー対象の商品ＩＤ（レビュー記事に商品名が紐付けられている場合は商品名でもよい）を用いて検索する方法を取る。このため、文書検索エラーを排除できる（第１実施形態では表現揺れなどによるエラーのリスクがある）ほか、単に「おいしかった！また買います」などのように商品名が含まれていない文書であっても、メタデータを用いることで簡単に仕分けを行うことができるメリットがある。ただし、文書に紐付けられている商品ＩＤは１つであるため、Ａ∩Ｂ文書を判定するのには工夫が必要である。そこで、本実施形態では、近いタイミングで商品Ａと商品Ｂの両商品を購入したユーザがこれらの商品の購入から近いタイミングで記載したレビュー記事は、両商品への言及を含むレビュー記事である可能性が高いという仮説に基づいて、Ａ∩Ｂ文書を特定するようにしている。

図９は、第２実施形態の情報提示装置の構成例を示す図である。第２実施形態の情報提示装置は、図９に示すように、第１実施形態の第１スコア算出部１０、第２スコア算出部２０および第３スコア算出部３０（図１参照）に代えて、第１スコア算出部７０、第２スコア算出部８０および第３スコア算出部９０を備えている。また、第２実施形態の情報提示装置は、検索対象の文書集合として、第１実施形態の文書ＤＢ１００（図１参照）に代えて、ラベル付き文書ＤＢ３００を用いる。ラベル付き文書ＤＢ３００は、上述したように、例えばＥＣシステムを利用したユーザによるレビュー記事の集合であり、各レビュー記事は商品ＩＤおよび購入ログ４００と紐付けられている。なお、第２実施形態の情報提示装置におけるその他の構成は、上述した第１実施形態と同様であるため、以下、第１実施形態と共通の構成要素については同一の符号を付して、重複した説明を適宜省略する。

第１スコア算出部７０は、Ａ文書群抽出器７１と、単語関連度評価器１２とを含む。Ａ文書群抽出器７１は、商品Ａの商品ＩＤを用いてラベル付き文書ＤＢ３００に対する検索を行い、ラベル付き文書ＤＢ３００からＡ文書をすべて抽出してＡ文書群１５を得る。単語関連度評価器１２は、第１実施形態と共通である。

第２スコア算出部８０は、Ｂ文書群抽出器８１と、単語関連度評価器２２とを含む。Ｂ文書群抽出器８１は、商品Ｂの商品ＩＤを用いてラベル付き文書ＤＢ３００に対する検索を行い、ラベル付き文書ＤＢ３００からＢ文書をすべて抽出してＢ文書群２５を得る。単語関連度評価器２２は、第１実施形態と共通である。

第３スコア算出部９０は、Ａ∩Ｂ文書群抽出器９１と、単語関連度評価器９２とを含む。

Ａ∩Ｂ文書群抽出器９１は、商品Ａの商品ＩＤおよび商品Ｂの商品ＩＤを用いてラベル付き文書ＤＢ３００に対する検索を行い、ラベル付き文書ＤＢ３００からＡ∩Ｂ文書を抽出して確信度付きＡ∩Ｂ文書群９５を得る。ここでラベル付き文書ＤＢ３００から抽出されるＡ∩Ｂ文書は、上述した仮説に基づいて抽出されるレビュー記事などのラベル付き文書であり、その文書に商品Ａと商品Ｂとの双方に関する記述が含まれていることの確信度が与えられたものである。

単語関連度評価器９２は、確信度付きＡ∩Ｂ文書群９５に含まれる各単語のそれぞれについて、第１実施形態の関連度評価器３２と同様に、出現頻度に応じた第３スコアを算出する。ただし、本実施形態では、Ａ∩Ｂ文書のそれぞれに商品Ａと商品Ｂとの双方に関する記述が含まれていることの確信度が与えられており、各単語の頻度が、その単語が出現する文書の確信度を用いて計算される点が第１実施形態とは異なる。

次に、本実施形態の情報提示装置において、第１実施形態とは異なる部分の処理手順の詳細について説明する。

まず、Ａ文書群抽出器７１の処理手順を説明する。Ａ文書群抽出器７１の処理は、ラベル付き文書ＤＢ３００からすべてのＡ文書を見つけ出すことが目的である。

図１０は、Ａ文書群抽出器７１の処理手順を示すフローチャートである。Ａ文書群抽出器７１は、まず、Ａ商品に関するメタデータからＡ商品の商品ＩＤを取り出して、これを検索のクエリとする（ステップＳ７０１）。

次に、Ａ文書群抽出器７１は、ラベル付き文書ＤＢ３００から文書を１つ取り出す（ステップＳ７０２）。そして、Ａ文書抽出器７１は、ステップＳ７０１で取り出した文書のラベルがクエリの商品ＩＤと一致するか確認し、一致していれば、出力するＡ文書群１５に当該文書を追加する（ステップＳ７０３）。

次に、Ａ文書群抽出器７１は、ラベル付き文書ＤＢ３００から取り出していない文書があるか否かを判定し（ステップＳ７０４）、ラベル付き文書ＤＢ３００から取り出していない文書があれば（ステップＳ７０４：Ｙｅｓ）、ステップＳ７０２に戻って以降の処理を繰り返す。一方、ラベル付き文書ＤＢ３００のすべての文書に対してステップＳ７０２およびステップＳ７０３の処理を行っていれば（ステップＳ７０４：Ｎｏ）、Ａ文書群抽出器７１は、Ａ文書群１５を出力し（ステップＳ７０５）、一連の処理を終了する。

Ｂ文書群抽出器８１の処理は、ラベル付き文書ＤＢ３００からすべてのＢ文書を見つけ出すことが目的である。Ｂ文書群抽出器８１の処理は、検索に用いるクエリが商品Ｂの商品ＩＤに置き換わり、出力する文書群がＢ文書群２５となるだけで、上述したＡ文書群抽出器７１の処理と同様であるため、詳細な説明は省略する。

次に、Ａ∩Ｂ文書群抽出器９１の処理手順を説明する。Ａ∩Ｂ文書群抽出器９１の処理は、ラベル付き文書ＤＢ３００からＡ∩Ｂ文書を見つけ出すことが目的である。ラベル付き文書ＤＢ３００内の各ラベル付き文書は１つの商品ＩＤにしか結びついていないため、そのラベル付き文書が商品Ａと商品Ｂとの双方に関する記述を含んでいるかどうかをメタデータだけから判定することはできない。ここで視点を変えて、商品Ａと商品Ｂとを同時あるいは近いタイミングで購入したユーザは、両商品の組合せに意図を持っており、そのようなユーザがそれに近いタイミングで記載したレビュー文書には、両商品の組合せに関する記述が含まれている可能性が高いと考えられる。そこで、本実施形態では、購買ログ４００を用いてこの仮説に適合するユーザを選び、このユーザが記載したレビュー記事から、この仮説に適合するレビュー記事を、Ａ∩Ｂ文書として抽出する。さらに、このように抽出されたＡ∩Ｂ文書群に対し、商品Ａと商品Ｂとの双方に関する記述が含まれていることの確信度を与えて、確信度付きＡ∩Ｂ文書群９５を得る。

図１１は、Ａ∩Ｂ文書群抽出器９１の処理手順を示すフローチャートである。Ａ∩Ｂ文書群抽出器９１は、まず、購入ログ４００から１人のユーザを選択する（ステップＳ８０１）。

次に、Ａ∩Ｂ文書群抽出器９１は、ステップＳ８０１で選択したユーザが、所定の第１期間内に商品Ａと商品Ｂを購入していることを示す購入ログのペアをすべて抜き出す（ステップＳ８０２）。このときの判定例を図１２（ａ）に示す。上記の第１期間を２日とすると、図１２（ａ）の判定例１のように、ユーザＸの購入ログのうち、「１１／７１５：２０商品Ａ購入」と「１１／７１８：２０商品Ｂ購入」のペアは、両商品を購入した時間差が２日以内のため、ステップＳ８０２の処理で抜き出される。一方、「１１／７１８：２０商品Ｂ購入」と「１１／１０９：５０商品Ａ購入」のペアは、両商品を購入した時間差が２日を超えるため、ステップＳ８０２の処理では抜き出されない。この購入ログのペアの購入時刻の時間差を以下では「購入時間差」と呼ぶ。

次に、Ａ∩Ｂ文書群抽出器９１は、ステップＳ８０２で抜き出した購入ログのペアを１つ取り出す（ステップＳ８０３）。そして、Ａ∩Ｂ文書群抽出器９１は、ラベル付き文書ＤＢ３００から、ステップＳ８０１で選択したユーザによって、ステップＳ８０３で取り出した購入ログのペアが示す購入時刻のうちの遅い方の購入時刻から所定の第２期間内に記載された、商品Ａまたは商品Ｂの商品ＩＤをラベルとして持つ文書（レビュー記事）をすべて取り出す（ステップＳ８０４）。

このときの判定例を図１２（ｂ）に示す。上記の第２期間を３日とすると、図１２（ｂ）の判定例２のように、ユーザＸが記載したレビュー記事のうち、「１１／９１２：００商品Ａレビュー記事」は、「１１／７１８：２０商品Ｂ購入」の購入ログの購入時刻から３日以内に記載されたレビュー記事であるため、ステップＳ８０４の処理で取り出される。一方、「１１／１１１２：００商品Ａレビュー記事」は、「１１／７１８：２０商品Ｂ購入」の購入ログの購入時刻から３日経過した後に記載されたレビュー記事であるため、ステップＳ８０４の処理では取り出されない。この購入ログの購入時刻とレビュー記載時刻の時間差を以下では「レビュー時間差」と呼ぶ。

次に、Ａ∩Ｂ文書群抽出器９１は、ステップＳ８０３で取り出した購入ログのペアの購入時間差に応じた確信度を、ステップＳ８０４で取り出した各文書に対して割り当てる（ステップＳ８０５）。例えば、購入ログのペアが同じセッションでの購入の場合の確信度を１００％、１時間以内の購入の場合の確信度を９０％、２時間以内の購入の場合の確信度を８０％、同日購入の場合の確信度を５０％といったように、購入時間差が大きいほど低い値となる確信度を与える。なお、本実施形態では、ラベル付き文書ＤＢ３００から取り出した文書に対し、その文書を取り出す要因となった購入ログのペアの購入時間差に応じた確信度を与えるようにしているが、確信度を与える方法はこれに限らない。例えば、ラベル付き文書ＤＢ３００から取り出した文書に対して、レビュー時間差が大きくなるほど低い値となる確信度を与えるようにしてもよいし、購入時間差とレビュー時間差との双方を考慮した確信度を与えるようにしてもよい。

次に、Ａ∩Ｂ文書群抽出器９１は、ステップＳ８０５の処理により得られた確信度付き文書を、出力する確信度付きＡ∩Ｂ文書群９５に追加する（ステップＳ８０６）。

次に、Ａ∩Ｂ文書群抽出器９１は、ステップＳ８０３で取り出していない購入ログのペアがあるか否かを判定し（ステップＳ８０７）、取り出していない購入ログのペアがあれば（ステップＳ８０７：Ｙｅｓ）、ステップＳ８０３に戻って以降の処理を繰り返す。一方、すべての購入ログのペアに対してステップＳ８０３〜ステップＳ８０６の処理を行っていれば（ステップＳ８０７：Ｎｏ）、Ａ∩Ｂ文書群抽出器９１は、ステップＳ８０１で選択していないユーザがいるか否かを判定し（ステップＳ８０８）、選択していないユーザがいれば（ステップＳ８０８：Ｙｅｓ）、ステップＳ８０１に戻って以降の処理を繰り返す。

一方、購入ログに含まれるすべてのユーザを選択してステップＳ８０２〜ステップＳ８０６の処理を行っていれば（ステップＳ８０８：Ｎｏ）、Ａ∩Ｂ文書群抽出器９１は、確信度付きＡ∩Ｂ文書群９５を出力し（ステップＳ８０９）、一連の処理を終了する。

次に、単語関連度評価器９２の処理手順を説明する。単語関連度評価器９２の処理は、確信度付きＡ∩Ｂ文書群９５に含まれる各単語のそれぞれについて、第１実施形態の単語関連度評価器３２と同様に、商品Ａおよび商品Ｂの双方との関連性を表す第３スコアを算出することを目的とする。ただし、Ａ∩Ｂ文書には確信度が与えられているため、それに伴う処理が第１実施形態の単語関連度評価器３２とは異なる。

図１３は、単語関連度評価器９２の処理手順を示すフローチャートである。単語関連度評価器９２は、まず、各単語の出現数を集計するための集計用ヒストグラムおよび総単語数を初期化する（ステップＳ９０１）。総単語数は、後述のように確信度付きＡ∩Ｂ文書群９５に含まれる総単語数を文書の確信度に応じて調整した値である。

次に、単語関連度評価器９２は、確信度付きＡ∩Ｂ文書群９５から文書を１つ取り出す（ステップＳ９０２）。そして、単語関連度評価器９２は、ステップＳ９０２で取り出した文書内に含まれる単語のヒストグラムを作成する（ステップＳ９０３）。ただし、この際、各単語に与えられる頻度は、実際の頻度に確信度を積算したものとする。例えば確信度が５０％の文書において、単語Ａが１０回、単語Ｂが６回、単語Ｃが４回出現したとすると、単語Ａに与える頻度は５回、単語Ｂに与える頻度は３回、単語Ｃに与える頻度は２回となる。

次に、単語関連度評価器９２は、ステップＳ９０３で得られたヒストグラムを集計用ヒストグラムに加算する（ステップＳ９０４）。また、単語関連度評価器９２は、当該文書の単語数に確信度を積算した値を総単語数に加算する（ステップＳ９０５）。例えば、当該文書の単語数が１０００、確信度が５０％であれば、加算する単語数は５００となる。

次に、単語関連度評価器９２は、確信度付きＡ∩Ｂ文書群９５から取り出していない文書があるか否かを判定し（ステップＳ９０６）、確信度付きＡ∩Ｂ文書群９５から取り出していない文書があれば（ステップＳ９０６：Ｙｅｓ）、ステップＳ９０２に戻って以降の処理を繰り返す。一方、確信度付きＡ∩Ｂ文書群９５のすべての文書に対してステップＳ９０２〜ステップＳ９０５の処理を行っていれば（ステップＳ９０６：Ｎｏ）、単語関連度評価器９２は、集計用ヒストグラムから各単語の対数確率を割り出す（ステップＳ９０７）。具体的には、集計用ヒストグラムが示す各単語の頻度をｘ、確信度付きＡ∩Ｂ文書群９５の総単語数（ステップＳ９０５で加算された総単語数）をｙとすると、対数確率はｌｏｇ（ｘ／ｙ）である。そして、単語関連度評価器９２は、ステップＳ９０７で算出した各単語の対数確率を、各単語の第３スコアとして出力し（ステップＳ９０８）、一連の処理を終了する。

なお、単語関連度評価器９２において、上述した購入時間差やレビュー時間差に応じた確信度に基づく処理を行う方法を用いる場合、Ａ∩Ｂ文書群抽出器９１においてＡ∩Ｂ文書群を抽出する際に、第１期間や第２期間を用いた閾値処理を必ずしも行わなくてもよい。Ａ∩Ｂ文書群抽出器９１において閾値処理を行わなければ、非常に大きな購入時間差やレビュー時間差を持つレビュー記事も抽出されるが、そのようなレビュー記事には非常に小さな確信度が与えられるためである。閾値処理を行わなければ抽出されるレビュー記事が増大するため計算量が増えるが、閾値処理によるレビュー記事の取りこぼしを回避することができる。

本実施形態の情報提示装置におけるその他の処理は、上述した第１実施形態と同様である。つまり、本実施形態の情報提示装置においても、統合スコア算出部５０により、確信度付きＡ∩Ｂ文書群９５に含まれる各単語について統合スコアが算出され、固有語出力器６１により、統合スコアが高い重要単語が単語ベースの推薦理由６５として画面２００に出力され、固有文出力器６２により、重要単語を多く含む文が文ベースの推薦理由６６として画面２００に出力される。

したがって、本実施形態の情報提示装置を用いることによって、ＥＣシステムを利用するユーザに対して、商品Ａと商品Ｂとの組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる。すなわち、ＥＣシステムを利用するユーザにとっては、本実施形態の情報提示装置により提示される推薦理由を参照することでＢ商品を購入する動機付けが生まれ、新体験を伴う商品購入がしやすくなり、店舗にとっては販売機会を増やすことができる。

以上説明した第１実施形態または第２実施形態の情報提示装置における上述した各機能は、例えば、情報提示装置において所定のプログラムを実行することにより実現することができる。この場合、情報提示装置は、例えば図１４に示すように、ＣＰＵ（Central Processing Unit）５１０などのプロセッサ、ＲＯＭ（Read Only Memory）５２０やＲＡＭ（Random Access Memory）５３０などの記憶装置、表示器や各種操作デバイスが接続される入出力Ｉ／Ｆ５４０、ネットワークに接続して通信を行う通信Ｉ／Ｆ５５０、各部を接続するバス５６０などを備えた、通常のコンピュータを利用したハードウェア構成とすることができる。

上述した情報提示装置で実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

また、上述した情報提示装置で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の情報提示装置で実行されるプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。

また、上述した情報提示装置で実行されるプログラムを、ＲＯＭ５２０などに予め組み込んで提供するように構成してもよい。

上述した情報提示装置で実行されるプログラムは、情報提示装置の各処理部（第１スコア算出部１０，７０、第２スコア算出部２０，８０、第３スコア算出部３０，９０、第４スコア算出部４０、統合スコア算出部５０および提示部６０）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、ＣＰＵ５１０（プロセッサ）が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がＲＡＭ５３０（主記憶）上にロードされ、上述した各処理部がＲＡＭ５３０（主記憶）上に生成されるようになっている。なお、実施形態の情報提示装置は、上述した各処理部の一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェアを用いて実現することも可能である。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１０，７０第１スコア算出部
２０，８０第２スコア算出部
３０，９０第３スコア算出部
４０第４スコア算出部
５０統合スコア算出部
６０提示部

Claims

ユーザが参照している第１商品に調和する第２商品を推薦する際に、前記第１商品と前記第２商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置であって、
検索対象の文書群から前記第１商品に関する第１文書群を抽出し、該第１文書群に含まれる各単語のそれぞれについて、前記第１商品との関連性を表す第１スコアを算出する第１スコア算出部と、
検索対象の文書群から前記第２商品に関する第２文書群を抽出し、該第２文書群に含まれる各単語のそれぞれについて、前記第２商品との関連性を表す第２スコアを算出する第２スコア算出部と、
検索対象の文書群から前記第１商品と前記第２商品との双方に関する第３文書群を抽出し、該第３文書群に含まれる各単語のそれぞれについて、前記第１商品および前記第２商品の双方との関連性を表す第３スコアを算出する第３スコア算出部と、
前記第３文書群に含まれる各単語のそれぞれについて、前記第３スコアから前記第１スコアと前記第２スコアとを減算し、統合スコアを算出する統合スコア算出部と、
前記統合スコアに基づいて所定の基準に従って選択された１以上の重要単語、または、該重要単語を含む前記第３文書群中の１以上のテキストの少なくとも一方を、前記推薦理由として提示する提示部と、を備える情報提示装置。
前記第１スコア算出部は、検索対象の文書群から前記第１商品を表す記述を含む前記第１文書群を抽出し、該第１文書群に含まれる各単語のそれぞれについて、前記第１文書群における該単語の出現頻度が高いほど高い値となる前記第１スコアを算出し、
前記第２スコア算出部は、検索対象の文書群から前記第２商品を表す記述を含む前記第２文書群を抽出し、該第２文書群に含まれる各単語のそれぞれについて、前記第２文書群における該単語の出現頻度が高いほど高い値となる前記第２スコアを算出し、
前記第３スコア算出部は、検索対象の文書群から前記第１商品を表す記述と前記第２商品を表す記述との双方を含む前記第３文書群を抽出し、該第３文書群に含まれる各単語のそれぞれについて、前記第３文書群における該単語の出現頻度が高いほど高い値となる前記第３スコアを算出する、請求項１に記載の情報提示装置。
検索対象の文書群に含まれる各単語のそれぞれについて、検索対象の文書群における該単語を含む文書の出現頻度が低いほど高い値となる第４スコアを算出する第４スコア算出部をさらに備え、
前記統合スコア算出部は、前記第３文書群に含まれる各単語のそれぞれについて、前記第３スコアから前記第１スコアと前記第２スコアとを減算した値に、さらに前記第４スコアを積算または加算して、前記統合スコアを算出する、請求項２に記載の情報提示装置。
検索対象の文書群は、商品の識別情報と関連付けられた文書群であり、
前記第１スコア算出部は、検索対象の文書群から前記第１商品の識別情報に関連付けられた前記第１文書群を抽出し、該第１文書群に含まれる各単語のそれぞれについて、前記第１文書群における該単語の出現頻度が高いほど高い値となる前記第１スコアを算出し、
前記第２スコア算出部は、検索対象の文書群から前記第２商品の識別情報に関連付けられた前記第２文書群を抽出し、該第２文書群に含まれる各単語のそれぞれについて、前記第２文書群における該単語の出現頻度が高いほど高い値となる前記第２スコアを算出し、
前記第３スコア算出部は、検索対象の文書群から、前記第１商品と前記第２商品の双方を購入したユーザによって記載された、前記第１商品の識別情報または前記第２商品の識別情報に関連付けられた前記第３文書群を抽出し、該第３文書群に含まれる各単語のそれぞれについて、前記第３文書群における該単語の出現頻度が高いほど高い値となる前記第３スコアを算出する、請求項１に記載の情報提示装置。
前記第３スコア算出部は、検索対象の文書群から、前記第１商品と前記第２商品の双方を所定の第１期間内に購入したユーザによって、前記第１商品または前記第２商品の購入時から所定の第２期間内に記載された、前記第１商品の識別情報または前記第２商品の識別情報に関連付けられた前記第３文書群を抽出し、該第３文書群に含まれる各単語のそれぞれについて、前記第３文書群における該単語の出現頻度が高いほど高い値となる前記第３スコアを算出する、請求項４に記載の情報提示装置。
前記第３スコア算出部は、前記第３文書群に含まれる各文書について、前記第１商品と前記第２商品の購入時間の差、あるいは、前記第１商品または前記第２商品の購入時から該文書が記載された時刻までの時間差をもとに、該文書に前記第１商品と前記第２商品の双方についての記述が含まれていることの確信度を設定し、前記第３文書群に含まれる各単語のそれぞれについて、前記第３文書群における該単語の出現頻度に応じたスコアに対して、該単語を含む文書に設定した確信度を積算または加算し、前記第３スコアを算出する、請求項４または５に記載の情報提示装置。
ユーザが参照している第１商品に調和する第２商品を推薦する際に、前記第１商品と前記第２商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置により実行される情報提示方法であって、
前記情報提示装置が、検索対象の文書群から前記第１商品に関する第１文書群を抽出し、該第１文書群に含まれる各単語のそれぞれについて、前記第１商品との関連性を表す第１スコアを算出する工程と、
前記情報提示装置が、検索対象の文書群から前記第２商品に関する第２文書群を抽出し、該第２文書群に含まれる各単語のそれぞれについて、前記第２商品との関連性を表す第２スコアを算出する工程と、
前記情報提示装置が、検索対象の文書群から前記第１商品と前記第２商品との双方に関する第３文書群を抽出し、該第３文書群に含まれる各単語のそれぞれについて、前記第１商品および前記第２商品の双方との関連性を表す第３スコアを算出する工程と、
前記情報提示装置が、前記第３文書群に含まれる各単語のそれぞれについて、前記第３スコアから前記第１スコアと前記第２スコアとを減算し、統合スコアを算出する工程と、
前記情報提示装置が、前記統合スコアに基づいて所定の基準に従って選択された１以上の重要単語、または、該重要単語を含む前記第３文書群中の１以上のテキストの少なくとも一方を、前記推薦理由として提示する工程と、を含む情報提示方法。
コンピュータに、
検索対象の文書群からユーザが参照している第１商品に関する第１文書群を抽出し、該第１文書群に含まれる各単語のそれぞれについて、前記第１商品との関連性を表す第１スコアを算出する機能と、
検索対象の文書群から前記第１商品に調和する第２商品に関する第２文書群を抽出し、該第２文書群に含まれる各単語のそれぞれについて、前記第２商品との関連性を表す第２スコアを算出する機能と、
検索対象の文書群から前記第１商品と前記第２商品との双方に関する第３文書群を抽出し、該第３文書群に含まれる各単語のそれぞれについて、前記第１商品および前記第２商品の双方との関連性を表す第３スコアを算出する機能と、
前記第３文書群に含まれる各単語のそれぞれについて、前記第３スコアから前記第１スコアと前記第２スコアとを減算し、統合スコアを算出する機能と、
前記統合スコアに基づいて所定の基準に従って選択された１以上の重要単語、または、該重要単語を含む前記第３文書群中の１以上のテキストの少なくとも一方を、前記第１商品と前記第２商品との組み合わせ効果に関する情報を含む推薦理由として提示する機能と、を実現させるためのプログラム。