JP6235386B2 - Information presenting apparatus, information presenting method, and program - Google Patents

Information presenting apparatus, information presenting method, and program Download PDF

Info

Publication number
JP6235386B2
JP6235386B2 JP2014057009A JP2014057009A JP6235386B2 JP 6235386 B2 JP6235386 B2 JP 6235386B2 JP 2014057009 A JP2014057009 A JP 2014057009A JP 2014057009 A JP2014057009 A JP 2014057009A JP 6235386 B2 JP6235386 B2 JP 6235386B2
Authority
JP
Japan
Prior art keywords
product
document group
score
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014057009A
Other languages
Japanese (ja)
Other versions
JP2015179441A (en
Inventor
浜田 伸一郎
伸一郎 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2014057009A priority Critical patent/JP6235386B2/en
Publication of JP2015179441A publication Critical patent/JP2015179441A/en
Application granted granted Critical
Publication of JP6235386B2 publication Critical patent/JP6235386B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明の実施形態は、情報提示装置、情報提示方法およびプログラムに関する。   Embodiments described herein relate generally to an information presentation apparatus, an information presentation method, and a program.

電子商取引(EC:Electronic Commerce)のサービスを提供するECシステムの多くは、ユーザがある商品を参照しているときに、その商品に関連する別の商品を併せて提示する商品推薦機能を持つ。商品推薦機能は、ユーザが参照している商品(以下、「第1商品」という。)と同種の商品を購入の選択肢として提示する対立型推薦と、第1商品と調和する別商品(以下、「第2商品」という。)を紹介して、いわゆる“ついで買い”を促す調和型推薦に大別される。このうち調和型推薦は、多くの場合、統計的観点において第1商品と相関性の高い商品を第2商品として提示する仕組みによって実現されている。   Many EC systems that provide electronic commerce (EC) services have a product recommendation function that presents another product related to the product when the user is browsing the product. The product recommendation function is a product that is referred to by the user (hereinafter referred to as “first product”) as a purchase option, and another type of product (hereinafter referred to as “first product”) that harmonizes with the first product. "Second product"), which is broadly divided into so-called “harmonious recommendation” that encourages “buying”. Of these, harmonized recommendation is often realized by a mechanism that presents a product highly correlated with the first product as the second product from a statistical viewpoint.

調和型推薦においては、第1商品と第2商品との組み合わせ効果をユーザが認識していることが重要である。つまり、第1商品と併せて単に第2商品を提示しただけでは、ユーザがこれらの商品の組み合わせ効果を認識していない場合、第2商品を“ついで買い”する動機付けが生まれない。例えば、秩父のB級グルメとして話題になった「味噌ポテト」を知らないユーザにとっては、「味噌」と併せて「ジャガイモ」が提示されただけでは、これらは奇妙な食材の組み合わせに感じられるだけで、「味噌」のついでに「ジャガイモ」を買おうとする購買意欲は生じない。このため、第2商品を提示する際には、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を併せて提示することが、調和型推薦による販売促進の効果を高める上で有効になると考えられる。   In harmonized recommendation, it is important that the user recognizes the combined effect of the first product and the second product. In other words, simply presenting the second product together with the first product does not create a motivation to “buy” the second product if the user does not recognize the combined effect of these products. For example, for users who do not know "Miso Potato", which has become a hot topic for Chichibu's Class B gourmet, just presenting "potato" along with "Miso" can only be felt as a strange combination of ingredients. Therefore, there is no willingness to purchase “potato” along with “miso”. For this reason, when presenting the second product, presenting the recommendation reason including information related to the combination effect of the first product and the second product together in order to enhance the sales promotion effect by the harmonized recommendation. It will be effective.

しかし、これまでのECシステムでは、商品単体に関する推薦理由を提示する仕組み(例えばレビュー表示機能など)は持っていても、複数の商品の組み合わせ効果に関する情報を含む推薦理由を提示する仕組みは持っていない。このため、このような組み合わせ効果に関する情報を含む推薦理由を提示する仕組みの構築が求められている。   However, the EC system so far has a mechanism for presenting the reason for recommendation for a single product (for example, a review display function), but has a mechanism for presenting a reason for recommendation including information on the combined effect of multiple products. Absent. For this reason, there is a demand for the construction of a mechanism for presenting a reason for recommendation including information on such a combination effect.

特開2006−190127号公報JP 2006-190127 A

本発明が解決しようとする課題は、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる情報提示装置、情報提示方法およびプログラムを提供することである。   The problem to be solved by the present invention is to provide an information presentation device that can appropriately present a reason for recommendation including information related to the effect of combination of the first product and the second product, and can enhance the effect of sales promotion by harmonized recommendation. It is to provide an information presentation method and program.

実施形態の情報提示装置は、ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置であり、第1スコア算出部と、第2スコア算出部と、第3スコア算出部と、統合スコア算出部と、提示部と、を備える。第1スコア算出部は、検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する。第2スコア算出部は、検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する。第3スコア算出部は、検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する。統合スコア算出部は、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する。提示部は、前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する。   The information presentation apparatus according to the embodiment presents a recommendation reason including information on a combination effect of the first product and the second product when recommending a second product that harmonizes with the first product referred to by the user. The information presentation device includes a first score calculation unit, a second score calculation unit, a third score calculation unit, an integrated score calculation unit, and a presentation unit. The first score calculation unit extracts a first document group related to the first product from the document group to be searched, and represents a relationship with the first product for each word included in the first document group. A first score is calculated. The second score calculation unit extracts a second document group relating to the second product from the document group to be searched, and represents each word included in the second document group and the relevance to the second product. A second score is calculated. The third score calculation unit extracts a third document group relating to both the first product and the second product from the document group to be searched, and for each word included in the third document group, A third score representing the relevance of both one product and the second product is calculated. The integrated score calculating unit calculates an integrated score by subtracting the first score and the second score from the third score for each word included in the third document group. The presenting unit selects at least one of one or more important words selected according to a predetermined criterion based on the integrated score or one or more texts in the third document group including the important words as the reason for recommendation. Present.

図1は、第1実施形態の情報提示装置の構成例を示す図である。FIG. 1 is a diagram illustrating a configuration example of the information presentation apparatus according to the first embodiment. 図2は、A文書群抽出器の処理手順を示すフローチャートである。FIG. 2 is a flowchart showing the processing procedure of the A document group extractor. 図3は、単語の表現正規化に用いる同意語辞書の一例を示す図である。FIG. 3 is a diagram illustrating an example of a synonym dictionary used for word expression normalization. 図4は、全文書群抽出器の処理手順を示すフローチャートである。FIG. 4 is a flowchart showing the processing procedure of the all document group extractor. 図5は、単語関連度評価器の処理手順を示すフローチャートである。FIG. 5 is a flowchart showing the processing procedure of the word relevance evaluator. 図6は、単語重要度評価器の処理手順を示すフローチャートである。FIG. 6 is a flowchart showing a processing procedure of the word importance degree evaluator. 図7は、統合スコア算出部の処理手順を示すフローチャートである。FIG. 7 is a flowchart illustrating a processing procedure of the integrated score calculation unit. 図8は、固有文出力器の処理手順を示すフローチャートである。FIG. 8 is a flowchart showing the processing procedure of the specific sentence output device. 図9は、第2実施形態の情報提示装置の構成例を示す図である。FIG. 9 is a diagram illustrating a configuration example of the information presentation apparatus according to the second embodiment. 図10は、A文書群抽出器の処理手順を示すフローチャートである。FIG. 10 is a flowchart showing the processing procedure of the A document group extractor. 図11は、A∩B文書群抽出器の処理手順を示すフローチャートである。FIG. 11 is a flowchart showing a processing procedure of the A∩B document group extractor. 図12は、A∩B文書群抽出器の判定例を説明する図である。FIG. 12 is a diagram for explaining a determination example of the A∩B document group extractor. 図13は、単語関連度評価器の処理手順を示すフローチャートである。FIG. 13 is a flowchart showing the processing procedure of the word relevance evaluator. 図14は、情報提示装置のハードウェア構成例を示すブロック図である。FIG. 14 is a block diagram illustrating a hardware configuration example of the information presentation device.

以下、実施形態の情報提示装置、情報提示方法およびプログラムを、図面を参照して詳細に説明する。   Hereinafter, an information presentation device, an information presentation method, and a program according to embodiments will be described in detail with reference to the drawings.

実施形態の情報提示装置は、ユーザが参照している第1商品に調和する第2商品を推薦する際に、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する。このような推薦理由をあらゆる商品の組み合わせについて予め人手で作成することは困難である。しかし、商品の組み合わせ効果に関する情報は、例えば、各種のWebページ、SNS(Social Networking Service)、ブログなどの文書群に存在する。そこで、本実施形態では、このような文書群から両商品に関する文書群を見つけ出し、さらに商品の組み合わせ効果などの推薦理由としてふさわしい言及箇所を特定してユーザに提示する。なお、以下では説明の簡便化のため、第1商品を商品A、第1商品に関する記載のある文書をA文書、第2商品を商品B、第2商品に関する記載のある文書をB文書、第1商品と第2商品との双方に関する記載のある文書をA∩B文書と呼ぶ。   The information presentation apparatus according to the embodiment presents a reason for recommendation including information related to a combination effect of the first product and the second product when recommending the second product in harmony with the first product referred to by the user. It is difficult to manually create such a reason for recommendation for all combinations of products in advance. However, information related to the combination effect of products exists in document groups such as various Web pages, SNS (Social Networking Service), and blogs. Therefore, in the present embodiment, a document group related to both products is found from such a document group, and further, a reference location suitable as a recommendation reason such as a combination effect of products is specified and presented to the user. In the following, for the sake of simplicity of explanation, the first product is the product A, the document with the description about the first product is the A document, the second product is the product B, the document with the description about the second product is the B document, A document that describes both one product and second product is called an A∩B document.

<第1実施形態>
まず、第1実施形態の情報提示装置について説明する。図1は、第1実施形態の情報提示装置の構成例を示す図である。本実施形態の情報提示装置は、図1に示すように、第1スコア算出部10と、第2スコア算出部20と、第3スコア算出部30と、第4スコア算出部40と、統合スコア算出部50と、提示部60とを備え、文書DB(Database)100から取得した第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を画面200に表示して、ECシステムのサービスを利用しているユーザに提示する。なお、本実施形態の情報処理装置は、ECシステムの機能の一部として実現されることを想定するが、これに限らず、例えばECシステムと連動して動作する独立のシステムあるいは装置として構成されてもよい。
<First Embodiment>
First, the information presentation apparatus according to the first embodiment will be described. FIG. 1 is a diagram illustrating a configuration example of the information presentation apparatus according to the first embodiment. As shown in FIG. 1, the information presentation apparatus according to the present embodiment includes a first score calculation unit 10, a second score calculation unit 20, a third score calculation unit 30, a fourth score calculation unit 40, and an integrated score. The EC system service includes a calculation unit 50 and a presentation unit 60, and displays a recommendation reason including information on the combination effect of the first product and the second product acquired from the document DB (Database) 100 on the screen 200. Present to users who use. Note that the information processing apparatus according to the present embodiment is assumed to be realized as part of the functions of the EC system, but is not limited thereto, and is configured as an independent system or apparatus that operates in conjunction with the EC system, for example. May be.

文書DB100は、本実施形態において検索対象とする任意の文書群であり、各種のWebページ、SNS、ブログなどを想定している。また、画面200は、ECシステムのサービスを利用しているユーザの端末装置に表示される画面を想定しており、一般的にはWebブラウザを搭載する端末装置に表示されるWeb画面である。   The document DB 100 is an arbitrary document group to be searched in the present embodiment, and assumes various Web pages, SNSs, blogs, and the like. The screen 200 is assumed to be a screen displayed on a terminal device of a user who uses an EC system service, and is generally a Web screen displayed on a terminal device equipped with a Web browser.

第1スコア算出部10は、A文書群抽出器11と、単語関連度評価器12とを含む。   The first score calculation unit 10 includes an A document group extractor 11 and a word relevance evaluator 12.

A文書群抽出器11は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Aに関する記載のあるA文書をすべて抽出してA文書群15を得る。   The A document group extractor 11 performs a word-based search on the document DB 100, extracts all A documents with descriptions about the product A from the document DB 100, and obtains the A document group 15.

単語関連度評価器12は、A文書群15における各単語のヒストグラム(単語ごとの頻度を列挙したデータ)を作成し、各単語のそれぞれについて、A文書群15中の出現頻度に応じた第1スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第1スコアとする。したがって、第1スコアは負の値であり、A文書群15中の出現頻度が高い単語ほど、0に近い高い値の第1スコアが与えられる。   The word relevance evaluator 12 creates a histogram of each word in the A document group 15 (data listing the frequencies for each word), and the first word corresponding to the appearance frequency in the A document group 15 for each word. Calculate the score. However, each word uses a dictionary to absorb notation fluctuations such as full-width, Japanese-English, and sending kana. Also, the appearance frequency of each word is normalized by dividing by the total number of words, and the log scale is used as the first score. Therefore, the first score is a negative value, and a word having a higher appearance frequency in the A document group 15 is given a first score having a higher value near 0.

第2スコア算出部20は、B文書群抽出器21と、単語関連度評価器22とを含む。   The second score calculation unit 20 includes a B document group extractor 21 and a word association degree evaluator 22.

B文書群抽出器21は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Bについての記載のあるB文書をすべて抽出してB文書群25を得る。   The B document group extractor 21 performs a word-based search on the document DB 100 and extracts all B documents having a description about the product B from the document DB 100 to obtain a B document group 25.

単語関連度評価器22は、B文書群25における各単語のヒストグラムを作成し、各単語のそれぞれについて、B文書群25中の出現頻度に応じた第2スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第2スコアとする。したがって、第2スコアは負の値であり、B文書群25中の出現頻度が高い単語ほど、0に近い高い値の第2スコアが与えられる。   The word relevance evaluator 22 creates a histogram of each word in the B document group 25, and calculates a second score corresponding to the appearance frequency in the B document group 25 for each word. However, each word uses a dictionary to absorb notation fluctuations such as full-width, Japanese-English, and sending kana. Also, the appearance frequency of each word is normalized by dividing by the total number of words, and the log scale is used as the second score. Therefore, the second score is a negative value, and a word having a higher appearance frequency in the B document group 25 is given a second score having a higher value near 0.

第3スコア算出部30は、A∩B文書群抽出器31と、単語関連度評価器32とを含む。   The third score calculation unit 30 includes an A∩B document group extractor 31 and a word relevance evaluator 32.

A∩B文書群抽出器31は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Aと商品Bとの双方についての記載のあるA∩B文書をすべて抽出してA∩B文書群35を得る。   The A∩B document group extractor 31 performs a word-based search on the document DB 100, extracts all A∩B documents having descriptions about both the products A and B from the document DB 100, and extracts the A∩B. A document group 35 is obtained.

単語関連度評価器32は、A∩B文書群35における各単語のヒストグラムを作成し、各単語のそれぞれについて、A∩B文書群35中の出現頻度に応じた第3スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第3スコアとする。したがって、第3スコアは負の値であり、A∩B文書群中の出現頻度が高い単語ほど、0に近い高い値の第3スコアが与えられる。   The word relevance evaluator 32 creates a histogram of each word in the A∩B document group 35 and calculates a third score corresponding to the appearance frequency in the A∩B document group 35 for each word. However, each word uses a dictionary to absorb notation fluctuations such as full-width, Japanese-English, and sending kana. Further, the appearance frequency of each word is normalized by dividing by the total number of words, and a log scale is used as the third score. Therefore, the third score is a negative value, and a word having a higher appearance frequency in the A∩B document group is given a third score having a higher value near 0.

第4スコア算出部40は、全文書群抽出器41と、単語重要度評価器42とを含む。   The fourth score calculation unit 40 includes an all document group extractor 41 and a word importance level evaluator 42.

全文書群抽出器41は、文書DB100から文書をすべて抽出して全文書群45を得る。   The all document group extractor 41 extracts all documents from the document DB 100 to obtain the all document group 45.

単語重要度評価器42は、全文書群45における各単語が含まれる文書数のヒストグラムを作成し、各単語のそれぞれについて、全文書群45中における当該単語を含む文書の出現頻度に応じた第4スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語を含む文書の出現頻度は総文書数で割ることで数値を正規化し、logスケールにしてさらに正負を反転させたものを第4スコアとする。したがって、第4スコアは正の値であり、当該単語を含む文書の出現頻度が低いほど高い値の第4スコアが与えられる。   The word importance evaluator 42 creates a histogram of the number of documents including each word in the entire document group 45, and for each word, the word importance level evaluator 42 corresponds to the appearance frequency of the document including the word in the entire document group 45. 4 scores are calculated. However, each word uses a dictionary to absorb notation fluctuations such as full-width, Japanese-English, and sending kana. Also, the appearance frequency of documents including each word is normalized by dividing the total frequency by the total number of documents, and the log scale is used to further reverse the positive and negative values as the fourth score. Accordingly, the fourth score is a positive value, and a higher fourth score is given as the appearance frequency of the document including the word is lower.

統合スコア算出部50は、A∩B文書群35に含まれる各単語のそれぞれについて、第3スコアと、第1スコアと、第2スコアと、第4スコアとを用いて、後述の式(1)を用いた計算によって統合スコアを算出する。統合スコアは、商品Aと商品Bとの双方に関する話題に対する固有性を表す指標であり、商品Aと商品Bとの双方に関する話題に対する固有性が高い単語ほど、高い値の統合スコアが与えられる。   The integrated score calculation unit 50 uses the third score, the first score, the second score, and the fourth score for each of the words included in the A∩B document group 35 to obtain the following formula (1 ) Is used to calculate the integrated score. The integrated score is an index representing the uniqueness to the topic related to both the product A and the product B, and a higher integrated score is given to a word having a higher uniqueness to the topic related to both the product A and the product B.

提示部60は、固有語出力器61と、固有文出力器62とを含む。   The presentation unit 60 includes a proper word output device 61 and a proper sentence output device 62.

固有語出力器61は、統合スコアに基づいて、商品Aと商品Bとの双方に関する話題に対する固有性が高い1以上の重要単語(固有語)を選択し、単語ベースの推薦理由65として画面200に出力する。推薦理由が単語のみでよい場合は、この固有語出力器61が出力する単語ベースの推薦理由65が画面200に表示される。   The proper word output unit 61 selects one or more important words (proprietary words) that are highly specific to the topics related to both the products A and B based on the integrated score, and displays the screen 200 as the word-based recommendation reason 65. Output to. When the recommendation reason is only a word, the word-based recommendation reason 65 output from the proper word output unit 61 is displayed on the screen 200.

固有文出力器62は、A∩B文書群35から、固有語出力器61により選択された重要単語(固有語)を多く持つ1以上の文を選択し、文ベースの推薦理由66として画面200に出力する。推薦理由を文とすることが要求される場合は、この固有文出力器62が出力する文ベースの推薦理由66が画面200に表示される。また、固有語出力器61が出力する単語ベースの推薦理由65と、固有文出力器62が出力する文ベースの推薦理由66との双方を画面200に表示させるようにしてもよい。   The proper sentence output device 62 selects one or more sentences having many important words (proprietary words) selected by the proper word output device 61 from the A∩B document group 35, and displays the screen 200 as the sentence-based recommendation reason 66. Output to. When the recommendation reason is required to be a sentence, a sentence-based recommendation reason 66 output from the specific sentence output unit 62 is displayed on the screen 200. Further, both the word-based recommendation reason 65 output from the unique word output unit 61 and the sentence-based recommendation reason 66 output from the specific sentence output unit 62 may be displayed on the screen 200.

なお、本実施形態では、固有文出力器62の処理単位を文としているが、固有文出力器62は、文ではなく、フレーズ、パッセージ、パラグラフなどを処理単位としてもよい。この場合も、固有文出力器62の処理単位が変わるだけで、同様の処理により所望のテキストを推薦理由として画面200に表示させることができる。   In the present embodiment, the processing unit of the specific sentence output unit 62 is a sentence, but the specific sentence output unit 62 may use a phrase, passage, paragraph, or the like as a processing unit instead of a sentence. In this case as well, the desired text can be displayed on the screen 200 as a recommendation reason by the same processing only by changing the processing unit of the specific sentence output device 62.

次に、本実施形態の情報提示装置を構成する上述した各部による処理手順の詳細について説明する。   Next, the details of the processing procedure by each of the above-described units constituting the information presentation apparatus of the present embodiment will be described.

まず、A文書群抽出器11の処理手順を説明する。A文書群抽出器11の処理は、文書DB100からすべてのA文書を見つけ出すことが目的である。A文書の抽出は、例えば、従来的な方法を用いた単語ベースの検索により行うことができる。一般的な検索処理では、検索対象の文書群のインデックスをあらかじめ作成しておく処理方式を用いるのが一般的である。しかし、本実施形態では説明を簡単にするため、インデックスを作成しないで検索するgrep方式を用いるものとする。   First, the processing procedure of the A document group extractor 11 will be described. The purpose of the processing of the A document group extractor 11 is to find all A documents from the document DB 100. The extraction of the A document can be performed by, for example, a word-based search using a conventional method. In general search processing, it is common to use a processing method in which an index of a document group to be searched is created in advance. However, in this embodiment, to simplify the description, it is assumed that a grep method for searching without creating an index is used.

図2は、A文書群抽出器11の処理手順を示すフローチャートである。A文書群抽出器11は、まず、A商品に関するメタデータから商品名を取り出して、これを検索のクエリとする(ステップS101)。   FIG. 2 is a flowchart showing a processing procedure of the A document group extractor 11. The A document group extractor 11 first extracts the product name from the metadata related to the A product and uses it as a search query (step S101).

次に、A文書群抽出器11は、クエリの表現正規化を行う(ステップS102)。具体的には、A文書群抽出器11は、まずクエリの表記ゆれ(半全角、日英、送り仮名など)を吸収し、さらに図3に示すような同意語辞書を用いて、クエリ(ここでは商品Aの商品名)を代表的表現に置き換える。例えば、クエリ「スマホ」は「スマートフォン」に置換され、クエリ「パソコン」は「PC」に置換される。   Next, the A document group extractor 11 performs query normalization (step S102). Specifically, the A document group extractor 11 first absorbs a query notation fluctuation (half-width, Japanese-English, kana, etc.), and further uses a synonym dictionary as shown in FIG. Then, the product name of product A) is replaced with a representative expression. For example, the query “smartphone” is replaced with “smartphone”, and the query “personal computer” is replaced with “PC”.

次に、A文書群抽出器11は、文書DB100から文書を1つ取り出す(ステップS103)。そして、A文書抽出器11は、ステップS103で取り出した文書に含まれる各単語に対して、ステップS102と同様の手法により表現正規化を行う(ステップS104)。   Next, the A document group extractor 11 takes out one document from the document DB 100 (step S103). Then, the A document extractor 11 performs expression normalization for each word included in the document extracted in step S103 by the same method as in step S102 (step S104).

次に、A文書群抽出器11は、ステップS104で単語の表現正規化が行われた文書内に、ステップS102で表現正規化が行われたクエリ(つまり商品Aの商品名)が含まれているか確認し、表現正規化されたクエリが含まれていれば、出力するA文書群15に当該文書を追加する(ステップS105)。   Next, the A document group extractor 11 includes the query (in other words, the product name of the product A) subjected to the expression normalization in step S102 in the document in which the word expression normalization is performed in step S104. If the expression normalized query is included, the document is added to the A document group 15 to be output (step S105).

次に、A文書群抽出器11は、文書DB100から取り出していない文書があるか否かを判定し(ステップS106)、文書DB100から取り出していない文書があれば(ステップS106:Yes)、ステップS103に戻って以降の処理を繰り返す。一方、文書DB100のすべての文書に対してステップS103〜ステップS105の処理を行っていれば(ステップS106:No)、A文書群抽出器11は、A文書群15を出力し(ステップS107)、一連の処理を終了する。   Next, the A document group extractor 11 determines whether there is a document that has not been extracted from the document DB 100 (step S106). If there is a document that has not been extracted from the document DB 100 (step S106: Yes), step S103 is performed. Return to and repeat the subsequent processing. On the other hand, if the processing of steps S103 to S105 has been performed for all the documents in the document DB 100 (step S106: No), the A document group extractor 11 outputs the A document group 15 (step S107). A series of processing ends.

B文書群抽出器21の処理は、文書DB100からすべてのB文書を見つけ出すことが目的である。B文書の抽出は、A文書の抽出と同様に単語ベースの検索により行う。B文書群抽出器21の処理は、検索に用いるクエリが商品Bの商品名に置き換わり、出力する文書群がB文書群25となるだけで、上述したA文書群抽出器11の処理と同様であるため、詳細な説明は省略する。   The process of the B document group extractor 21 is to find all B documents from the document DB 100. The extraction of the B document is performed by word-based search in the same manner as the extraction of the A document. The process of the B document group extractor 21 is the same as the process of the A document group extractor 11 described above, except that the query used for the search is replaced with the product name of the product B and the document group to be output is the B document group 25. Therefore, detailed description is omitted.

A∩B文書群抽出器31の処理は、文書DB100からすべてのA∩B文書を見つけ出すことが目的である。A∩B文書の抽出は、A文書やB文書の抽出と同様に単語ベースの検索により行う。A∩B文書群抽出器31の処理は、検索に用いるクエリが商品Aの商品名と商品Bの商品名のアンド条件となり、出力する文書群がA∩B文書群35となるだけで、上述したA文書群抽出器11やB文書群抽出器21の処理と同様であるため、詳細な説明は省略する。   The purpose of the processing of the A 群 B document group extractor 31 is to find all the A∩B documents from the document DB 100. The extraction of the A∩B document is performed by word-based search in the same manner as the extraction of the A document and the B document. The processing of the A∩B document group extractor 31 is as described above only when the query used for the search is an AND condition between the product name of the product A and the product name of the product B, and the output document group is the A∩B document group 35. Since the processing is the same as that performed by the A document group extractor 11 and the B document group extractor 21, detailed description thereof is omitted.

全文書群抽出器41の処理は、文書DB100から全文書を取り出して、後続処理のためにそれぞれの文書に含まれる各単語の表現正規化を行うことが目的である。   The processing of the all document group extractor 41 is intended to take out all documents from the document DB 100 and normalize the expression of each word included in each document for subsequent processing.

図4は、全文書群抽出器41の処理手順を示すフローチャートである。全文書群抽出器41は、まず、文書DB100から文書を1つ取り出す(ステップS201)。そして、全文書抽出器41は、ステップS201で取り出した文書に含まれる各単語に対して、図2のステップS102と同様の手法により表現正規化を行い(ステップS202)、出力する全文書群45に当該文書を追加する(ステップS203)。   FIG. 4 is a flowchart showing the processing procedure of the all document group extractor 41. First, the all document group extractor 41 extracts one document from the document DB 100 (step S201). Then, the all document extractor 41 performs expression normalization for each word included in the document extracted in step S201 by the same method as in step S102 in FIG. 2 (step S202), and outputs all documents 45 The document is added to (step S203).

次に、全文書群抽出器41は、文書DB100から取り出していない文書があるか否かを判定し(ステップS204)、文書DB100から取り出していない文書があれば(ステップS204:Yes)、ステップS201に戻って以降の処理を繰り返す。一方、文書DB100のすべての文書に対してステップS201〜ステップS203の処理を行っていれば(ステップS204:No)、全文書群抽出器41は、全文書群45を出力し(ステップS205)、一連の処理を終了する。   Next, the all document group extractor 41 determines whether there is a document that has not been extracted from the document DB 100 (step S204). If there is a document that has not been extracted from the document DB 100 (step S204: Yes), step S201 is performed. Return to and repeat the subsequent processing. On the other hand, if the processing in steps S201 to S203 has been performed on all the documents in the document DB 100 (step S204: No), the all document group extractor 41 outputs the all document group 45 (step S205). A series of processing ends.

次に、単語関連度評価器12の処理手順を説明する。単語関連度評価器12の処理は、A文書群15に含まれる各単語について、商品Aとの関連性を表す第1スコアを算出することを目的とする。本実施形態では、A文書群15における各単語の出現数を総単語数で割りlogスケールに変換することで各単語の対数確率を求め、これを第1スコアとする。これは、単位テキスト量あたりの各単語の頻度を計測していることとなり、情報検索においてよく用いられる指標であるtf(term frequency)を正規化したものと同等と言える。   Next, the processing procedure of the word relevance evaluator 12 will be described. The processing of the word relevance evaluator 12 is intended to calculate a first score representing the relevance with the product A for each word included in the A document group 15. In the present embodiment, the log probability of each word is obtained by dividing the number of occurrences of each word in the A document group 15 by the total number of words and converting it to a log scale, and this is used as the first score. This means that the frequency of each word per unit text amount is measured, and can be said to be equivalent to normalizing tf (term frequency), which is an index often used in information retrieval.

図5は、単語関連度評価器12の処理手順を示すフローチャートである。単語関連度評価器12は、まず、各単語の出現数を集計するための集計用ヒストグラムを初期化する(ステップS301)。   FIG. 5 is a flowchart showing a processing procedure of the word relevance evaluator 12. First, the word relevance evaluator 12 initializes a counting histogram for counting the number of appearances of each word (step S301).

次に、単語関連度評価器12は、A文書群15から文書を1つ取り出す(ステップS302)。そして、単語関連度評価器12は、ステップS302で取り出した文書内に含まれる単語のヒストグラムを作成し(ステップS303)、得られたヒストグラムを集計用ヒストグラムに加算する(ステップS304)。   Next, the word relevance evaluator 12 extracts one document from the A document group 15 (step S302). Then, the word relevance evaluator 12 creates a histogram of words included in the document extracted in step S302 (step S303), and adds the obtained histogram to the aggregation histogram (step S304).

次に、単語関連度評価器12は、A文書群15から取り出していない文書があるか否かを判定し(ステップS305)、A文書群15から取り出していない文書があれば(ステップS305:Yes)、ステップS302に戻って以降の処理を繰り返す。一方、A文書群15のすべての文書に対してステップS302〜ステップS304の処理を行っていれば(ステップS305:No)、単語関連度評価器12は、集計用ヒストグラムから各単語の対数確率を割り出す(ステップS306)。具体的には、集計用ヒストグラムが示す各単語の頻度をx、A文書群15中の総単語数をyとすると、対数確率はlog(x/y)である。そして、単語関連度評価器12は、ステップS306で算出した各単語の対数確率を、各単語の第1スコアとして出力し(ステップS307)、一連の処理を終了する。なお、x=0の場合、対数確率は−∞となる。∞や−∞は計算機では直接扱えないため、極端に大きな値や小さな値で代用する方法が考えられる。以降においても∞や−∞を扱う場合は同様の方法を用いればよい。   Next, the word relevance evaluator 12 determines whether there is a document that has not been extracted from the A document group 15 (step S305), and if there is a document that has not been extracted from the A document group 15 (step S305: Yes). ), Returning to step S302, the subsequent processing is repeated. On the other hand, if the processing of step S302 to step S304 is performed on all the documents in the A document group 15 (step S305: No), the word relevance evaluator 12 calculates the log probability of each word from the aggregation histogram. The index is determined (step S306). Specifically, the log probability is log (x / y), where x is the frequency of each word indicated by the aggregation histogram and y is the total number of words in the A document group 15. Then, the word relevance evaluator 12 outputs the log probability of each word calculated in step S306 as the first score of each word (step S307), and ends the series of processes. When x = 0, the log probability is −∞. Since ∞ and −∞ cannot be directly handled by a computer, a method of substituting an extremely large value or a small value can be considered. In the following, the same method may be used when dealing with ∞ and −∞.

単語関連度評価器22の処理は、B文書群25に含まれる各単語について、商品Bとの関連性を表す第2スコアを算出することを目的とする。第2スコアは、第1スコアと同様に、B文書群25に含まれる各単語の対数確率である。単語関連度評価器22の処理は、与えられる文書セットがB文書群25に置き換わり、B文書群25に含まれる各単語の対数確率を第2スコアとして出力するだけで、上述した単語関連度評価器12の処理と同様であるため、詳細な説明は省略する。   The processing of the word relevance evaluator 22 is intended to calculate a second score representing the relevance with the product B for each word included in the B document group 25. Similar to the first score, the second score is a logarithmic probability of each word included in the B document group 25. The processing of the word relevance evaluation unit 22 replaces the given document set with the B document group 25, and outputs the log probabilities of the words included in the B document group 25 as the second score. Since it is the same as the process of the container 12, detailed description is abbreviate | omitted.

単語関連度評価器32の処理は、A∩B文書群35に含まれる各単語について、商品Aおよび商品Bの双方との関連性を表す第3スコアを算出することを目的とする。第3スコアは、第1スコアや第2スコアと同様に、A∩B文書群35に含まれる各単語の対数確率である。単語関連度評価器32の処理は、与えられる文書セットがA∩B文書群35に置き換わり、A∩B文書群35に含まれる各単語の対数確率を第3スコアとして出力するだけで、上述した単語関連度評価器12の処理と同様であるため、詳細な説明は省略する。   The process of the word relevance evaluator 32 is intended to calculate a third score representing the relevance of both the product A and the product B for each word included in the A∩B document group 35. The third score is the logarithmic probability of each word included in the A∩B document group 35, like the first score and the second score. The processing of the word relevance evaluator 32 is as described above only by replacing the given document set with the A∩B document group 35 and outputting the log probabilities of each word included in the A∩B document group 35 as the third score. Since it is the same as the processing of the word relevance evaluator 12, detailed description is omitted.

次に、単語重要度評価器42の処理手順を説明する。単語重要度評価器42の処理は、文書DB100内の各単語が持つ一般的な重要性を表す第4スコアを算出することを目的とする。本実施形態では、単語の重要性の指標として情報検索などでよく用いられるidf(Inverse Document Frequency)を求めて、これを各単語の第4スコアとする。ある単語のidfは,当該単語を含む文書の負の対数確率である。つまり、当該単語を含む文書数をx、全文書数をyとすると、idf=−log(x/y)である。一般的に、めったに出現しない単語(すなわち出現確率の低い単語)は、出現した際に読者に与える情報量が多く重要であると考えられるが、この場合、idfは高い値を示す。   Next, the processing procedure of the word importance degree evaluator 42 will be described. The processing of the word importance level evaluator 42 is intended to calculate a fourth score representing the general importance of each word in the document DB 100. In this embodiment, idf (Inverse Document Frequency) often used in information retrieval or the like is obtained as an index of word importance, and this is used as the fourth score of each word. The idf of a word is a negative log probability of a document containing the word. That is, if the number of documents including the word is x and the total number of documents is y, idf = −log (x / y). In general, a word that rarely appears (that is, a word with a low appearance probability) is considered to be important because the amount of information given to the reader is large when it appears. In this case, idf shows a high value.

図6は、単語重要度評価器42の処理手順を示すフローチャートである。単語重要度評価器42は、まず、各単語の出現数を集計するための集計用ヒストグラムを初期化する(ステップS401)。   FIG. 6 is a flowchart showing a processing procedure of the word importance degree evaluator 42. First, the word importance degree evaluator 42 initializes a totaling histogram for counting the number of appearances of each word (step S401).

次に、単語重要度評価器42は、全文書群45から文書を1つ取り出す(ステップS402)。そして、単語重要度評価器42は、ステップS402で取り出した文書内に含まれる単語の2値ヒストグラムを作成し(ステップS403)、得られたヒストグラムを集計用ヒストグラムに加算する(ステップS404)。2値ヒストグラムは、1か0の頻度値しか持たないヒストグラムであり、文書内に出現する単語に対して、出現数にかかわらず1が与えられる。   Next, the word importance level evaluator 42 extracts one document from the entire document group 45 (step S402). Then, the word importance level evaluator 42 creates a binary histogram of words included in the document extracted in step S402 (step S403), and adds the obtained histogram to the aggregation histogram (step S404). The binary histogram is a histogram having only a frequency value of 1 or 0, and 1 is given to a word appearing in a document regardless of the number of appearances.

次に、単語重要度評価器42は、全文書群45から取り出していない文書があるか否かを判定し(ステップS405)、全文書群45から取り出していない文書があれば(ステップS405:Yes)、ステップS402に戻って以降の処理を繰り返す。一方、全文書群45のすべての文書に対してステップS402〜ステップS404の処理を行っていれば(ステップS405:No)、単語重要度評価器42は、集計用ヒストグラムから各単語を含む文書の負の対数確率を割り出す(ステップS406)。具体的には、集計用ヒストグラムが示す各単語の頻度x、全文書群45の総文書数をyとすると、負の対数確率は−log(x/y)である。そして、単語重要度評価器42は、各単語のそれぞれについて、ステップS406で算出した当該単語を含む文書の負の対数確率を、各単語の第4スコアとして出力し(ステップS407)、一連の処理を終了する。   Next, the word importance level evaluator 42 determines whether there is a document that has not been extracted from the entire document group 45 (step S405), and if there is a document that has not been extracted from the entire document group 45 (step S405: Yes). ), Returning to step S402, the subsequent processing is repeated. On the other hand, if the processing of step S402 to step S404 has been performed on all the documents in all the document groups 45 (step S405: No), the word importance level evaluator 42 determines the document containing each word from the aggregation histogram. A negative log probability is determined (step S406). Specifically, if the frequency x of each word indicated by the aggregation histogram and the total number of documents in all document groups 45 are y, the negative log probability is −log (x / y). Then, for each word, the word importance evaluator 42 outputs the negative logarithmic probability of the document including the word calculated in step S406 as the fourth score of each word (step S407), and a series of processes Exit.

次に、統合スコア算出部50の処理手順を説明する。統合スコア算出部50の処理は、A∩B文書群35内の各単語について、商品Aと商品Bとの双方に関する話題に対する固有性(つまり、A∩B文書群35にのみ顕著に出現する単語であるかどうかの度合い)を表す指標となる統合スコアを算出することを目的とする。これにより、商品Aと商品Bとの組み合わせに関する説明にふさわしい単語を見つけることができるようになる。   Next, the processing procedure of the integrated score calculation unit 50 will be described. The processing of the integrated score calculation unit 50 is performed for each word in the A∩B document group 35 with respect to the uniqueness of the topic regarding both the product A and the product B (that is, a word that appears prominently only in the A∩B document group 35). It is an object to calculate an integrated score that serves as an index representing the degree of whether or not. As a result, it is possible to find a word suitable for explanation regarding the combination of the product A and the product B.

本実施形態では、統合スコアの計算に下記式(1)を用いるものとする。ただし、下記式(1)のwは単語、ntf(w)は与えられた文書セットにおける単語wの対数確率、idfは全文書群45における単語wを含む文書の負の対数確率である。

Figure 0006235386
In the present embodiment, the following formula (1) is used for calculation of the integrated score. In the following formula (1), w is a word, ntf (w) is a logarithmic probability of the word w in a given document set, and idf is a negative logarithmic probability of a document including the word w in the whole document group 45.
Figure 0006235386

式(1)の第1項は、A∩B文書群35における単語wの対数確率を示しており、単語関連度評価器32が出力する第3スコアに相当する。この第1項の値(第3スコア)が高いほど、当該単語wが、A∩B文書群35において多く出現していることを示している。   The first term of Expression (1) indicates the log probability of the word w in the A∩B document group 35, and corresponds to the third score output by the word relevance evaluator 32. The higher the value of the first term (third score), the more the word w appears in the A∩B document group 35.

式(1)の第2項は、A文書群15における単語wの対数確率を示しており、単語関連度評価器12が出力する第1スコアに相当する。この第2項の値(第1スコア)が高いほど、当該単語wがA文書群15において多く出現していることを示している。   The second term of Equation (1) indicates the log probability of the word w in the A document group 15 and corresponds to the first score output by the word relevance evaluator 12. The higher the value of the second term (first score), the more the word w appears in the A document group 15.

式(1)の第3項は、B文書群25における単語wの対数確率を示しており、単語関連度評価器22が出力する第2スコアに相当する。この第3項の値(第2スコア)が高いほど、当該単語wがB文書群25において多く出現していることを示している。   The third term of Equation (1) indicates the log probability of the word w in the B document group 25 and corresponds to the second score output by the word relevance evaluator 22. The higher the value of the third term (second score), the more the word w appears in the B document group 25.

式(1)の第4項は、全文書群45における単語wの希少性を示しており、単語重要度評価器42が出力する第4スコアに相当する。この第4項の値(第4スコア)が高いほど、当該単語wは希少性があり、出現したときの情報量が多く重要な単語であることを示している。   The fourth term of Expression (1) indicates the rarity of the word w in the entire document group 45, and corresponds to the fourth score output by the word importance degree evaluator 42. As the value of the fourth term (fourth score) is higher, the word w is more scarce and indicates that the amount of information when it appears is an important word.

式(1)は、第1項から第2項および第3項を減算して統合スコアを求める計算式となっている。これにより、A∩B文書群35において多く出現し、かつ、A文書群15やB文書群25ではあまり出現していない単語に対し、高い値の統合スコアが与えられることとなる。このことから、統合スコアは、商品Aや商品Bの個別説明ではなく、両商品にまたがる説明にふさわしい度合いを示していると考えられる。なお、第1項を2倍しているのは、第1項から減算している項が2つあるためである。A∩B文書群35、A文書群15、B文書群25のそれぞれで同頻度で出現する単語の固有性は0と考えられるが、式(1)のように第1項を2倍しておくことで、この場合の統合スコアを0とすることができる。ただし、第1項を2倍することは必須ではなく、第1項を2倍せずに第2項および第3項を減算してもよい。   Formula (1) is a calculation formula for obtaining an integrated score by subtracting the second term and the third term from the first term. As a result, a high integrated score is given to words that frequently appear in the A∩B document group 35 and do not frequently appear in the A document group 15 and the B document group 25. From this, it can be considered that the integrated score indicates a degree suitable for the description across both products, not the individual descriptions of the products A and B. The reason why the first term is doubled is that there are two terms subtracted from the first term. The uniqueness of the word appearing at the same frequency in each of the A∩B document group 35, the A document group 15, and the B document group 25 is considered to be 0, but the first term is doubled as shown in Expression (1). Therefore, the integrated score in this case can be set to zero. However, doubling the first term is not essential, and the second and third terms may be subtracted without doubling the first term.

また、式(1)は、第1項から第2項および第3項を減算した値に、さらに第4項を乗算して統合スコアを求める計算式となっている。これにより、各単語の一般的な観点での重要性を加味した統合スコアが得られる。つまり、A文書群15の文書数、B文書群25の文書数、およびA∩B文書群35の文書数が十分でない場合、第4項を乗算せずに各単語の統合スコアを算出すると統合スコアが過適応してしまうリスクがあるが、第4項を乗算することで、このリスクを回避できる。ただし、第4項の乗算は必須ではなく、第4項を乗算せずに統合スコアを算出してもよい。   Formula (1) is a calculation formula for obtaining an integrated score by multiplying the value obtained by subtracting the second term and the third term from the first term by the fourth term. Thereby, the integrated score which considered the importance in the general viewpoint of each word is obtained. That is, if the number of documents in the A document group 15, the number of documents in the B document group 25, and the number of documents in the A∩B document group 35 are not sufficient, the integration score of each word is calculated without multiplying the fourth term. There is a risk that the score is over-adapted, but this risk can be avoided by multiplying the fourth term. However, the multiplication of the fourth term is not essential, and the integrated score may be calculated without multiplying the fourth term.

図7は、統合スコア算出部50の処理手順を示すフローチャートである。統合スコア算出部50は、まず、A∩B文書群35から単語を1つ取り出す(ステップS501)。   FIG. 7 is a flowchart showing a processing procedure of the integrated score calculation unit 50. First, the integrated score calculation unit 50 extracts one word from the A∩B document group 35 (step S501).

次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器32が出力した第3スコアの値を、式(1)の第1項に当てはめる(ステップS502)。   Next, the integrated score calculation unit 50 applies the value of the third score output by the word relevance evaluator 32 to the first term of Expression (1) for the word extracted in Step S501 (Step S502).

次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器12が出力した第1スコアの値を、式(1)の第2項に当てはめる(ステップS503)。   Next, the integrated score calculation unit 50 applies the value of the first score output by the word relevance evaluation unit 12 to the second term of Expression (1) for the word extracted in Step S501 (Step S503).

次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器22が出力した第2スコアの値を、式(1)の第3項に当てはめる(ステップS504)。   Next, the integrated score calculation unit 50 applies the value of the second score output by the word relevance evaluation unit 22 to the third term of Expression (1) for the word extracted in Step S501 (Step S504).

次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語重要度評価器42が出力した第4スコアの値を、式(1)の第4項に当てはめる(ステップS505)。   Next, the integrated score calculation unit 50 applies the value of the fourth score output by the word importance degree evaluator 42 to the fourth term of Expression (1) for the word extracted in Step S501 (Step S505).

次に、統合スコア算出部50は、式(1)を用いて、ステップS501で取り出した単語の統合スコアを算出する(ステップS506)。   Next, the integrated score calculation unit 50 calculates the integrated score of the word extracted in step S501 using equation (1) (step S506).

次に、統合スコア算出部50は、A∩B文書群35から取り出していない単語があるか否かを判定し(ステップS507)、A∩B文書群35から取り出していない単語があれば(ステップS507:Yes)、ステップS501に戻って以降の処理を繰り返す。一方、A∩B文書群35に含まれるすべての単語に対してステップS501〜ステップS506の処理を行っていれば(ステップS507:No)、統合スコア算出部50は、各単語の統合スコアを出力し(ステップS508)、一連の処理を終了する。   Next, the integrated score calculation unit 50 determines whether there is a word that has not been extracted from the A∩B document group 35 (step S507), and if there is a word that has not been extracted from the A∩B document group 35 (step S507). (S507: Yes), the process returns to step S501 and the subsequent processing is repeated. On the other hand, if the processing of steps S501 to S506 is performed for all the words included in the A∩B document group 35 (step S507: No), the integrated score calculation unit 50 outputs the integrated score of each word. Then (step S508), a series of processing is terminated.

次に、固有語出力器61の処理手順を説明する。固有語出力器61の処理は、A∩B文書群35に含まれる単語のうち、商品Aと商品Bとの双方に関する話題に対する固有性の高い単語(固有語)を重要単語として選択して出力することを目的とする。本実施形態では、A∩B文書群35に含まれる単語のうち、統合スコアが高い上位k個の単語を重要単語として出力するものとする。   Next, the processing procedure of the proper word output unit 61 will be described. The processing of the proper word output device 61 selects and outputs, as an important word, a word (proprietary word) having a high specificity with respect to topics related to both the products A and B among the words included in the A に B document group 35. The purpose is to do. In the present embodiment, the top k words having the highest integrated score among the words included in the A∩B document group 35 are output as important words.

すなわち、固有語出力器61は、統合スコア算出部50から出力された統合スコアを値が高い順にソートし、統合スコアの値が高い順に上記k個の単語を重要単語として選択して出力する。B商品の推薦理由が単語のみでよい場合は、この固有語出力器61が出力する重要単語が、単語ベースの推薦理由65として画面200に表示される。また、推薦理由を文とすることが要求される場合は、固有語出力器61が出力する重要単語が、固有文出力器62に渡される。   That is, the proper word output unit 61 sorts the integrated scores output from the integrated score calculation unit 50 in descending order of values, and selects and outputs the k words as important words in descending order of the integrated score value. When the reason for recommendation of the B product is only a word, the important word output by the proper word output unit 61 is displayed on the screen 200 as the word-based recommendation reason 65. When the recommendation reason is required to be a sentence, the important word output from the proper word output unit 61 is passed to the proper sentence output unit 62.

次に、固有文出力器62の処理手順を説明する。固有文出力器62の処理は、A∩B文書群35から重要単語を多く含む文を見つけ出し、文ベースの推薦理由66として画面200に出力することを目的とする。本実施形態では、重要単語を最も多く含むA∩B文書群35中の文をベスト文として見つけ出し、文ベースの推薦理由66として画面200に出力するものとする。なお、上述したように、文の代わりにフレーズ、パッセージ、パラグラフなどを推薦理由として画面200に表示させるようにしてもよい。   Next, the processing procedure of the specific sentence output unit 62 will be described. The processing of the unique sentence output unit 62 is intended to find a sentence including many important words from the A∩B document group 35 and output it to the screen 200 as a sentence-based recommendation reason 66. In the present embodiment, it is assumed that a sentence in the A 含 む B document group 35 that contains the most important words is found as a best sentence and is output to the screen 200 as a sentence-based recommendation reason 66. Note that, as described above, phrases, passages, paragraphs, and the like may be displayed on the screen 200 as the reason for recommendation instead of sentences.

図8は、固有文出力器62の処理手順を示すフローチャートである。固有文出力器62は、まず、ベスト文およびベストスコアを初期化する(ステップS601)。つまり、文ベースの推薦理由66として最終的に出力するベスト文を空文とし、そのベスト文に含まれる各単語の統合スコアの合計値であるベストスコアを−∞にする。   FIG. 8 is a flowchart showing the processing procedure of the specific sentence output unit 62. The unique sentence output unit 62 first initializes the best sentence and the best score (step S601). That is, the best sentence to be finally output as the sentence-based recommendation reason 66 is an empty sentence, and the best score that is the total value of the integrated scores of the words included in the best sentence is set to −∞.

次に、固有文出力器62は、A∩B文書群35から文を1つ取り出す(ステップS602)。そして、固有文出力器62は、ステップS602で取り出した文に含まれる各単語の統合スコアを合計したものを当該文のスコアとする(ステップS603)。   Next, the specific sentence output unit 62 extracts one sentence from the A∩B document group 35 (step S602). Then, the unique sentence output unit 62 sets the total score of the words included in the sentence extracted in step S602 as the score of the sentence (step S603).

次に、固有文出力器62は、ステップS603で求めた文のスコアがベストスコアを上回っているか確認し、ベストスコアを上回っていれば、ベスト文およびベストスコアを、当該文とそのスコアで置き換える(ステップS604)。   Next, the specific sentence output unit 62 confirms whether the score of the sentence obtained in step S603 exceeds the best score. If the score exceeds the best score, the best sentence and the best score are replaced with the sentence and the score. (Step S604).

次に、固有文出力器62は、A∩B文書群35から取り出していない文があるか否かを判定し(ステップS605)、A∩B文書群35から取り出していない文があれば(ステップS605:Yes)、ステップS602に戻って以降の処理を繰り返す。一方、A∩B文書群35に含まれるすべての文に対してステップS602〜ステップS604の処理を行っていれば(ステップS605:No)、固有文出力器62は、ベスト文を文ベースの推薦理由66として出力し(ステップS606)、一連の処理を終了する。   Next, the unique sentence output unit 62 determines whether there is a sentence that has not been extracted from the A∩B document group 35 (step S605), and if there is a sentence that has not been extracted from the A∩B document group 35 (step S605). (S605: Yes), the process returns to step S602 and the subsequent processing is repeated. On the other hand, if the processing in steps S602 to S604 has been performed for all the sentences included in the A∩B document group 35 (step S605: No), the specific sentence output unit 62 recommends the best sentence based on the sentence. The reason 66 is output (step S606), and the series of processing ends.

以上、具体的な例を挙げながら説明したように、本実施形態の情報提示装置によれば、商品Aと商品Bとの双方に関する話題に対する固有が高い単語、あるいはその単語を含む文を特定して単語ベースの推薦理由65、あるいは文ベースの推薦理由66として画面200に表示させる。したがって、この情報提示装置を用いることによって、ECシステムを利用するユーザに対して、商品Aと商品Bとの組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる。すなわち、ECシステムを利用するユーザにとっては、本実施形態の情報提示装置により提示される推薦理由を参照することでB商品を購入する動機付けが生まれ、新体験を伴う商品購入がしやすくなり、店舗にとっては販売機会を増やすことができる。   As described above, as described with specific examples, according to the information presentation apparatus of the present embodiment, a word that is highly specific to a topic related to both the product A and the product B or a sentence including the word is specified. The word-based recommendation reason 65 or the sentence-based recommendation reason 66 is displayed on the screen 200. Therefore, by using this information presentation device, it is possible to appropriately present the reason for recommendation including information relating to the combination effect of the products A and B to the user who uses the EC system, and to promote sales by harmonized recommendation. The effect can be enhanced. That is, for users who use the EC system, the motivation to purchase the B product is born by referring to the reason for recommendation presented by the information presentation device of the present embodiment, and it becomes easier to purchase the product with a new experience, For stores, sales opportunities can be increased.

<第2実施形態>
次に、第2実施形態の情報提示装置について説明する。本実施形態では、ECシステムを利用したユーザによるレビュー記事など、ある商品について記載されていることが事前に予測される文書を、検索対象の文書群として用いる。ECシステムは、商品ページごとにユーザによるレビュー記事を管理していることが多い。このようなレビュー記事は、それぞれの商品に対する感想などを記載した文書であるため、推薦理由を見つけ出す対象として有効に利用できる。ただし、各レビュー記事は、レビュー対象の商品ID(商品識別情報)およびレビュー記事を記載したユーザの購入ログがメタデータとして紐付けられているとする。以下、商品IDおよび購入ログと紐付けられたレビュー記事をラベル付き文書と呼ぶ。
Second Embodiment
Next, an information presentation apparatus according to the second embodiment will be described. In the present embodiment, documents that are predicted in advance to be described for a certain product such as a review article by a user using the EC system are used as a search target document group. EC systems often manage review articles by users for each product page. Such a review article is a document in which an impression of each product is described, and thus can be effectively used as a target for finding out the reason for recommendation. However, it is assumed that each review article is associated with the product ID (product identification information) to be reviewed and the purchase log of the user describing the review article as metadata. Hereinafter, the review article associated with the product ID and the purchase log is referred to as a labeled document.

第1実施形態では、一般的な文書を検索対象としていたため、A文書、B文書、A∩B文書を検索する手がかりとして、文書内に商品名が含まれているかどうかを用いていた。これに対し本実施形態では、検索対象とする各文書に付与されたレビュー対象の商品ID(レビュー記事に商品名が紐付けられている場合は商品名でもよい)を用いて検索する方法を取る。このため、文書検索エラーを排除できる(第1実施形態では表現揺れなどによるエラーのリスクがある)ほか、単に「おいしかった!また買います」などのように商品名が含まれていない文書であっても、メタデータを用いることで簡単に仕分けを行うことができるメリットがある。ただし、文書に紐付けられている商品IDは1つであるため、A∩B文書を判定するのには工夫が必要である。そこで、本実施形態では、近いタイミングで商品Aと商品Bの両商品を購入したユーザがこれらの商品の購入から近いタイミングで記載したレビュー記事は、両商品への言及を含むレビュー記事である可能性が高いという仮説に基づいて、A∩B文書を特定するようにしている。   In the first embodiment, since a general document is a search target, whether or not a product name is included in the document is used as a clue to search for the A document, the B document, and the A∩B document. On the other hand, in the present embodiment, a method of searching using a review target product ID (or a product name if a product name is associated with a review article) assigned to each document to be searched is used. . For this reason, document search errors can be eliminated (in the first embodiment, there is a risk of error due to fluctuations in the expression, etc.), and the document is simply a document that does not contain a product name, such as “It was delicious! However, there is an advantage that sorting can be easily performed by using metadata. However, since the product ID linked to the document is one, it is necessary to devise to determine the A∩B document. Therefore, in this embodiment, the review article described by the user who purchased both the products A and B at a close timing from the purchase of these products may be a review article including a reference to both the products. The A∩B document is specified based on the hypothesis that the property is high.

図9は、第2実施形態の情報提示装置の構成例を示す図である。第2実施形態の情報提示装置は、図9に示すように、第1実施形態の第1スコア算出部10、第2スコア算出部20および第3スコア算出部30(図1参照)に代えて、第1スコア算出部70、第2スコア算出部80および第3スコア算出部90を備えている。また、第2実施形態の情報提示装置は、検索対象の文書集合として、第1実施形態の文書DB100(図1参照)に代えて、ラベル付き文書DB300を用いる。ラベル付き文書DB300は、上述したように、例えばECシステムを利用したユーザによるレビュー記事の集合であり、各レビュー記事は商品IDおよび購入ログ400と紐付けられている。なお、第2実施形態の情報提示装置におけるその他の構成は、上述した第1実施形態と同様であるため、以下、第1実施形態と共通の構成要素については同一の符号を付して、重複した説明を適宜省略する。   FIG. 9 is a diagram illustrating a configuration example of the information presentation apparatus according to the second embodiment. As shown in FIG. 9, the information presentation device of the second embodiment is replaced with the first score calculation unit 10, the second score calculation unit 20, and the third score calculation unit 30 (see FIG. 1) of the first embodiment. The first score calculation unit 70, the second score calculation unit 80, and the third score calculation unit 90 are provided. The information presentation apparatus according to the second embodiment uses a labeled document DB 300 instead of the document DB 100 (see FIG. 1) according to the first embodiment as a search target document set. As described above, the labeled document DB 300 is a collection of review articles by a user using an EC system, for example, and each review article is associated with a product ID and a purchase log 400. In addition, since the other structure in the information presentation apparatus of 2nd Embodiment is the same as that of 1st Embodiment mentioned above, hereafter, the same code | symbol is attached | subjected about the same component as 1st Embodiment, and duplication is carried out. The description will be omitted as appropriate.

第1スコア算出部70は、A文書群抽出器71と、単語関連度評価器12とを含む。A文書群抽出器71は、商品Aの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からA文書をすべて抽出してA文書群15を得る。単語関連度評価器12は、第1実施形態と共通である。   The first score calculation unit 70 includes an A document group extractor 71 and a word relevance evaluator 12. The A document group extractor 71 searches the labeled document DB 300 using the product ID of the product A, extracts all A documents from the labeled document DB 300, and obtains the A document group 15. The word relevance evaluator 12 is common to the first embodiment.

第2スコア算出部80は、B文書群抽出器81と、単語関連度評価器22とを含む。B文書群抽出器81は、商品Bの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からB文書をすべて抽出してB文書群25を得る。単語関連度評価器22は、第1実施形態と共通である。   The second score calculation unit 80 includes a B document group extractor 81 and a word relevance evaluator 22. The B document group extractor 81 searches the labeled document DB 300 using the product ID of the product B, extracts all the B documents from the labeled document DB 300, and obtains the B document group 25. The word relevance evaluator 22 is common to the first embodiment.

第3スコア算出部90は、A∩B文書群抽出器91と、単語関連度評価器92とを含む。   The third score calculation unit 90 includes an A∩B document group extractor 91 and a word relevance evaluator 92.

A∩B文書群抽出器91は、商品Aの商品IDおよび商品Bの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からA∩B文書を抽出して確信度付きA∩B文書群95を得る。ここでラベル付き文書DB300から抽出されるA∩B文書は、上述した仮説に基づいて抽出されるレビュー記事などのラベル付き文書であり、その文書に商品Aと商品Bとの双方に関する記述が含まれていることの確信度が与えられたものである。   The A∩B document group extractor 91 searches the labeled document DB 300 using the product ID of the product A and the product ID of the product B, extracts the A∩B document from the labeled document DB 300, and adds A with confidence. ∩ A B document group 95 is obtained. Here, the A 文書 B document extracted from the labeled document DB 300 is a labeled document such as a review article extracted based on the above-described hypothesis, and the document includes descriptions regarding both the product A and the product B. Is given certainty that

単語関連度評価器92は、確信度付きA∩B文書群95に含まれる各単語のそれぞれについて、第1実施形態の関連度評価器32と同様に、出現頻度に応じた第3スコアを算出する。ただし、本実施形態では、A∩B文書のそれぞれに商品Aと商品Bとの双方に関する記述が含まれていることの確信度が与えられており、各単語の頻度が、その単語が出現する文書の確信度を用いて計算される点が第1実施形態とは異なる。   The word relevance evaluator 92 calculates a third score corresponding to the appearance frequency for each of the words included in the A∩B document group 95 with certainty as in the relevance evaluator 32 of the first embodiment. To do. However, in this embodiment, a certainty factor is given that each of the A∩B documents includes a description regarding both the product A and the product B, and the frequency of each word appears. The point of calculation using the certainty factor of the document is different from the first embodiment.

次に、本実施形態の情報提示装置において、第1実施形態とは異なる部分の処理手順の詳細について説明する。   Next, in the information presentation apparatus according to the present embodiment, details of a processing procedure of a portion different from the first embodiment will be described.

まず、A文書群抽出器71の処理手順を説明する。A文書群抽出器71の処理は、ラベル付き文書DB300からすべてのA文書を見つけ出すことが目的である。   First, the processing procedure of the A document group extractor 71 will be described. The process of the A document group extractor 71 is to find all A documents from the labeled document DB 300.

図10は、A文書群抽出器71の処理手順を示すフローチャートである。A文書群抽出器71は、まず、A商品に関するメタデータからA商品の商品IDを取り出して、これを検索のクエリとする(ステップS701)。   FIG. 10 is a flowchart showing a processing procedure of the A document group extractor 71. The A document group extractor 71 first extracts the product ID of the A product from the metadata related to the A product, and uses it as a search query (step S701).

次に、A文書群抽出器71は、ラベル付き文書DB300から文書を1つ取り出す(ステップS702)。そして、A文書抽出器71は、ステップS701で取り出した文書のラベルがクエリの商品IDと一致するか確認し、一致していれば、出力するA文書群15に当該文書を追加する(ステップS703)。   Next, the A document group extractor 71 takes out one document from the labeled document DB 300 (step S702). Then, the A document extractor 71 checks whether the label of the document extracted in step S701 matches the product ID of the query, and if it matches, adds the document to the A document group 15 to be output (step S703). ).

次に、A文書群抽出器71は、ラベル付き文書DB300から取り出していない文書があるか否かを判定し(ステップS704)、ラベル付き文書DB300から取り出していない文書があれば(ステップS704:Yes)、ステップS702に戻って以降の処理を繰り返す。一方、ラベル付き文書DB300のすべての文書に対してステップS702およびステップS703の処理を行っていれば(ステップS704:No)、A文書群抽出器71は、A文書群15を出力し(ステップS705)、一連の処理を終了する。   Next, the A document group extractor 71 determines whether there is a document that has not been extracted from the labeled document DB 300 (step S704), and if there is a document that has not been extracted from the labeled document DB 300 (step S704: Yes). ), Returning to step S702, the subsequent processing is repeated. On the other hand, if the processing in steps S702 and S703 has been performed on all the documents in the labeled document DB 300 (step S704: No), the A document group extractor 71 outputs the A document group 15 (step S705). ), A series of processing ends.

B文書群抽出器81の処理は、ラベル付き文書DB300からすべてのB文書を見つけ出すことが目的である。B文書群抽出器81の処理は、検索に用いるクエリが商品Bの商品IDに置き換わり、出力する文書群がB文書群25となるだけで、上述したA文書群抽出器71の処理と同様であるため、詳細な説明は省略する。   The process of the B document group extractor 81 is to find all B documents from the labeled document DB 300. The process of the B document group extractor 81 is the same as the process of the A document group extractor 71 described above, except that the query used for the search is replaced with the product ID of the product B and the output document group is the B document group 25. Therefore, detailed description is omitted.

次に、A∩B文書群抽出器91の処理手順を説明する。A∩B文書群抽出器91の処理は、ラベル付き文書DB300からA∩B文書を見つけ出すことが目的である。ラベル付き文書DB300内の各ラベル付き文書は1つの商品IDにしか結びついていないため、そのラベル付き文書が商品Aと商品Bとの双方に関する記述を含んでいるかどうかをメタデータだけから判定することはできない。ここで視点を変えて、商品Aと商品Bとを同時あるいは近いタイミングで購入したユーザは、両商品の組合せに意図を持っており、そのようなユーザがそれに近いタイミングで記載したレビュー文書には、両商品の組合せに関する記述が含まれている可能性が高いと考えられる。そこで、本実施形態では、購買ログ400を用いてこの仮説に適合するユーザを選び、このユーザが記載したレビュー記事から、この仮説に適合するレビュー記事を、A∩B文書として抽出する。さらに、このように抽出されたA∩B文書群に対し、商品Aと商品Bとの双方に関する記述が含まれていることの確信度を与えて、確信度付きA∩B文書群95を得る。   Next, the processing procedure of the A∩B document group extractor 91 will be described. The processing of the A∩B document group extractor 91 is to find the A∩B document from the labeled document DB 300. Since each labeled document in the labeled document DB 300 is linked to only one product ID, it is determined from the metadata only whether the labeled document includes a description of both the product A and the product B. I can't. Here, the user who purchased the product A and the product B at the same time or at a close timing has an intention to combine both products, and the review document described by such a user at a timing close to it is Therefore, it is highly likely that a description about the combination of both products is included. Therefore, in the present embodiment, a user who matches the hypothesis is selected using the purchase log 400, and a review article that matches the hypothesis is extracted as an A∩B document from the review articles described by the user. Further, the A∩B document group 95 with certainty is obtained by giving the certainty that the description about both the product A and the product B is included in the A∩B document group thus extracted. .

図11は、A∩B文書群抽出器91の処理手順を示すフローチャートである。A∩B文書群抽出器91は、まず、購入ログ400から1人のユーザを選択する(ステップS801)。   FIG. 11 is a flowchart showing the processing procedure of the A∩B document group extractor 91. The A∩B document group extractor 91 first selects one user from the purchase log 400 (step S801).

次に、A∩B文書群抽出器91は、ステップS801で選択したユーザが、所定の第1期間内に商品Aと商品Bを購入していることを示す購入ログのペアをすべて抜き出す(ステップS802)。このときの判定例を図12(a)に示す。上記の第1期間を2日とすると、図12(a)の判定例1のように、ユーザXの購入ログのうち、「11/7 15:20 商品A購入」と「11/7 18:20 商品B購入」のペアは、両商品を購入した時間差が2日以内のため、ステップS802の処理で抜き出される。一方、「11/7 18:20 商品B購入」と「11/10 9:50 商品A購入」のペアは、両商品を購入した時間差が2日を超えるため、ステップS802の処理では抜き出されない。この購入ログのペアの購入時刻の時間差を以下では「購入時間差」と呼ぶ。   Next, the A∩B document group extractor 91 extracts all purchase log pairs indicating that the user selected in Step S801 has purchased the products A and B within the predetermined first period (Step S801). S802). A determination example at this time is shown in FIG. Assuming that the first period is 2 days, as shown in the determination example 1 in FIG. 12A, among the purchase logs of the user X, “11/7 15:20 purchase of product A” and “11/7 18: The pair “20 product B purchase” is extracted in the process of step S802 because the time difference between the purchase of both products is within two days. On the other hand, the pair of “11/7 18:20 product B purchase” and “11/10 9:50 product A purchase” is not extracted in the process of step S802 because the time difference between the purchase of both products exceeds two days. . Hereinafter, the time difference between the purchase times of the purchase log pairs is referred to as a “purchase time difference”.

次に、A∩B文書群抽出器91は、ステップS802で抜き出した購入ログのペアを1つ取り出す(ステップS803)。そして、A∩B文書群抽出器91は、ラベル付き文書DB300から、ステップS801で選択したユーザによって、ステップS803で取り出した購入ログのペアが示す購入時刻のうちの遅い方の購入時刻から所定の第2期間内に記載された、商品Aまたは商品Bの商品IDをラベルとして持つ文書(レビュー記事)をすべて取り出す(ステップS804)。   Next, the A∩B document group extractor 91 extracts one purchase log pair extracted in step S802 (step S803). Then, the A 文書 B document group extractor 91 selects the predetermined purchase time from the later purchase time indicated by the purchase log pair extracted in step S803 by the user selected in step S801 from the labeled document DB 300. All documents (review articles) having the product ID of the product A or the product B described in the second period as labels are taken out (step S804).

このときの判定例を図12(b)に示す。上記の第2期間を3日とすると、図12(b)の判定例2のように、ユーザXが記載したレビュー記事のうち、「11/9 12:00 商品Aレビュー記事」は、「11/7 18:20 商品B購入」の購入ログの購入時刻から3日以内に記載されたレビュー記事であるため、ステップS804の処理で取り出される。一方、「11/11 12:00 商品Aレビュー記事」は、「11/7 18:20 商品B購入」の購入ログの購入時刻から3日経過した後に記載されたレビュー記事であるため、ステップS804の処理では取り出されない。この購入ログの購入時刻とレビュー記載時刻の時間差を以下では「レビュー時間差」と呼ぶ。   An example of determination at this time is shown in FIG. Assuming that the second period is 3 days, among the review articles written by the user X, as shown in the determination example 2 in FIG. 12B, “11/9 12:00 product A review article” is “11 Since it is a review article written within 3 days from the purchase time of the purchase log of “/ 7 18:20 Product B purchase”, it is extracted in the process of step S804. On the other hand, “11/11 12:00 product A review article” is a review article described after three days have passed since the purchase time of the purchase log “11/7 18:20 product B purchase”, and therefore, step S804. It is not taken out in the process. The time difference between the purchase time of the purchase log and the review description time is hereinafter referred to as “review time difference”.

次に、A∩B文書群抽出器91は、ステップS803で取り出した購入ログのペアの購入時間差に応じた確信度を、ステップS804で取り出した各文書に対して割り当てる(ステップS805)。例えば、購入ログのペアが同じセッションでの購入の場合の確信度を100%、1時間以内の購入の場合の確信度を90%、2時間以内の購入の場合の確信度を80%、同日購入の場合の確信度を50%といったように、購入時間差が大きいほど低い値となる確信度を与える。なお、本実施形態では、ラベル付き文書DB300から取り出した文書に対し、その文書を取り出す要因となった購入ログのペアの購入時間差に応じた確信度を与えるようにしているが、確信度を与える方法はこれに限らない。例えば、ラベル付き文書DB300から取り出した文書に対して、レビュー時間差が大きくなるほど低い値となる確信度を与えるようにしてもよいし、購入時間差とレビュー時間差との双方を考慮した確信度を与えるようにしてもよい。   Next, the A∩B document group extractor 91 assigns a certainty factor corresponding to the purchase time difference between the purchase log pair extracted in step S803 to each document extracted in step S804 (step S805). For example, 100% confidence level for purchases in the same session with purchase log pairs, 90% confidence level for purchases within 1 hour, 80% confidence level for purchases within 2 hours, same day As the certainty factor in the case of purchase is 50%, a certainty factor that gives a lower value is given as the purchase time difference increases. In this embodiment, a certainty factor is given to a document extracted from the labeled document DB 300 according to the purchase time difference of a purchase log pair that causes the document to be extracted. The method is not limited to this. For example, the document retrieved from the labeled document DB 300 may be given a certainty factor that decreases as the review time difference increases, or a certainty factor that considers both the purchase time difference and the review time difference. It may be.

次に、A∩B文書群抽出器91は、ステップS805の処理により得られた確信度付き文書を、出力する確信度付きA∩B文書群95に追加する(ステップS806)。   Next, the A∩B document group extractor 91 adds the document with certainty obtained by the process of step S805 to the A∩B document group 95 with certainty to be output (step S806).

次に、A∩B文書群抽出器91は、ステップS803で取り出していない購入ログのペアがあるか否かを判定し(ステップS807)、取り出していない購入ログのペアがあれば(ステップS807:Yes)、ステップS803に戻って以降の処理を繰り返す。一方、すべての購入ログのペアに対してステップS803〜ステップS806の処理を行っていれば(ステップS807:No)、A∩B文書群抽出器91は、ステップS801で選択していないユーザがいるか否かを判定し(ステップS808)、選択していないユーザがいれば(ステップS808:Yes)、ステップS801に戻って以降の処理を繰り返す。   Next, the A∩B document group extractor 91 determines whether there is a purchase log pair that has not been extracted in step S803 (step S807), and if there is a purchase log pair that has not been extracted (step S807: Yes), the process returns to step S803 and the subsequent processing is repeated. On the other hand, if the processing from step S803 to step S806 is performed on all purchase log pairs (step S807: No), the A∩B document group extractor 91 has any user not selected in step S801. If there is a user who has not selected (step S808: Yes), the process returns to step S801 and the subsequent processing is repeated.

一方、購入ログに含まれるすべてのユーザを選択してステップS802〜ステップS806の処理を行っていれば(ステップS808:No)、A∩B文書群抽出器91は、確信度付きA∩B文書群95を出力し(ステップS809)、一連の処理を終了する。   On the other hand, if all the users included in the purchase log have been selected and the processing from step S802 to step S806 has been performed (step S808: No), the A∩B document group extractor 91 will perform the A∩B document with certainty factor. The group 95 is output (step S809), and a series of processing ends.

次に、単語関連度評価器92の処理手順を説明する。単語関連度評価器92の処理は、確信度付きA∩B文書群95に含まれる各単語のそれぞれについて、第1実施形態の単語関連度評価器32と同様に、商品Aおよび商品Bの双方との関連性を表す第3スコアを算出することを目的とする。ただし、A∩B文書には確信度が与えられているため、それに伴う処理が第1実施形態の単語関連度評価器32とは異なる。   Next, the processing procedure of the word relevance evaluation unit 92 will be described. The processing of the word association degree evaluator 92 is performed for both the products A and B for each word included in the A∩B document group 95 with certainty factor, as in the word association degree evaluator 32 of the first embodiment. The purpose is to calculate a third score representing the relevance to the. However, since the certainty factor is given to the A∩B document, the process associated therewith is different from the word association degree evaluator 32 of the first embodiment.

図13は、単語関連度評価器92の処理手順を示すフローチャートである。単語関連度評価器92は、まず、各単語の出現数を集計するための集計用ヒストグラムおよび総単語数を初期化する(ステップS901)。総単語数は、後述のように確信度付きA∩B文書群95に含まれる総単語数を文書の確信度に応じて調整した値である。   FIG. 13 is a flowchart showing the processing procedure of the word relevance evaluator 92. First, the word relevance evaluator 92 initializes a counting histogram and a total number of words for counting the number of appearances of each word (step S901). The total number of words is a value obtained by adjusting the total number of words included in the A∩B document group 95 with certainty as described later according to the certainty of the document.

次に、単語関連度評価器92は、確信度付きA∩B文書群95から文書を1つ取り出す(ステップS902)。そして、単語関連度評価器92は、ステップS902で取り出した文書内に含まれる単語のヒストグラムを作成する(ステップS903)。ただし、この際、各単語に与えられる頻度は、実際の頻度に確信度を積算したものとする。例えば確信度が50%の文書において、単語Aが10回、単語Bが6回、単語Cが4回出現したとすると、単語Aに与える頻度は5回、単語Bに与える頻度は3回、単語Cに与える頻度は2回となる。   Next, the word association degree evaluator 92 takes out one document from the A∩B document group 95 with certainty factor (step S902). Then, the word relevance evaluator 92 creates a histogram of words included in the document extracted in step S902 (step S903). However, at this time, the frequency given to each word is obtained by adding the certainty factor to the actual frequency. For example, in a document with a certainty factor of 50%, if the word A appears 10 times, the word B 6 times, and the word C 4 times, the frequency given to the word A is 5 times, the frequency given to the word B is 3 times, The frequency given to the word C is twice.

次に、単語関連度評価器92は、ステップS903で得られたヒストグラムを集計用ヒストグラムに加算する(ステップS904)。また、単語関連度評価器92は、当該文書の単語数に確信度を積算した値を総単語数に加算する(ステップS905)。例えば、当該文書の単語数が1000、確信度が50%であれば、加算する単語数は500となる。   Next, the word association degree evaluator 92 adds the histogram obtained in step S903 to the aggregation histogram (step S904). In addition, the word relevance evaluator 92 adds a value obtained by adding the certainty factor to the number of words in the document to the total number of words (step S905). For example, if the number of words in the document is 1000 and the certainty factor is 50%, the number of words to be added is 500.

次に、単語関連度評価器92は、確信度付きA∩B文書群95から取り出していない文書があるか否かを判定し(ステップS906)、確信度付きA∩B文書群95から取り出していない文書があれば(ステップS906:Yes)、ステップS902に戻って以降の処理を繰り返す。一方、確信度付きA∩B文書群95のすべての文書に対してステップS902〜ステップS905の処理を行っていれば(ステップS906:No)、単語関連度評価器92は、集計用ヒストグラムから各単語の対数確率を割り出す(ステップS907)。具体的には、集計用ヒストグラムが示す各単語の頻度をx、確信度付きA∩B文書群95の総単語数(ステップS905で加算された総単語数)をyとすると、対数確率はlog(x/y)である。そして、単語関連度評価器92は、ステップS907で算出した各単語の対数確率を、各単語の第3スコアとして出力し(ステップS908)、一連の処理を終了する。   Next, the word relevance evaluator 92 determines whether or not there is a document that has not been extracted from the A 群 B document group 95 with certainty factor (step S906), and is extracted from the A∩B document group 95 with certainty factor. If there is no document (step S906: Yes), the process returns to step S902 and the subsequent processing is repeated. On the other hand, if the processing of steps S902 to S905 is performed on all the documents in the A∩B document group 95 with certainty level (step S906: No), the word relevance evaluator 92 determines each value from the aggregation histogram. The log probability of the word is determined (step S907). Specifically, if the frequency of each word indicated by the aggregation histogram is x and the total number of words in the A∩B document group 95 with certainty (the total number of words added in step S905) is y, the log probability is log. (X / y). Then, the word relevance evaluator 92 outputs the log probability of each word calculated in step S907 as the third score of each word (step S908), and ends the series of processes.

なお、単語関連度評価器92において、上述した購入時間差やレビュー時間差に応じた確信度に基づく処理を行う方法を用いる場合、A∩B文書群抽出器91においてA∩B文書群を抽出する際に、第1期間や第2期間を用いた閾値処理を必ずしも行わなくてもよい。A∩B文書群抽出器91において閾値処理を行わなければ、非常に大きな購入時間差やレビュー時間差を持つレビュー記事も抽出されるが、そのようなレビュー記事には非常に小さな確信度が与えられるためである。閾値処理を行わなければ抽出されるレビュー記事が増大するため計算量が増えるが、閾値処理によるレビュー記事の取りこぼしを回避することができる。   When the word relevance evaluator 92 uses the above-described method based on the certainty factor according to the purchase time difference or the review time difference, the A∩B document group extractor 91 extracts the A∩B document group. In addition, the threshold process using the first period or the second period is not necessarily performed. If threshold processing is not performed in the A∩B document group extractor 91, review articles having a very large purchase time difference or review time difference are also extracted. However, since such a review article has a very small certainty factor. It is. If threshold processing is not performed, the number of review articles to be extracted increases and the amount of calculation increases, but it is possible to avoid missing review articles due to threshold processing.

本実施形態の情報提示装置におけるその他の処理は、上述した第1実施形態と同様である。つまり、本実施形態の情報提示装置においても、統合スコア算出部50により、確信度付きA∩B文書群95に含まれる各単語について統合スコアが算出され、固有語出力器61により、統合スコアが高い重要単語が単語ベースの推薦理由65として画面200に出力され、固有文出力器62により、重要単語を多く含む文が文ベースの推薦理由66として画面200に出力される。   Other processes in the information presentation apparatus of the present embodiment are the same as those in the first embodiment described above. That is, also in the information presentation apparatus of the present embodiment, the integrated score calculation unit 50 calculates an integrated score for each word included in the A∩B document group 95 with confidence, and the proper word output unit 61 calculates the integrated score. Highly important words are output to the screen 200 as word-based recommendation reasons 65, and sentences containing many important words are output to the screen 200 as sentence-based recommendation reasons 66 by the unique sentence output unit 62.

したがって、本実施形態の情報提示装置を用いることによって、ECシステムを利用するユーザに対して、商品Aと商品Bとの組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる。すなわち、ECシステムを利用するユーザにとっては、本実施形態の情報提示装置により提示される推薦理由を参照することでB商品を購入する動機付けが生まれ、新体験を伴う商品購入がしやすくなり、店舗にとっては販売機会を増やすことができる。   Therefore, by using the information presentation apparatus according to the present embodiment, a recommendation reason including information regarding the combination effect of the product A and the product B is appropriately presented to the user who uses the EC system. The sales promotion effect can be enhanced. That is, for users who use the EC system, the motivation to purchase the B product is born by referring to the reason for recommendation presented by the information presentation device of the present embodiment, and it becomes easier to purchase the product with a new experience, For stores, sales opportunities can be increased.

以上説明した第1実施形態または第2実施形態の情報提示装置における上述した各機能は、例えば、情報提示装置において所定のプログラムを実行することにより実現することができる。この場合、情報提示装置は、例えば図14に示すように、CPU(Central Processing Unit)510などのプロセッサ、ROM(Read Only Memory)520やRAM(Random Access Memory)530などの記憶装置、表示器や各種操作デバイスが接続される入出力I/F540、ネットワークに接続して通信を行う通信I/F550、各部を接続するバス560などを備えた、通常のコンピュータを利用したハードウェア構成とすることができる。   Each function mentioned above in the information presentation apparatus of 1st Embodiment or 2nd Embodiment demonstrated above is realizable by executing a predetermined program in an information presentation apparatus, for example. In this case, as shown in FIG. 14, for example, the information presenting apparatus includes a processor such as a CPU (Central Processing Unit) 510, a storage device such as a ROM (Read Only Memory) 520 and a RAM (Random Access Memory) 530, a display, A hardware configuration using a normal computer including an input / output I / F 540 to which various operation devices are connected, a communication I / F 550 for connecting to a network for communication, a bus 560 for connecting each unit, and the like may be adopted. it can.

上述した情報提示装置で実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。   The program executed by the above-described information presentation apparatus is, for example, an installable or executable file, such as a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD), and a CD-R (Compact Disk Recordable). ), A DVD (Digital Versatile Disc) or the like recorded on a computer-readable recording medium and provided as a computer program product.

また、上述した情報提示装置で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の情報提示装置で実行されるプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。   The program executed by the information presentation device described above may be stored on a computer connected to a network such as the Internet and provided by being downloaded via the network. In addition, the program executed by the information presentation apparatus of the present embodiment may be configured to be provided or distributed via a network such as the Internet.

また、上述した情報提示装置で実行されるプログラムを、ROM520などに予め組み込んで提供するように構成してもよい。   Further, the program executed by the information presentation device described above may be provided by being incorporated in advance in the ROM 520 or the like.

上述した情報提示装置で実行されるプログラムは、情報提示装置の各処理部(第1スコア算出部10,70、第2スコア算出部20,80、第3スコア算出部30,90、第4スコア算出部40、統合スコア算出部50および提示部60)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU510(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がRAM530(主記憶)上にロードされ、上述した各処理部がRAM530(主記憶)上に生成されるようになっている。なお、実施形態の情報提示装置は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。   The programs executed by the information presentation device described above are the processing units of the information presentation device (first score calculation units 10, 70, second score calculation units 20, 80, third score calculation units 30, 90, fourth score). The module configuration includes a calculation unit 40, an integrated score calculation unit 50, and a presentation unit 60). As actual hardware, for example, the CPU 510 (processor) reads and executes a program from the recording medium, Each processing unit described above is loaded on the RAM 530 (main memory), and each processing unit described above is generated on the RAM 530 (main memory). In addition, the information presentation apparatus of the embodiment realizes part or all of each processing unit described above using dedicated hardware such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field-Programmable Gate Array). Is also possible.

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。   As mentioned above, although embodiment of this invention was described, embodiment described here is shown as an example and is not intending limiting the range of invention. The novel embodiments described herein can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. The embodiments and modifications described herein are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

10,70 第1スコア算出部
20,80 第2スコア算出部
30,90 第3スコア算出部
40 第4スコア算出部
50 統合スコア算出部
60 提示部
10, 70 First score calculation unit 20, 80 Second score calculation unit 30, 90 Third score calculation unit 40 Fourth score calculation unit 50 Integrated score calculation unit 60 Presentation unit

Claims (8)

ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置であって、
検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する第1スコア算出部と、
検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する第2スコア算出部と、
検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する第3スコア算出部と、
前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する統合スコア算出部と、
前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する提示部と、を備える情報提示装置。
When recommending a second product that harmonizes with a first product referred to by a user, the information presenting device presents a recommendation reason including information related to a combination effect of the first product and the second product,
A first document group relating to the first product is extracted from a document group to be searched, and a first score representing the relevance with the first product is calculated for each word included in the first document group. 1 score calculator,
A second document group relating to the second product is extracted from the document group to be searched, and a second score representing the relevance with the second product is calculated for each word included in the second document group. A 2-score calculator,
A third document group relating to both the first product and the second product is extracted from the document group to be searched, and the first product and the second product for each word included in the third document group. A third score calculation unit for calculating a third score representing the relationship with both of
An integrated score calculation unit that calculates an integrated score by subtracting the first score and the second score from the third score for each of the words included in the third document group;
A presentation unit that presents at least one of one or more important words selected according to a predetermined criterion based on the integrated score or one or more texts in the third document group including the important words as the recommendation reason An information presentation device comprising:
前記第1スコア算出部は、検索対象の文書群から前記第1商品を表す記述を含む前記第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1文書群における該単語の出現頻度が高いほど高い値となる前記第1スコアを算出し、
前記第2スコア算出部は、検索対象の文書群から前記第2商品を表す記述を含む前記第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2文書群における該単語の出現頻度が高いほど高い値となる前記第2スコアを算出し、
前記第3スコア算出部は、検索対象の文書群から前記第1商品を表す記述と前記第2商品を表す記述との双方を含む前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項1に記載の情報提示装置。
The first score calculation unit extracts the first document group including a description representing the first product from a document group to be searched, and for each word included in the first document group, the first document Calculating the first score which is higher as the frequency of occurrence of the word in the group is higher;
The second score calculation unit extracts the second document group including a description representing the second product from a document group to be searched, and the second document for each word included in the second document group. Calculating the second score which is higher as the frequency of occurrence of the word in the group is higher;
The third score calculation unit extracts the third document group including both the description representing the first product and the description representing the second product from the document group to be searched, and includes the third document group in the third document group The information presentation device according to claim 1, wherein the third score is calculated such that the higher the appearance frequency of the word in the third document group, the higher the value for each of the words.
検索対象の文書群に含まれる各単語のそれぞれについて、検索対象の文書群における該単語を含む文書の出現頻度が低いほど高い値となる第4スコアを算出する第4スコア算出部をさらに備え、
前記統合スコア算出部は、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算した値に、さらに前記第4スコアを積算または加算して、前記統合スコアを算出する、請求項2に記載の情報提示装置。
For each word included in the document group to be searched, a fourth score calculation unit that calculates a fourth score that becomes higher as the appearance frequency of the document including the word in the document group to be searched is lower,
The integrated score calculation unit further adds the fourth score to a value obtained by subtracting the first score and the second score from the third score for each word included in the third document group, or The information presentation apparatus according to claim 2, wherein the integrated score is calculated by addition.
検索対象の文書群は、商品の識別情報と関連付けられた文書群であり、
前記第1スコア算出部は、検索対象の文書群から前記第1商品の識別情報に関連付けられた前記第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1文書群における該単語の出現頻度が高いほど高い値となる前記第1スコアを算出し、
前記第2スコア算出部は、検索対象の文書群から前記第2商品の識別情報に関連付けられた前記第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2文書群における該単語の出現頻度が高いほど高い値となる前記第2スコアを算出し、
前記第3スコア算出部は、検索対象の文書群から、前記第1商品と前記第2商品の双方を購入したユーザによって記載された、前記第1商品の識別情報または前記第2商品の識別情報に関連付けられた前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項1に記載の情報提示装置。
The document group to be searched is a document group associated with product identification information,
The first score calculation unit extracts the first document group associated with the identification information of the first product from the document group to be searched, and for each word included in the first document group, the first score group Calculating the first score having a higher value as the appearance frequency of the word in one document group increases;
The second score calculation unit extracts the second document group associated with the identification information of the second product from the document group to be searched, and for each word included in the second document group, the second score group Calculating the second score which is higher as the frequency of occurrence of the word in the two document groups is higher;
The third score calculation unit is the identification information of the first product or the identification information of the second product described by a user who has purchased both the first product and the second product from the document group to be searched. The third document group associated with the third document group is extracted, and for each word included in the third document group, the higher the appearance frequency of the word in the third document group, the higher the third score is. The information presentation device according to claim 1, wherein the information presentation device calculates the information.
前記第3スコア算出部は、検索対象の文書群から、前記第1商品と前記第2商品の双方を所定の第1期間内に購入したユーザによって、前記第1商品または前記第2商品の購入時から所定の第2期間内に記載された、前記第1商品の識別情報または前記第2商品の識別情報に関連付けられた前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項4に記載の情報提示装置。   The third score calculation unit purchases the first product or the second product from a search target document group by a user who purchased both the first product and the second product within a predetermined first period. The third document group associated with the identification information of the first product or the identification information of the second product described within a predetermined second period from the time is extracted, and each of the third document groups included in the third document group The information presentation device according to claim 4, wherein for each word, the third score that is higher as the appearance frequency of the word in the third document group is higher is calculated. 前記第3スコア算出部は、前記第3文書群に含まれる各文書について、前記第1商品と前記第2商品の購入時間の差、あるいは、前記第1商品または前記第2商品の購入時から該文書が記載された時刻までの時間差をもとに、該文書に前記第1商品と前記第2商品の双方についての記述が含まれていることの確信度を設定し、前記第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度に応じたスコアに対して、該単語を含む文書に設定した確信度を積算または加算し、前記第3スコアを算出する、請求項4または5に記載の情報提示装置。 The third score calculation unit, for each document included in the third document group, a difference in purchase time between the first product and the second product, or from the time of purchase of the first product or the second product. Based on the time difference up to the time when the document was written, a certainty factor is set that the document contains descriptions of both the first product and the second product, and the third document group For each word included in the document, the third score is calculated by adding or adding the certainty factor set in the document including the word to the score corresponding to the appearance frequency of the word in the third document group. The information presentation device according to claim 4 or 5. ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置により実行される情報提示方法であって、
前記情報提示装置が、検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する工程と、
前記情報提示装置が、検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する工程と、
前記情報提示装置が、検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する工程と、
前記情報提示装置が、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する工程と、
前記情報提示装置が、前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する工程と、を含む情報提示方法。
When recommending a second product that harmonizes with the first product referred to by the user, the information is presented by an information presentation device that presents a reason for recommendation including information related to the combination effect of the first product and the second product. An information presentation method,
The information presenting device extracts a first document group related to the first product from a document group to be searched, and each word included in the first document group represents a relevance with the first product. Calculating one score;
The information presenting device extracts a second document group related to the second product from the document group to be searched, and each word included in the second document group represents a relationship with the second product. Calculating two scores;
The information presenting device extracts a third document group relating to both the first product and the second product from a document group to be searched, and for each of the words included in the third document group, the first document Calculating a third score representing the relevance of both the product and the second product;
The information presenting device subtracting the first score and the second score from the third score for each word included in the third document group to calculate an integrated score;
The information presentation apparatus recommends at least one of one or more important words selected according to a predetermined criterion based on the integrated score, or one or more texts in the third document group including the important words, as the recommendation. A method of presenting as a reason.
コンピュータに、
検索対象の文書群からユーザが参照している第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する機能と、
検索対象の文書群から前記第1商品に調和する第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する機能と、
検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する機能と、
前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する機能と、
前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由として提示する機能と、を実現させるためのプログラム。
On the computer,
A first document group relating to a first product referred to by a user is extracted from a document group to be searched, and each word included in the first document group represents a relationship with the first product. The ability to calculate the score;
A second document group related to the second product that harmonizes with the first product is extracted from the document group to be searched, and each word included in the second document group represents a relationship with the second product. A function to calculate two scores;
A third document group relating to both the first product and the second product is extracted from the document group to be searched, and the first product and the second product for each word included in the third document group. A function of calculating a third score representing the relationship with both of
A function of calculating an integrated score by subtracting the first score and the second score from the third score for each word included in the third document group;
At least one of one or more important words selected according to a predetermined criterion based on the integrated score, or one or more texts in the third document group including the important words, the first product and the second A program for realizing a function to present as a reason for recommendation including information on a combination effect with a product.
JP2014057009A 2014-03-19 2014-03-19 Information presenting apparatus, information presenting method, and program Expired - Fee Related JP6235386B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014057009A JP6235386B2 (en) 2014-03-19 2014-03-19 Information presenting apparatus, information presenting method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014057009A JP6235386B2 (en) 2014-03-19 2014-03-19 Information presenting apparatus, information presenting method, and program

Publications (2)

Publication Number Publication Date
JP2015179441A JP2015179441A (en) 2015-10-08
JP6235386B2 true JP6235386B2 (en) 2017-11-22

Family

ID=54263424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014057009A Expired - Fee Related JP6235386B2 (en) 2014-03-19 2014-03-19 Information presenting apparatus, information presenting method, and program

Country Status (1)

Country Link
JP (1) JP6235386B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574067B (en) 2014-10-31 2020-01-21 株式会社东芝 Item recommendation device and item recommendation method
CN108259546A (en) * 2017-01-16 2018-07-06 广州市动景计算机科技有限公司 Information push method, equipment and programmable device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5018148B2 (en) * 2007-03-09 2012-09-05 ソニー株式会社 Information processing apparatus, information processing method, and program
JP2009064187A (en) * 2007-09-05 2009-03-26 Sony Corp Information processing apparatus, information processing method, and program
JP2010113557A (en) * 2008-11-07 2010-05-20 Nippon Telegr & Teleph Corp <Ntt> Recommendation device, recommendation method and recommendation program
JP2012027845A (en) * 2010-07-27 2012-02-09 Sony Corp Information processor, relevant sentence providing method, and program

Also Published As

Publication number Publication date
JP2015179441A (en) 2015-10-08

Similar Documents

Publication Publication Date Title
Ghiassi et al. A domain transferable lexicon set for Twitter sentiment analysis using a supervised machine learning approach
Rauh Validating a sentiment dictionary for German political language—a workbench note
Bhatia et al. Automatic labelling of topics with neural embeddings
US20170185581A1 (en) Systems and methods for suggesting emoji
Assiri et al. Towards enhancement of a lexicon-based approach for Saudi dialect sentiment analysis
Korenek et al. Sentiment analysis on microblog utilizing appraisal theory
US10878233B2 (en) Analyzing technical documents against known art
US20190349320A1 (en) System and method for automatically responding to user requests
US20140136323A1 (en) System and methods for advertising based on user intention detection
JP5442401B2 (en) Behavior information extraction system and extraction method
dos Santos et al. Computational personality recognition from facebook text: psycholinguistic features, words and facets
Serigos Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish
Lu et al. Spell checker for consumer language (CSpell)
Singh et al. SentiVerb system: classification of social media text using sentiment analysis
Ghosh et al. A rule based extractive text summarization technique for Bangla news documents
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
Hassan et al. Exploiting tweet sentiments in altmetrics large-scale data
Liapakis A sentiment lexicon-based analysis for food and beverage industry reviews. The Greek language paradigm
JP6235386B2 (en) Information presenting apparatus, information presenting method, and program
WO2016181475A1 (en) Information presentation device, information presentation method, and program
Przybyła et al. Analysing utterances in polish parliament to predict speaker’s background
CN114255067A (en) Data pricing method and device, electronic equipment and storage medium
Iserman et al. Dictionaries and decision trees for the 2019 CLPsych shared task
Balage Filho Aspect extraction in sentiment analysis for portuguese language
Francis et al. SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171026

R150 Certificate of patent or registration of utility model

Ref document number: 6235386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees