JP2013101415A - Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer - Google Patents
Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer Download PDFInfo
- Publication number
- JP2013101415A JP2013101415A JP2010043388A JP2010043388A JP2013101415A JP 2013101415 A JP2013101415 A JP 2013101415A JP 2010043388 A JP2010043388 A JP 2010043388A JP 2010043388 A JP2010043388 A JP 2010043388A JP 2013101415 A JP2013101415 A JP 2013101415A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- product web
- product
- feature word
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、インターネット上のショッピングサイトにおける商品に関するウェブページを分析する商品ウェブページ分析装置、商品ウェブページ分析方法、および、商品ウェブページ分析装置用のプログラムの技術分野に関する。 The present invention relates to a technical field of a product web page analysis device, a product web page analysis method, and a program for a product web page analysis device for analyzing a web page related to a product on a shopping site on the Internet.
インターネット上のショッピングサイトには商品を扱った商品ウェブページが多数あり、ユーザはその商品ウェブページを閲覧して商品の購入を行っている。閲覧して購入する際、ユーザは通常、商品検索を行っている。この検索の技術において、多くの商品ウェブページの中からユーザが欲しい商品を的確に探すために検索精度の向上を図ることが行われている。例えば、特許文献1には、商品に登録された商品説明情報のシードかノイズかの識別を高精度に行うことで、商品検索の精度向上を図るため、複数のストアが種々の商品カテゴリ毎に提供する商品毎に登録される情報である商品説明情報が属する商品カテゴリの数をカテゴリ頻度として商品説明情報毎に算出するカテゴリ頻度算出部と、商品説明情報が属するストアの数をストア頻度として商品説明情報毎に算出するストア頻度算出部と、算出されたカテゴリ頻度とストア頻度との比率から分類規則情報を生成する機械学習部と、生成された分類規則情報に基づいて商品説明情報がノイズ情報又は商品特定情報かを識別し分類する判定部と、を備える商品情報分類装置が開示されている。
There are many product web pages dealing with products on shopping sites on the Internet, and users browse the product web pages and purchase products. When browsing and purchasing, a user usually performs a product search. In this search technology, in order to accurately search for a product desired by a user from many product web pages, search accuracy is improved. For example, in
ところで、サイバーモールのような様々な店舗が参加するタイプのショッピングサイトにおいて、ショッピングサイトに出店している各業者(店舗主)が独自に各商品ウェブページを作成している場合、同一商品でも商品の説明文が異なったり、表記の方法の統一がなされていなかったりすることがある。また、他の店舗よりもユーザにアピールするために店舗独自の情報が商品ウェブページに付与されたり、商品ウェブページの見出し部分が様々な情報で埋め尽くされたりしている。 By the way, in a shopping site where various stores such as Cyber Mall participate, if each merchant (store owner) opening a shopping site independently creates each product web page, the same product May be different, or the notation method may not be unified. Further, in order to appeal to the user rather than other stores, information unique to the store is given to the product web page, or the heading portion of the product web page is filled with various information.
このため、単純に検索するだけでは、所望する商品ウェブページを発見することが難しく、ユーザは同一商品と思われる様々な商品ウェブページを閲覧して、購入するサイトを決定する必要があった。特許文献1のように単に検索の精度を上げただけでは、上記問題を解決することが難しかった。
For this reason, it is difficult to find a desired product web page by simply searching, and the user has to browse various product web pages that are considered to be the same product and determine a site to purchase. It is difficult to solve the above problem by simply increasing the search accuracy as in
本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、商品ウェブページの商品の類似性を求めてユーザの利便性の向上を図ることができる商品ウェブページ分析装置、商品ウェブページ分析方法、および、商品ウェブページ分析装置用のプログラムを提供することを目的とする。 The present invention has been made in view of such a problem, and an example of the problem is a product web page analysis apparatus that can improve the convenience of the user by obtaining the similarity of the products on the product web page. An object of the present invention is to provide a product web page analysis method and a product web page analysis apparatus program.
上記課題を解決するために、請求項1に記載の発明は、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段と、第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段と、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段と、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段と、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段と、前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段と、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段と、前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段と、前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段と、を備えたことを特徴とする。
In order to solve the above-mentioned problem, the invention described in
請求項2に記載の発明は、請求項1に記載の商品ウェブページ分析装置において、前記類似度算出手段が、前記第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の前記特徴語に基づき、前記類似度を算出することを特徴とする。 According to a second aspect of the present invention, in the product web page analyzing apparatus according to the first aspect, the similarity calculation unit uses the common feature word in the first product web page and the second product web page. Based on the above, the similarity is calculated.
請求項3に記載の発明は、請求項2に記載の商品ウェブページ分析装置において、前記類似度算出手段が、前記第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の前記特徴語の逆出現頻度に基づき前記類似度を算出することを特徴とする。 According to a third aspect of the present invention, in the product web page analyzing apparatus according to the second aspect of the invention, the similarity calculation unit is configured to obtain the feature word common to the first product web page and the second product web page. The similarity is calculated based on the reverse appearance frequency.
請求項4に記載の発明は、請求項1から請求項3のいずれか1項に記載の商品ウェブページ分析装置において、ショッピングサイトのドメイン名を記憶するドメイン名記憶手段を更に備え、前記検索結果判定手段が、前記カテゴリ関連語記憶手段および前記ドメイン名記憶手段を参照して、前記検索結果において、ショッピングサイトのスニペット中に前記カテゴリ関連語が存在するか否かを判定することを特徴とする。
The invention according to
請求項5に記載の発明は、請求項1から請求項4のいずれか1項に記載の商品ウェブページ分析装置において、前記特徴語候補抽出手段が、前記テキストデータを形態素解析によって前記言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段を有することを特徴とする。 According to a fifth aspect of the present invention, in the product web page analyzing apparatus according to any one of the first to fourth aspects, the feature word candidate extracting unit analyzes the language of the text data by morphological analysis. It has a noise removal means for removing a noise morpheme from the obtained morpheme.
請求項6に記載の発明は、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶ステップと、第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段と、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出ステップと、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出ステップと、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得ステップと、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定ステップと、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定ステップと、前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出ステップと、前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定ステップと、を有することを特徴とする。
The invention according to
請求項7に記載の発明は、コンピュータを、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段、第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段、前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段、前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段、および、前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段として機能させることを特徴とする。 The invention according to claim 7 is a product web for acquiring category related word storage means, a first product web page, and a second product web page for storing category related words related to a category for classifying products. Page acquisition means, text data extraction means for extracting text data described in each product web page, feature words for extracting feature word candidates of each product web page by performing language analysis on the extracted text data A candidate extraction unit, a search query that uses the feature word candidate as a search keyword, a search result acquisition unit that acquires a search result based on the search query, and a snippet of the search result by referring to the category-related word storage unit Search result judging means for judging whether or not the category-related word exists in the snippet; Feature word determining means for determining the feature word candidate when a word related word exists as a feature word of each product web page, and based on the feature word, the first product web page and the second product web page A similarity calculation means for calculating the similarity between the first product web page and the second product web page when the similarity is equal to or greater than a predetermined value. It is made to function as a similar goods determination means determined to be present.
本発明によれば、商品を分類するカテゴリに関連するカテゴリ関連語を記憶し、第1の商品ウェブページおよび第2の商品ウェブページを取得し、各商品ウェブページ内に記述されているテキストデータを言語解析して各商品ウェブページの特徴語候補を抽出し、特徴語候補を検索キーワードとする検索クエリを作成して検索クエリに基づく検索結果を取得し、検索結果のスニペット中にカテゴリ関連語が存在するか否かを判定し、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定し、特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出し、類似度が所定の値以上である場合、第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定することにより、商品ウェブページの商品の類似性を求めて、例えば、同一や類似の商品を扱う商品ウェブページをまとめ上げることができるため、ユーザの利便性の向上を図ることができる。 According to the present invention, category related words related to a category for classifying products are stored, the first product web page and the second product web page are acquired, and the text data described in each product web page Linguistic analysis to extract feature word candidates for each product web page, create a search query using the feature word candidates as search keywords, obtain search results based on the search query, and use category-related terms in the search result snippet Is determined, a feature word candidate when a category-related word is present in the snippet is determined as a feature word of each product web page, and based on the feature word, the first product web page and the second product word are determined. If the degree of similarity between the product web page is calculated and the similarity is greater than or equal to a predetermined value, the first product web page and the second product web page are products that handle similar products. By determining that the web page is a product page, it is possible to obtain the product similarity of the product web page and, for example, to collect product web pages that handle the same or similar products, thereby improving user convenience. Can do.
以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、商品ウェブページ分析システムに対して本発明を適用した場合の実施形態である。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In addition, embodiment described below is embodiment at the time of applying this invention with respect to a goods web page analysis system.
[1.商品ウェブページ分析システムの構成および機能概要] [1. Product Web Page Analysis System Configuration and Function Overview]
まず、本発明の一実施形態に係る商品ウェブページ分析システムの構成および概要機能について、図1を用いて説明する。 First, the structure and outline | summary function of the goods web page analysis system which concern on one Embodiment of this invention are demonstrated using FIG.
図1は、本実施形態に係る商品ウェブページ分析システム1の概要構成例を示す模式図である。
FIG. 1 is a schematic diagram illustrating a schematic configuration example of a product web
図1に示すように、商品ウェブページ分析システム1は、商品ウェブページを分析する商品ウェブページ分析サーバ(商品ウェブページ分析装置の一例)10と、ショッピングサイトを運営するために設置されたショッピングサーバ20と、インターネット上のウェブページのウェブ検索の機能を提供する検索サーバ30と、ショッピングサイトに出店している店舗主の店舗主端末40と、ショッピングサイトで商品の購入をするユーザのユーザ端末45と、を備えている。
As shown in FIG. 1, a product web
商品ウェブページ分析サーバ10と、ショッピングサーバ20と、検索サーバ30とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム5を構成している。そして、サーバシステム5と、店舗主端末40と、ユーザ端末45とは、ネットワーク3により接続され、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。なお、ネットワーク3は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、およびゲートウェイ等により構築されている。
The product web
商品ウェブページ分析サーバ10は、ショッピングサーバ20に登録された商品ウェブページを分析したり、分析結果に基づいてショッピングサーバ20上の商品ウェブページの整理を行ったり、商品ウェブページを登録した店舗主等の店舗主端末40やユーザ端末45等に分析結果を通知したりする。
The product web
ショッピングサーバ20は、ショッピングサイトで商品を販売するためのウェブサーバやデータベースサーバ等として機能し、商品ウェブページの登録の受け付けや、ユーザ登録や、商品等の購入手続き等の各種処理を行う。また、ショッピングサーバ20は、商品のカテゴリ毎に分類された商品ウェブページを有している。
The
検索サーバ30は、インターネット等上の検索エンジンとして機能し、検索API(Application Programming Interface)の機能を、商品ウェブページ分析サーバ10に提供したり、端末から検索キーワードを含む受信した検索クエリに基づき、ウェブページ等の検索対象を検索して、検索結果を返したりする。また、検索サーバ30は、検索用のデータベースを構築するために、ショッピングサーバ20や、図示しないインターネット上のウェブサイトからウェブページの情報を収集し、ウェブページの情報を予め解析し、検索のためのインデックス情報や検索結果のスニペットを作成する。ここで、スニペットとは、各検索結果の説明文等のテキストであって、検索でヒットしたウェブページの要約や、そのウェブページ内に記述された検索キーワードを含んだ文章等である。
The
店舗主が使用する店舗主端末40は、パーソナルコンピュータや携帯型無線電話機やPDA(Personal Digital Assistant)等の携帯端末である。店舗主は店舗主端末40を使用して、商品ウェブページをショッピングサーバ20に登録したり、更新したりする。
The store owner terminal 40 used by the store owner is a portable terminal such as a personal computer, a portable wireless telephone, or a PDA (Personal Digital Assistant). The store owner uses the store owner terminal 40 to register or update the product web page in the
ユーザが使用するユーザ端末45は、パーソナルコンピュータや携帯型無線電話機やPDA等の携帯端末である。ユーザはユーザ端末45を使用して、商品の検索や購入等を行う。 The user terminal 45 used by the user is a portable terminal such as a personal computer, a portable wireless telephone, or a PDA. The user uses the user terminal 45 to search for or purchase a product.
[2.各サーバの構成および機能]
(2.1 商品ウェブページ分析サーバ10の構成および機能)
次に、商品ウェブページ分析サーバ10の構成および機能について、図2を用いて説明する。
[2. Configuration and function of each server]
(2.1 Configuration and Function of Product Web Page Analysis Server 10)
Next, the configuration and function of the product web
図2は、商品ウェブページ分析サーバ10の概要構成の一例を示すブロック図である。
FIG. 2 is a block diagram illustrating an example of a schematic configuration of the product web
図2に示すように、コンピュータとして機能する商品ウェブページ分析サーバ10は、通信部11と、記憶部12と、入出力インターフェース部13と、システム制御部14と、を備えている。そして、システム制御部14と入出力インターフェース部13とは、システムバス15を介して接続されている。
As shown in FIG. 2, the product web
通信部11は、ネットワーク3に接続してユーザ端末45等との通信状態を制御したり、ローカルエリアネットワークに接続して、ショッピングサーバ20や検索サーバ30等の他のサーバとデータの送受信を行ったりする。
The
記憶部12は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラム等の各種プログラムや、データ等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク3を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。
The
また、記憶部12には、カテゴリ関連語記憶手段の一例としてのカテゴリ関連語データベース12a(以下「カテゴリ関連語DB」とする。)や、ドメイン名記憶手段の一例としてのドメイン名データベース(以下「ドメイン名DB」とする。)12bや、特徴語データベース(以下「特徴語DB」とする。)12c等が構築されている。
Further, the
カテゴリ関連語DB12aには、ショッピングサイトにおける商品のカテゴリ毎に用語が記憶されている。例えば、”ワイン”のカテゴリには、”ワイン”、”お酒”等のカテゴリ関連語が、”ゴルフドライバー”のカテゴリには、”ゴルフ”、”ドライバー”、”クラブ”等のカテゴリ関連語が予め記録されている。また、カテゴリは階層構造になっていて、例えば、”ワイン”のカテゴリは、”洋酒”のカテゴリに属する。これらカテゴリ関連語は、各カテゴリに対応する識別子に関連付けられて記憶されている。このように、カテゴリ関連語DB12aは、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段の一例として機能する。
In the category
ドメイン名DB12bには、インターネット上の様々なショッピングサイトのドメイン名が予め記憶されている。このように、ドメイン名DB12bは、ショッピングサイトのドメイン名を記憶するドメイン名記憶手段の一例として機能する。 In the domain name DB 12b, domain names of various shopping sites on the Internet are stored in advance. Thus, the domain name DB 12b functions as an example of a domain name storage unit that stores the domain name of the shopping site.
特徴語DB12cには、商品ウェブページ分析サーバ10による分析結果の一例として、商品ウェブページから、抽出した商品ウェブページの特徴語が記憶されている。特徴語は、商品ウェブページのURL(Uniform Resource Locator)等に関連付けられて記憶されている。
In the
次に、入出力インターフェース部13は、通信部11および記憶部12とシステム制御部14との間のインターフェース処理を行うようになっている。
Next, the input / output interface unit 13 performs interface processing between the
システム制御部14は、CPU(Central Processing Unit)14a、ROM(Read Only Memory)14b、RAM(Random Access Memory)14c等により構成されている。そして、システム制御部14は、CPU14aが、ROM14bや記憶部12に記憶された各種プログラムを読み出し実行することにより、商品ウェブページのテキストデータから各商品ウェブページの特徴語候補を抽出したり、特徴語候補から特徴語を決定したり、特徴語に基づき、商品ウェブページ間の類似度を算出したりする。
The
(2.2 ショッピングサーバ20の構成および機能)
次に、ショッピングサーバ20の構成および機能について、図に基づき説明する。
図3は、ショッピングサーバ20の概要構成の一例を示すブロック図である。
(2.2 Configuration and function of shopping server 20)
Next, the structure and function of the
FIG. 3 is a block diagram illustrating an example of a schematic configuration of the
図3に示すように、ショッピングサーバ20は、通信部21と、記憶部22と、入出力インターフェース部23と、システム制御部24と、を備え、システム制御部24と入出力インターフェース部23とは、システムバス25を介して接続されている。なお、ショッピングサーバ20の構成および機能は、商品ウェブページ分析サーバ10の構成および機能とほぼ同じであるので、商品ウェブページ分析サーバ10の各構成や各機能において、異なるところを中心に説明する。
As shown in FIG. 3, the
通信部21は、ネットワーク3やローカルエリアネットワーク等を通して、店舗主端末40やユーザ端末45や商品ウェブページ分析サーバ10等と通信状態を制御等するようになっている。
The
記憶部22には、商品データベース(以下「商品DB」とする。)22aや、会員データベース(以下「会員DB」とする。)22b等が構築されている。
In the
商品DB22aには、商品を識別するための識別子である商品IDに関連付けられ、商品名、種類、商品の画像、スペック、および、商品紹介の要約文等の商品情報や、広告情報等が記憶されている。また、商品DB22aには、HTML(HyperText Markup Language)、XML(Extensible Markup Language)等のマークアップ言語等により記述された商品ウェブページのファイル等が記憶されている。 In the product DB 22a, product information such as a product name, type, product image, specification, and summary of product introduction, advertisement information, and the like are stored in association with a product ID that is an identifier for identifying the product. ing. The product DB 22a stores a product web page file described in a markup language such as HTML (HyperText Markup Language) or XML (Extensible Markup Language).
会員DB22bには、会員登録されたユーザ(インターネットショップの利用者)のユーザID、名称、住所、電話番号、メールアドレス等のユーザ情報が登録されている。このようなユーザ情報は、ユーザIDによってユーザ毎に判別可能になっている。また、会員DB22bには、ユーザがユーザ端末45からインターネットショップのサイトにログインする際に必要な、ユーザID、ログインID、および、パスワードが登録されている。ここで、ログインIDおよびパスワードは、ログイン処理(ユーザの認証処理)に使用されるログイン情報である。 In the member DB 22b, user information such as user ID, name, address, telephone number, and mail address of a registered user (user of Internet shop) is registered. Such user information can be determined for each user by the user ID. In the member DB 22b, a user ID, a login ID, and a password necessary for a user to log in to the Internet shop site from the user terminal 45 are registered. Here, the login ID and the password are login information used for login processing (user authentication processing).
システム制御部24は、CPU24a、ROM24b、RAM24c等により構成されている。そして、システム制御部24は、CPU24aが、ROM24bや記憶部22に記憶された各種プログラムを読み出し実行することにより、店舗主による商品ウェブページの登録や更新や、ユーザによる商品購入処理や、商品の購買履歴をユーザID毎に記録させたりする。
The
(2.3 検索サーバ30の構成および機能)
次に、検索サーバ30の構成および機能について、図に基づき説明する。
図4は、検索サーバ30の概要構成の一例を示すブロック図である。
(2.3 Configuration and Function of Search Server 30)
Next, the configuration and function of the
FIG. 4 is a block diagram illustrating an example of a schematic configuration of the
図4に示すように、検索サーバ30は、通信部31と、記憶部32と、入出力インターフェース部33と、システム制御部34と、を備え、システム制御部34と入出力インターフェース部33とは、システムバス35を介して接続されている。なお、検索サーバ30の構成および機能は、商品ウェブページ分析サーバ10の構成および機能とほぼ同じであるので、商品ウェブページ分析サーバ10の各構成や各機能において、異なるところを中心に説明する。
As shown in FIG. 4, the
通信部31は、ネットワーク3やローカルエリアネットワーク等を通して、ユーザ端末45や商品ウェブページ分析サーバ10等と通信状態を制御等するようになっている。
The
記憶部32には、検索データベース(以下「検索DB」とする。)32a等が構築されている。
In the
検索DB32aには、インデクサーにより生成されたインデックス情報や、スニペット等が記憶されている。 The search DB 32a stores index information generated by the indexer, snippets, and the like.
システム制御部34は、CPU34a、ROM34b、RAM34c等により構成されている。そして、システム制御部34は、CPU34aが、ROM34bや記憶部32に記憶された各種プログラムを読み出し実行することにより、インターネット上のウェブページの情報を収集し、ウェブページの情報を予め解析し、インデックス情報や検索結果のスニペットを作成したり、商品ウェブページ分析サーバ10やユーザ端末45からの検索クエリに基づき、検索をしたり、検索結果を送信したりする。
The
[3.商品ウェブページ分析システムの動作]
次に、本発明の一実施形態に係る商品ウェブページ分析システム1の動作について図5〜図11に基づき説明する。
[3. Operation of product web page analysis system]
Next, operation | movement of the goods web
図5は、商品ウェブページ分析サーバ10において商品ウェブページを分析する動作例を示すフローチャートである。図6は、ショッピングサーバ20の商品ウェブページの一例を示す説明図である。図7は、商品ウェブページのソースコードの一例を示す説明図である。図8は、商品ウェブページのテキストデータの分析過程の一例を示す模式図である。図9は、検索サーバ30の検索結果の一例を示す模式図である。図10は、ドメイン名DB12bに記憶されたショッピングサイトのドメイン名の一例を示す模式図である。図11は、カテゴリ関連語DB12aに記憶されたカテゴリ関連語の一例を示す模式図である。図12は、商品ウェブページ分析サーバ10における類似度算出のサブルーチンの一例を示すフローチャートである。
FIG. 5 is a flowchart showing an operation example of analyzing a product web page in the product web
(3.1.商品ウェブページの分析の流れ)
まず、商品ウェブページの分析の流れについて、図5を用いて説明する。
(3.1. Flow of product web page analysis)
First, the flow of analysis of a product web page will be described with reference to FIG.
図5に示すように、商品ウェブページ分析サーバ10は、2つの商品ウェブページを取得する(ステップS1)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、商品DB22aにおいて、同一のカテゴリ(例えば、カテゴリ”ワイン”)に所属している商品に関して、第1の商品ウェブページおよび第2の商品ウェブページを、通信部11を通して商品DB22aから取得する。これら商品ウェブページは、店舗主端末40を通して、店舗主等により登録された商品ウェブページである。このように、商品ウェブページ分析サーバ10のシステム制御部14および通信部11は、第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段の一例として機能する。
As shown in FIG. 5, the product web
次に、商品ウェブページ分析サーバ10は、各商品ウェブページからテキストデータを抽出する(ステップS2)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、各商品ウェブページ内に記述されているテキストデータを抽出する。さらに具体的には、図6に示すように、商品ウェブページ50において、テキスト部51、52、53、54のテキストデータが抽出される。また、図7に示すように、HTML等のマークアップ言語等で記述されたソースコードの中のデータも利用する。例えば、HTMLタグのtitle要素の部分のテキストデータも抽出される。
Next, the product web
このように、商品ウェブページ分析サーバ10のシステム制御部14は、各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段の一例として機能する。
As described above, the
次に、商品ウェブページ分析サーバ10は、抽出したテキストデータから言語解析の一例である形態素解析によって特徴語候補を抽出する(ステップS3)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、形態素解析のプログラムを用い、抽出したテキストデータを形態素に分解し、各文節の品詞等を求める。図8に示すように、例えば、語句群53aが得られる。そして、商品ウェブページ分析サーバ10のシステム制御部14は、語句群53aから、ノイズを除去して、特徴語候補群53bを抽出する。例えば、”[ ]”のように括弧や記号で括られた部分や、動詞句や、動詞句に係る語句等が、語句群53aから取り除かれ、特徴語候補群53bが得られる。ここで、括弧や記号で括られた部分はノイズである場合が多く、また、動詞句や動詞句に係る語句は商品に関連する語句でないことが多い。なお、形態素解析として、一般的な形態素解析のプログラムを用いればよく、形態素解析する際、複合語を形成する過程があってもよい。また、他方の商品ウェブページについても、特徴語候補が抽出される。
Next, the product web
このように商品ウェブページ分析サーバ10のシステム制御部14は、抽出したテキストデータを言語解析して、各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、テキストデータを形態素解析によって言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段の一例として機能する。
As described above, the
次に、商品ウェブページ分析サーバ10は、各特徴語候補によりウェブ検索を行う(ステップS4)。具体的には、まず、商品ウェブページ分析サーバ10のシステム制御部14は、検索サーバ30が提供する検索APIの機能を利用するために、各特徴語候補を検索キーワードとする各検索クエリを作成する。そして、商品ウェブページ分析サーバ10のシステム制御部14は、通信部11を通して、検索サーバ30に送信し、検索サーバ30から特徴語候補毎の検索結果を受信する。図9に示すように、検索結果ページ60の検索結果毎に、検索結果のタイトル部61、スニペット部62が含まれる。なお、使用する検索エンジンによって、タイトル部とスニペット部とに明確に分けられていない場合は、検索結果のテキストデータの一部をスニペットとする。このように、商品ウェブページ分析サーバ10のシステム制御部14は、特徴語候補を検索キーワードとする検索クエリを作成し、検索クエリに基づく検索結果を取得する検索結果取得手段の一例として機能する。
Next, the product web
次に、商品ウェブページ分析サーバ10は、ショッピングサイトの検索結果に絞る(ステップS5)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、検索結果のリンク先のURL(Uniform Resource Locator)において、ショッピングサイトのドメイン名を含む検索結果に絞る。さらに具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、図10のように、ドメイン名DB12bを参照して、上位(例えば30位)の検索結果のうち、HTMLのタグ”<a href=・・・>”の情報やスニペット部62のURL62aの中にショッピングサイトのドメイン名を含む検索結果に絞る。
Next, the product web
次に、商品ウェブページ分析サーバ10は、カテゴリ関連語がスニペットに含まれる場合の特徴語候補を特徴語として決定する(ステップS6)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、ステップS5で絞られた検索結果のスニペットの中に、カテゴリ関連語が含まれる場合の特徴語候補を選択し、この特徴語候補を特徴語として決定する。さらに具体的には、図11に示すように、商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリが”ワイン”の場合、検索結果のスニペットに、カテゴリ関連語”ワイン”または”酒”が含まれる特徴語候補を選択し、特徴語候補を特徴語として決定する。そして、図8に示すように、例えば、語句群53cが得られ、特徴語DB12cに記憶される。
Next, the product web
このように商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリ関連語記憶手段の一例のカテゴリ関連語DB12aを参照して、検索結果のスニペット中にカテゴリ関連語が存在するか否かを判定する検索結果判定手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定する特徴語決定手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリ関連語記憶手段およびドメイン名記憶手段を参照して、検索結果において、ショッピングサイトのスニペット中にカテゴリ関連語が存在するか否かを判定する検索結果判定手段の一例として機能する。
As described above, the
次に、商品ウェブページ分析サーバ10は、特徴語に基づき類似度を算出する(ステップS7)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、商品ウェブページ間の類似度を算出するサブルーチンにより、類似度を算出する。このように商品ウェブページ分析サーバ10のシステム制御部14は、特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段の一例として機能する。
Next, the product web
次に、商品ウェブページ分析サーバ10は、類似度に基づき商品ウェブページの類似性の判定を行う(ステップS8)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、類似度算出のサブルーチンにより算出した類似度が所定の値以上である場合、対象の商品ウェブページ同士は類似商品を扱う商品ウェブページであると判定する。なお、類似商品を扱う商品ウェブページであると判定された商品ウェブページのうち、さらに類似度が高い場合、同一の商品を扱う商品ウェブページであると判定してもよい。このように商品ウェブページ分析サーバ10のシステム制御部14は、類似度が所定の値以上である場合、第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段の一例として機能する。
Next, the product web
商品ウェブページの類似性の判定を利用して、同一の商品や類似の商品を扱う商品ウェブページを集め、ユーザ端末45を通して、ユーザが閲覧できるように、商品ウェブページのデータベースを構築する。例えば、ウェブページに、ある商品に対するGUI(Graphical User Interface)のボタン等を設け、ユーザがクリックすることにより、同一の商品や類似の商品を扱う商品ウェブページの一覧が見られるようにする。 Using the determination of the similarity of the product web pages, product web pages that handle the same product or similar products are collected, and a product web page database is constructed so that the user can browse through the user terminal 45. For example, a GUI (Graphical User Interface) button or the like for a certain product is provided on the web page, and when the user clicks, a list of product web pages that handle the same product or similar products can be viewed.
(3.2.特徴語に基づく類似度の算出)
次に、特徴語に基づく類似度の算出のサブルーチンについて、図12を用いて説明する。
(3.2. Calculation of similarity based on feature words)
Next, a subroutine for calculating similarity based on feature words will be described with reference to FIG.
図12に示すように、商品ウェブページ分析サーバ10は、各特徴語のIDF値を算出する(ステップS10)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、各特徴語に対して、下記の式(1)に示すようなIDF(Inverse Document Frequency(逆出現頻度))の値を、算出する。
IDFw=log(N/Nw) ・・・(1)
As shown in FIG. 12, the product web
IDF w = log (N / N w ) (1)
ここで、IDFwは特徴語wのIDF値であり、Nはあるショッピングサイトの全ウェブページ数であり、Nwは前記ショッピングサイトにおいて特徴語wが出現するウェブページ数である。特徴語wのウェブページ数Nwの値が小さいほどIDFwの値が大きくなり、特徴語wは商品を扱う商品ウェブページに特有な語句である可能性が高くなる。なお、IDF値を算出するためのウェブページの範囲は、検索エンジンがクローリングしたページ数でもよいし、ある国のウェブページや、ある国の複数のショッピングサイトのウェブページや、対象としているカテゴリにおける上位のカテゴリのウェブページ等でもよい。 Here, IDF w is the IDF value of the feature word w, N is the total number of web pages of a certain shopping site, and N w is the number of web pages in which the feature word w appears in the shopping site. As the value of the number of web pages N w of the feature word w is smaller, the value of the IDF w is larger, and the feature word w is more likely to be a phrase unique to a product web page that handles products. The web page range for calculating the IDF value may be the number of pages crawled by a search engine, a web page in a certain country, a web page of a plurality of shopping sites in a certain country, or a target category. It may be a web page of a higher category.
次に、商品ウェブページ分析サーバ10は、IDF値に基づく類似度を算出する(ステップS11)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、下記の式(2)に示すように、ステップS10で算出したIDF値に基づき、第1の商品ウェブページと第2の商品ウェブページとの類似度S12を算出する。
S12=[Σc∈C12(IDFc)]/[Σu∈U12(IDFu)]・・・(2)
Next, the product web
S 12 = [ΣcεC 12 (IDFc)] / [ΣuεU 12 (IDFu)] (2)
ここで、集合U12は、第1の商品ウェブページの特徴語と第2の商品ウェブページの特徴語とを合わせた集合である。すなわち、第1の商品ウェブページの特徴語の集合と、第2の商品ウェブページの特徴語の集合との和集合である。集合C12は、第1の商品ウェブページと第2の商品ウェブページとの共通の特徴語の集合である。すなわち、第1の商品ウェブページの特徴語の集合と、第2の商品ウェブページの特徴語の集合との積集合である。また、式(2)の分母は、集合U12の要素uである特徴語のIDF値の和であり、式(2)の分子は、集合C12の要素cである共通の特徴語のIDF値の和である。式(2)に示すように、第1の商品ウェブページと第2の商品ウェブページとにおいて、共通の特徴語があればあるほど、類似度S12が高くなり、また、その特徴語のIDF値が高いほど、類似度S12が高くなる。 Here, the set U 12 is a set in which the feature words of the first product web page and the feature words of the second product web page are combined. That is, it is the union of the set of feature words of the first product web page and the set of feature words of the second product web page. Set C 12 is a set of common feature words of the first items web page and the second of the product web page. That is, a product set of a set of feature words of the first product web page and a set of feature words of the second product web page. Further, the denominator of Expression (2) is the sum of the IDF values of the feature words that are the elements u of the set U 12 , and the numerator of Expression (2) is the IDF of the common feature words that are the elements c of the set C 12. It is the sum of values. As shown in the equation (2), the more common feature words are in the first product web page and the second product web page, the higher the similarity S 12 is, and the IDF of the feature words the higher the value, the similarity S 12 is high.
このように商品ウェブページ分析サーバ10のシステム制御部14は、第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の特徴語に基づき、類似度を算出する類似度算出手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の特徴語の逆出現頻度に基づき類似度を算出する類似度算出手段の一例として機能する。
In this way, the
この式(2)の類似度に基づき、ステップS8において、商品ウェブページ分析サーバ10が、商品ウェブページの類似性の判定を行う。
Based on the similarity of the formula (2), the product web
以上、本実施形態によれば、商品を分類するカテゴリに関連するカテゴリ関連語をカテゴリ関連語DB12aに記憶し、第1の商品ウェブページおよび第2の商品ウェブページを取得し、各商品ウェブページ50内に記述されているテキスト部51、52、53等のテキストデータを言語解析して各商品ウェブページの特徴語候補を抽出し、特徴語候補を検索キーワードとする検索クエリを作成して検索クエリに基づく検索結果ページ60を取得し、検索結果ページのスニペット部62のスニペット中にカテゴリ関連語が存在するか否かを判定し、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定し、特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出し、類似度が所定の値以上である場合、第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定することにより、商品ウェブページの商品の類似性を求めて、例えば、同一商品の商品ウェブページをまとめ上げることができるため、ユーザの利便性の向上を図ることができる。
As mentioned above, according to this embodiment, the category related word relevant to the category which classifies goods is memorized in category related word DB12a, the 1st goods web page and the 2nd goods web page are acquired, and each
また、本実施形態によれば、特徴語候補を絞る際、ウェブ検索により求まるスニペットを使用することにより、インターネット上における語句の使用状況を反映でき、高精度の特徴語を抽出することができる。さらに、スニペットに限ることにより、高速に特徴語を求めることができる。さらにまた、ウェブ検索のスニペットを使用することにより、商品等のトレンドが変化してもトレンドに追随でき、適切な特徴語が求められ、商品ウェブページであるとの判定が適切にできる。 Further, according to the present embodiment, when narrowing down feature word candidates, the use status of words on the Internet can be reflected by using a snippet obtained by web search, and a highly accurate feature word can be extracted. Furthermore, feature words can be obtained at high speed by limiting to snippets. Furthermore, by using a web search snippet, even if the trend of a product or the like changes, it can follow the trend, an appropriate feature word is obtained, and it can be appropriately determined that the product is a product web page.
また、商品ウェブページ分析サーバ10のシステム制御部14が、第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の特徴語に基づき、類似度を算出する場合、共通の特徴語により的確に類似度を算出できる。
In addition, when the
また、商品ウェブページ分析サーバ10のシステム制御部14が、第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の特徴語の逆出現頻度に基づき類似度を算出する場合、特徴語の逆出現頻度により、特徴語のランク付けができるため、類似性の判断がしやすくなる。
Further, when the
また、商品ウェブページ分析サーバ10のシステム制御部14が、カテゴリ関連語DB(カテゴリ関連語記憶手段)12aを参照して、検索結果において、ショッピングサイトのスニペット中にカテゴリ関連語が存在するか否かを判定する場合、商品を販売するために商品の説明がなされている商品ウェブページを多く有するショッピングサイトに絞るため、商品を適切に特徴付ける特徴語を抽出でき、特徴語の精度が高くなる。
Further, the
また、商品ウェブページ分析サーバ10のシステム制御部14が、テキストデータを形態素解析して得られた形態素から、ノイズの形態素を除去する場合、的確な特徴語候補を抽出できるため、特徴語の精度が高くなる。
In addition, when the
なお、検索サーバ30は、サーバシステム5外である他の検索サイトの検索サーバでもよい。この場合、商品ウェブページ分析サーバ10は、ネットワーク3を通して、検索クエリを送信し、検索結果を受信する。また、スニペットを求める際のウェブ検索する範囲は、ショッピングサーバ20内のウェブページに限ったり、ある国や地域のウェブページに限ったりしてもよい。
The
さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。 Furthermore, the present invention is not limited to the above embodiments. Each of the above embodiments is an exemplification, and any configuration that has substantially the same configuration as the technical idea described in the claims of the present invention and has the same operational effects can be used. It is included in the technical scope of the present invention.
3:ネットワーク
5:サーバシステム
10:商品ウェブページ分析サーバ(商品ウェブページ分析装置)
12a:カテゴリ関連語DB(カテゴリ関連語記憶手段)
12b:ドメイン名DB
20:ショッピングサーバ
30:検索サーバ
3: Network 5: Server system 10: Product web page analysis server (product web page analysis device)
12a: Category related word DB (category related word storage means)
12b: Domain name DB
20: Shopping server 30: Search server
Claims (7)
第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段と、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段と、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段と、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段と、
前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段と、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段と、
前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段と、
前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段と、
を備えたことを特徴とする商品ウェブページ分析装置。 Category-related word storage means for storing category-related words related to categories for classifying products;
Product web page acquisition means for acquiring a first product web page and a second product web page;
Text data extraction means for extracting text data described in each product web page;
Linguistic analysis of the extracted text data, and feature word candidate extraction means for extracting feature word candidates of each product web page;
A search result acquisition means for creating a search query using the feature word candidate as a search keyword and acquiring a search result based on the search query;
Search result determination means for referring to the category related word storage means to determine whether or not the category related word is present in the snippet of the search results;
Feature word determination means for determining the feature word candidate when the category-related word is present in the snippet as a feature word of each product web page;
Similarity calculation means for calculating the similarity between the first product web page and the second product web page based on the feature word;
When the similarity is equal to or greater than a predetermined value, the similar product determination unit that determines that the first product web page and the second product web page are product web pages that handle similar products;
A product web page analyzing apparatus comprising:
前記類似度算出手段が、前記第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の前記特徴語に基づき、前記類似度を算出することを特徴とする商品ウェブページ分析装置。 The product web page analyzing apparatus according to claim 1,
The product web page analyzing apparatus, wherein the similarity calculating unit calculates the similarity based on the feature word common to the first product web page and the second product web page.
前記類似度算出手段が、前記第1の商品ウェブページおよび第2の商品ウェブページにおいて共通の前記特徴語の逆出現頻度に基づき前記類似度を算出することを特徴とする商品ウェブページ分析装置。 The product web page analyzing apparatus according to claim 2,
The product web page analyzing apparatus, wherein the similarity calculating unit calculates the similarity based on a reverse appearance frequency of the feature word common to the first product web page and the second product web page.
ショッピングサイトのドメイン名を記憶するドメイン名記憶手段を更に備え、
前記検索結果判定手段が、前記カテゴリ関連語記憶手段および前記ドメイン名記憶手段を参照して、前記検索結果において、ショッピングサイトのスニペット中に前記カテゴリ関連語が存在するか否かを判定することを特徴とする商品ウェブページ分析装置。 In the goods web page analysis device according to any one of claims 1 to 3,
A domain name storage means for storing the domain name of the shopping site;
The search result determining means refers to the category related word storage means and the domain name storage means to determine whether or not the category related word exists in a snippet of a shopping site in the search result. Product web page analysis device.
前記特徴語候補抽出手段が、前記テキストデータを形態素解析によって前記言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段を有することを特徴とする商品ウェブページ分析装置。 In the goods web page analysis device according to any one of claims 1 to 4,
The product web page analyzing apparatus, wherein the feature word candidate extracting means includes noise removing means for removing noise morphemes from morphemes obtained by linguistic analysis of the text data by morphological analysis.
第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段と、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出ステップと、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出ステップと、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得ステップと、
前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定ステップと、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定ステップと、
前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出ステップと、
前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定ステップと、
を有することを特徴とする商品ウェブページ分析方法。 A category-related word storage step for storing a category-related word related to a category for classifying products;
Product web page acquisition means for acquiring a first product web page and a second product web page;
A text data extraction step for extracting text data described in each of the product web pages;
A linguistic analysis of the extracted text data, and a feature word candidate extraction step of extracting feature word candidates of each product web page;
A search result acquisition step of creating a search query using the feature word candidate as a search keyword and acquiring a search result based on the search query;
A search result determination step for determining whether or not the category-related word is present in the search result snippet;
A feature word determination step of determining the feature word candidate when the category-related word is present in the snippet as a feature word of each product web page;
A similarity calculation step of calculating a similarity between the first product web page and the second product web page based on the feature word;
A similar product determination step for determining that the first product web page and the second product web page are product web pages that handle similar products when the similarity is equal to or greater than a predetermined value;
A method for analyzing a product web page, comprising:
商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段、
第1の商品ウェブページおよび第2の商品ウェブページを取得する商品ウェブページ取得手段、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段、
前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段、
前記特徴語に基づき、第1の商品ウェブページと第2の商品ウェブページとの間の類似度を算出する類似度算出手段、および、
前記類似度が所定の値以上である場合、前記第1の商品ウェブページと第2の商品ウェブページとは類似商品を扱う商品ウェブページであると判定する類似商品判定手段として機能させることを特徴とする商品ウェブページ分析装置用のプログラム。 Computer
Category-related word storage means for storing category-related words related to categories for classifying products;
Product web page acquisition means for acquiring the first product web page and the second product web page;
Text data extraction means for extracting text data described in each product web page;
Linguistic analysis of the extracted text data and feature word candidate extraction means for extracting feature word candidates of each product web page;
A search result acquisition means for creating a search query using the feature word candidate as a search keyword and acquiring a search result based on the search query;
Search result determination means for determining whether or not the category related word exists in the snippet of the search result with reference to the category related word storage means,
Feature word determination means for determining the feature word candidate when the category-related word is present in the snippet as a feature word of each product web page;
Similarity calculating means for calculating the similarity between the first product web page and the second product web page based on the feature word; and
When the similarity is greater than or equal to a predetermined value, the first product web page and the second product web page function as a similar product determination unit that determines that the product web page handles similar products. A program for a product web page analyzer.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010043388A JP2013101415A (en) | 2010-02-26 | 2010-02-26 | Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer |
PCT/JP2011/054507 WO2011105604A1 (en) | 2010-02-26 | 2011-02-28 | Information processing device, information processing method, program for information processing device, and recording medium |
PCT/JP2011/054509 WO2011105605A1 (en) | 2010-02-26 | 2011-02-28 | Information processing device, information processing method, program for information processing device, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010043388A JP2013101415A (en) | 2010-02-26 | 2010-02-26 | Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013101415A true JP2013101415A (en) | 2013-05-23 |
Family
ID=48621998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010043388A Pending JP2013101415A (en) | 2010-02-26 | 2010-02-26 | Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013101415A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5887031B1 (en) * | 2015-05-29 | 2016-03-16 | 楽天株式会社 | Product identification device, product identification method, and product identification program |
CN116932964A (en) * | 2023-09-11 | 2023-10-24 | 中国人民解放军国防科技大学 | Web application API (application program interface) mining method and system based on page state similarity analysis |
-
2010
- 2010-02-26 JP JP2010043388A patent/JP2013101415A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5887031B1 (en) * | 2015-05-29 | 2016-03-16 | 楽天株式会社 | Product identification device, product identification method, and product identification program |
WO2016194062A1 (en) * | 2015-05-29 | 2016-12-08 | 楽天株式会社 | Product identification device, product identification method, and product identification program |
CN116932964A (en) * | 2023-09-11 | 2023-10-24 | 中国人民解放军国防科技大学 | Web application API (application program interface) mining method and system based on page state similarity analysis |
CN116932964B (en) * | 2023-09-11 | 2023-11-24 | 中国人民解放军国防科技大学 | Web application API (application program interface) mining method and system based on page state similarity analysis |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5396533B2 (en) | Information processing apparatus, information processing method, and program for information processing apparatus | |
JP6433614B1 (en) | Chatbot search system and program | |
CN102822815B (en) | For the method and system utilizing browser history to carry out action suggestion | |
EP2778959B1 (en) | Information processing device, information processing method, and information processing program | |
CN107016020A (en) | The system and method for aiding in searching request using vertical suggestion | |
JP5340491B2 (en) | Related word registration device, information processing device, related word registration method, program for related word registration device, recording medium, and related word registration system | |
JP5379978B2 (en) | Search system and search method | |
WO2004099901A2 (en) | Concept network | |
EP2784696A1 (en) | Search device, search method, search program, and storage medium | |
KR100434902B1 (en) | Knowledge base custom made information offer system and service method thereof | |
US8121970B1 (en) | Method for identifying primary product objects | |
JP2002245061A (en) | Keyword extraction | |
JP2013101416A (en) | Retrieval device, retrieval method, and program for retrieval device | |
KR20080088391A (en) | Information processing device, information processing method and information processing program | |
KR20190055963A (en) | Goods exposure system in online shopping mall with keyword analyzing | |
KR20140133633A (en) | Goods exposure system in online shopping mall with keyword analyzing and managing method thereof | |
WO2001027712A2 (en) | A method and system for automatically structuring content from universal marked-up documents | |
KR20100046421A (en) | Method and server for estimating preference of commodity | |
JP2013101415A (en) | Commodity web page analyzer, commodity web page analysis method, and program for commodity web page analyzer | |
JP5315485B1 (en) | Information processing apparatus, information processing method, and information processing program | |
JP2007207202A (en) | Information providing system using web log | |
KR100312430B1 (en) | System for learning information of goods in internet shopping malls and method using the same | |
WO2011105604A1 (en) | Information processing device, information processing method, program for information processing device, and recording medium | |
JP6894875B2 (en) | Brand dictionary creation device, product evaluation device, brand dictionary creation method and program. | |
JP4842921B2 (en) | Search system and method |