JP2011053734A

JP2011053734A - サイト内検索サーバ、サイト内検索サービス方法、及びプログラム

Info

Publication number: JP2011053734A
Application number: JP2009199345A
Authority: JP
Inventors: Tatsuya Shindo; 達也進藤
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-08-31
Filing date: 2009-08-31
Publication date: 2011-03-17

Abstract

【課題】特定サイト内のコンテンツの検索サービスを提供するサイト内検索システムに関して、サイト運営者側の負担を軽減し、簡単にサイト内検索を実現することを課題とする。
【解決手段】商品紹介のＨＴＭＬ文書のソースコードから抽出する属性を、文字列型と数値型に分けて設定する。抽出元として、コンテンツそのもの、あるいはコンテンツのＵＲＬを指定する。また、ソースコードから属性に関する記述を特定し、文字列あるいは数値である属性値を参照変数＄１などに格納させるため正規表現による抽出条件を設定させる。この条件により抽出した属性情報をデータベース化し、インターネットを介したサイト内検索に用いる。
【選択図】図１３

Description

本発明は、サイト内検索サーバにより特定サイト内のコンテンツの検索サービスを提供するサイト内検索システムに関する。

特許文献１（特開２００２−１０８９０６「情報検索用ウェブページ」）には、「Ｗｅｂサイトにおける情報検索を快適かつ円滑に行えるようにした情報検索用Ｗｅｂページを提供する」ことを課題とする技術が開示されている。バーチャルショッピングモールにおける商品の検索などに用いられる。

この例では、商品に係る情報データベースを予め用意し、サイト運営者のサーバに検索手段を設けることが前提となっている。その為、サイト運営者側の負担が大きい。

特許文献２（特開２００４−２６４９２８「Ｗｅｂサイト内検索方法と装置、Ｗｅｂサイト内検索プログラムおよびこのプログラムを記録した記録媒体」）には、「サイト検索において、検索者に対して、サイト内構造を可視化し、分かりやすいサイト内ナビゲーションを行う」ことを課題とする技術が開示されている。その為に、予めＷｅｂページを収集して、推定されるサイト木構造に関係付けておく。

しかし、推定されるサイト木構造は、ページのリンクに基づくものであって、ページの内容を反映したものではない。従って、商品情報の検索などには不十分である。

特開２００２−１０８９０６号公報特開２００４−２６４９２８号公報

解決しようとする問題点は、サイト運営者側の負担を軽減し、簡単にサイト内検索を実現することである。

本願発明に係るサイト内検索サーバは、
インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバであって、以下の要素を有することを特徴とする
（１）サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録部
（２）受信した属性抽出条件を記憶する属性抽出条件記憶部
（３）インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集部
（４）収集したタグ付文書ファイルを記憶する収集文書格納部
（５）属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出部
（６）タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース。

また、属性抽出条件は、抽出元データをタグ付文書ファイル中の記述コードとするか、あるいはタグ付文書ファイルのＵＲＬとするかの条件を含み、
サイト内検索サーバは、更に、収集したタグ付文書ファイルのＵＲＬを記憶する収集文書リストを有し、
属性抽出条件が抽出元データをタグ付文書ファイル中の記述コードとする条件を含む場合には、タグ付文書ファイル中の記述コードから属性情報を抽出し、属性抽出条件が抽出元データをタグ付文書ファイルのＵＲＬとする条件を含む場合には、タグ付文書ファイルのＵＲＬから属性情報を抽出することを特徴とする。

また、属性抽出条件は、記述パターンを特定するとともに記述パターン中の参照部位を特定する正規表現と、正規表現により特定される参照部位の記述コードを格納する参照変数名を含み、
属性抽出部は、タグ付文書ファイルの全体の記述コード中に、正規表現により特定される記述パターンが存在するか判定し、記述パターンが存在する場合に、正規表現により特定される参照部位の記述コードを参照変数に格納するマッチング判定を行ない、参照変数値を属性値として属性情報に含めることを特徴とする。

また、属性抽出条件登録部は、文字列型の属性抽出条件と数値型の属性抽出条件を受信し、
属性抽出部は、文字列型の属性抽出条件により得られた参照変数値である参照部位の記述コードを、そのまま属性値として文字列の属性情報に含め、数値型の属性抽出条件により得られた参照変数値である参照部位の記述コードを、バイナリコードに変換し、変換したバイナリコードを属性値として数値の属性情報に含めることを特徴とする。

また、属性抽出条件の正規表現は、複数の参照部位を特定し、属性抽出条件の複数の参照変数名は、階層に分けられ、
属性抽出部は、各参照変数値である属性値を、各階層に配分した属性情報を生成することを特徴とする。

また、属性抽出条件の正規表現は、複数の参照部位を特定し、属性抽出条件の複数の参照変数名は、並列であり、
属性抽出部は、各参照変数値である属性値を、単階層に列挙した属性情報を生成することを特徴とする。

また、サイト内検索サーバは、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付部と、
受信した検索要求から検索条件を特定する検索条件判定部と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行部と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成部と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信部を有することを特徴とする。

また、検索要求は、サイト内検索サーバの所定ＵＲＬであり、検索条件は、前記ＵＲＬに付されたパラメータであることを特徴とする。

また、サイト内検索サーバは、更に、前記任意の属性について、すべてのタグ付文書の属性情報に含まれる属性値のリストを生成する属性値リスト生成部と、
生成した属性値のリストを記憶する属性値リスト記憶部を有することを特徴とする。

また、サイト内検索サーバは、更に、前記任意の属性について、属性値のリストを表示する属性ウィンドウを生成する属性ウィンドウ生成部を有し、
文書検索結果画面送信部は、文書検索結果画面に属性ウィンドウを含めることを特徴とする。

また、サイトサーバは、インターネットを介する商品取引を支援する電子商取引サイトサーバであって、
タグ付文書は、電子商取引の商品に関する内容を表示する画面を構成することを特徴とする。

また、タグ付文書は、構造化文書であることを特徴とする。

また、タグ付文書は、ＰＤＦ文書であることを特徴とする。

本願発明に係るサイト内検索サービス方法は、
インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバによるサイト内検索サービス方法であって、以下の要素を有することを特徴とする
（１）サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録工程
（２）受信した属性抽出条件を記憶する属性抽出条件記憶工程
（３）インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集工程
（４）収集したタグ付文書ファイルを記憶する収集文書格納工程
（５）属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出工程
（６）タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース化工程。

また、サイト内検索サービス方法は、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付工程と、
受信した検索要求から検索条件を特定する検索条件判定工程と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行工程と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成工程と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信工程を有することを特徴とする。

また、本願発明に係るプログラムは、
インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバとなるコンピュータに、以下の手順を実行させることを特徴とする
（１）サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録手順
（２）受信した属性抽出条件を記憶する属性抽出条件記憶手順
（３）インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集手順
（４）収集したタグ付文書ファイルを記憶する収集文書格納手順
（５）属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出手順
（６）タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース化手順。

また、プログラムは、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付手順と、
受信した検索要求から検索条件を特定する検索条件判定手順と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行手順と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成手順と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信手順をサイト内検索サーバとなるコンピュータに実行させることを特徴とする。

登録した属性抽出条件により、収集した文書から各属性を抽出するので、Ｗｅｂページと別に商品情報などのデータベースを用意する必要がなくなる。電子取引サイト側に改造や開発が伴わないため、検索機能の短期導入が可能となる。

属性の抽出を自動化できるで、データベースの更新などメンテナンスの負荷を軽減することができる。また、Ｗｅｂページの内容とデータベースの内容の不整合も生じない。

Ｗｅｂページから抽出すべき属性を自由に選べるので、商品の仕様や価格などサイトの目的に応じた検索項目の設定が可能となる。

インターネットを介して外部のサーバから検索サービスを提供するので、サイト運営側のサーバの負担が軽減される。

図１は、サイト内検索システムのネットワーク概要（その１）を示す図である。図２は、サイト内検索システムのネットワーク概要（その２）を示す図である。図３は、電子商取引サイトコンテンツ構成例を示す図である。図４は、電子商取引サイトのＨＴＭＬ文書表示例を示す図である。図５は、電子商取引サイトのＨＴＭＬ文書ソースコード例（１／７）を示す図である。図６は、電子商取引サイトのＨＴＭＬ文書ソースコード例（２／７）を示す図である。図７は、電子商取引サイトのＨＴＭＬ文書ソースコード例（３／７）を示す図である。図８は、電子商取引サイトのＨＴＭＬ文書ソースコード例（４／７）を示す図である。図９は、電子商取引サイトのＨＴＭＬ文書ソースコード例（５／７）を示す図である。図１０は、電子商取引サイトのＨＴＭＬ文書ソースコード例（６／７）を示す図である。図１１は、電子商取引サイトのＨＴＭＬ文書ソースコード例（７／７）を示す図である。図１２は、サイト内検索サーバの属性抽出条件登録に係る構成を示す図である。図１３は、属性抽出条件登録画面（文字列型１）の例を示す図である。図１４は、属性抽出条件登録画面（文字列型２）の例を示す図である。図１５は、属性抽出条件登録画面（文字列型３）の例を示す図である。図１６は、属性抽出条件登録画面（文字列型４）の例を示す図である。図１７は、属性抽出条件登録画面（数値型１）の例を示す図である。図１８は、属性抽出条件登録画面（数値型２）の例を示す図である。図１９は、属性抽出条件登録画面（文字列型５）の例を示す図である。図２０は、属性名テーブルの例を示す図である。図２１は、属性抽出条件記憶部の例を示す図である。図２２は、文字列型１の属性抽出条件の例を示す図である。図２３は、文字列型２の属性抽出条件の例を示す図である。図２４は、文字列型３の属性抽出条件の例を示す図である。図２５は、文字列型４の属性抽出条件の例を示す図である。図２６は、文字列型５の属性抽出条件の例を示す図である。図２７は、数値型１の属性抽出条件の例を示す図である。図２８は、数値型２の属性抽出条件の例を示す図である。図２９は、サイト内検索サーバのサイト内文書収集整理処理フローを示す図である。図３０は、サイト内検索サーバのサイト内文書収集整理に係る構成を示す図である。図３１は、収集文書リストの例を示す図である。図３２は、収集文書データベースの例を示す図である。図３３は、属性抽出処理フローを示す図である。図３４は、属性抽出部の構成を示す図である。図３５は、文字列型の属性情報格納処理フローを示す図である。図３６は、階層セレクタ展開処理フローを示す図である。図３７は、数値型の属性情報格納処理フローを示す図である。図３８は、属性値リスト記憶部の例を示す図である。図３９は、属性値リスト生成処理フローを示す図である。図４０は、層内属性値抽出処理フローを示す図である。図４１は、電子商取引サイトの検索ウィンドウの例を示す図である。図４２は、電子商取引サイトの検索ウィンドウのソースコード例を示す図である。図４３は、文書検索結果画面の例を示す図である。図４４は、サイト内検索サーバの文書検索サービス処理フローを示す図である。図４５は、サイト内検索サーバの文書検索サービスに係る構成を示す図である。図４６は、実施例２に係る電子商取引サイトのＨＴＭＬ文書表示例を示す図である。図４７は、実施例２に係る電子商取引サイトのＨＴＭＬ文書ソースコード例を示す図である。図４９は、実施例２に係る属性抽出条件登録画面（文字列型１）の例を示す図である。図４９は、実施例２に係る属性抽出条件登録画面（数値型１）の例を示す図である。図５０は、実施例２に係る文字列型１の属性抽出条件の例を示す図である。図５１は、実施例２に係る数値型１の属性抽出条件の例を示す図である。図５２は、日付変換処理フローを示す図である。図５３は、実施例２に係る収集文書データベースの例を示す図である。

本発明に係るサイト内検索システムは、インターネットを介し外付けされたサイト内検索サーバにより特定サイト内のコンテンツの検索サービスを提供する。

図１は、サイト内検索システムのネットワーク概要（その１）を示す図である。サイト内検索サーバ１０１は、インターネットを介して、システム管理者端末１０２及び電子商取引サイトサーバ１０３と接続している。また、電子商取引サイトサーバ１０３は、インターネットを介して、サイト利用者端末１０４と接続している。電子商取引サイトサーバ１０３は、通信販売のウェブサイトを開設し、電子商取引を行う通信販売業者が運営するサーバである。サイト利用者端末１０４は、通信販売のウェブサイトを閲覧し、商品を購入する利用者が用いる端末である。サイト内検索サーバ１０１は、例えば通信販売のウェブサイト内の検索サービスを提供するアプリケーションソフトを実装状態でレンタルするＡＳＰ（アプリケーションサービスプロバイダ）サーバである。システム管理者端末１０２は、後述する属性抽出条件など運用に必要な情報の設定を行う端末である。システム管理者端末１０２とサイト利用者端末１０４は、ＨＴＭＬ文書（タグ付文書の例、構造化文書の例、コンテンツの例、Ｗｅｂページの例）を表示し、指示されたイベントを返信するブラウザを有している。

図１以外にも、システム管理者端末１０２とサイト内検索サーバ１０１を非公開のネットワークで接続する形態も考えられる。図２は、サイト内検索システムのネットワーク概要（その２）を示す図である。この例では、システム管理者端末１０２は、ＬＡＮを介して同一施設内に設置されたサイト内検索サーバ１０１と接続している。

次に、電子商取引サイトサーバ１０３に設けられているコンテンツを例示する。図３は、電子商取引サイトコンテンツ構成例を示す図である。www.example.com/shop/wine/の下位には、当該通信販売業者が取り扱う商品であるワインの紹介画面が設けられている。

図４は、電子商取引サイトのＨＴＭＬ文書表示例を示す図である。カテゴリトップ＞フランス＞ブルゴーニュ＞ヴォーヌロマネは、パンくずリストである。これは、ＷＥＢサイト内の当該ページの階層内位置を、上位ページへのリンクのリスト形式で表している。その他、商品名、価格、生産者、ヴィンテージ、色、味わい、個数、商品のご説明等の項目とともに、商品の画像が表示されている。個数を入力し、「買い物かごへ」のアイコンをクリックすることにより、購入手続きに進行するように構成されている。この例で、価格、生産者、ヴィンテージ、色、味わい、商品のご説明は、商品の属性を示しており、商品を検索する際の項目となり得る情報である。特に、生産者や味わいは、文字列型の属性であり、価格やヴィンテージは、数値型の属性である。

図５〜図１１は、電子商取引サイトのＨＴＭＬ文書ソースコード例を示す図である。この例は、図４の表示例に対応している。

ここで、サイト内検索システムの動作概要について説明する。
（イ）属性抽出条件登録
前処理として、システム管理者端末１０２からサイト内検索サーバ１０１に、属性情報を抽出する際の条件を登録する。例えば、ワイン紹介画面のＨＴＭＬコードから価格や味わいなどの属性を抽出する条件である。
（ロ）サイト内文書収集整理
定期的に、サイト内検索サーバ１０１が電子商取引サイトサーバ１０３から公開情報である文書を収集し、収集した文書から属性情報を抽出し、データベース化する。例えば、ワイン紹介画面毎に、価格や味わいなどの属性を検索できるように整理する。
（ハ）文書検索サービス
サイト内検索サーバ１０１は、サイト利用者端末１０４からの検索要求に応じて、データベースから所望の文書を検索して、検索文書一覧として提供する。但し、サイト利用者端末１０４からの検索要求は、電子商取引サイトサーバ１０３が提供する画面に含まれる検索ウィンドウより発生するので、サイト利用者自身は、サイト内検索サーバ１０１にアクセスしているという意識を持つことなく、電子商取引サイトサーバ１０３による画面展開と一連の動作として接することになる。例えば、通販業者の画面からワインの検索を指示し、遠隔地にあるサイト内検索サーバから通販業者サイト内のワイン検索結果一覧画面を取得する。

上述の（イ）属性抽出条件登録、（ロ）サイト内文書収集整理、（ハ）文書検索サービスを順に説明する。まず、（イ）属性抽出条件登録について説明する。

図１２は、サイト内検索サーバの属性抽出条件登録に係る構成を示す図である。
属性抽出条件登録部１２０１は、システム管理者端末１０２に属性抽出条件登録画面を送信し、システム管理者端末１０２のブラウザに表示された属性抽出条件登録画面に対して入力され、返信される属性抽出条件を受信するように構成されている。そして、各属性名を属性名テーブル１２０２に記憶させ、各属性抽出条件を属性抽出条件記憶部１２０３に記憶させるように動作する。

属性抽出条件登録画面を例示する。図１３は、属性抽出条件登録画面（文字列型１）の例を示す図である。この例では、文字列型の属性を５つ扱い、数値型の属性を５つ扱う構成となっている。タグは、文字列型１〜文字列型５、及び数値型１〜数値型５の属性抽出条件登録画面を選択するように構成されている。属性名は、当該属性を示す名前である。抽出元データは、当該属性を含むデータ源を示している。「ＵＲＬ」の選択は、抽出元データをコンテンツ（例えば、ＨＴＭＬ文書ファイル）のＵＲＬとする条件を設定することを意味する。これにより、コンテンツのＵＲＬコードから属性値を得ることになる。他方、「コンテンツ」の選択は、抽出元データをコンテンツ（ＨＴＭＬ文書ファイル）中の記述コードとする条件を設定することを意味する。そして、コンテンツのソースコードから属性値を得ることになる。

抽出条件には、抽出元データの中から属性値を特定するための比較条件を正規表現により記述する。属性が階層構造である場合には、第一層セレクタから第五層セレクタを用いて、各層を区別する。各セレクタには、参照変数名（＄１、＄２、＄３等）を入力する。参照変数は、正規表現中の「()」で括られた文字列を参照するための変数であり、括弧の出現順に各括弧内の文字列に相当するコードを＄１、＄２、＄３、・・・で参照することができる。参照変数は、マッチング判定を行なうプログラムにおいてメモリに記憶されるスカラー変数である。本願発明では、上述の参照変数の機能を活用する。その為、属性値が参照変数値となるように正規表現を記述するとともに、その参照変数値をセレクタで指定する。この例では、上位の属性値から順に、２番目に出現する括弧に対応する＄２と、４番目に出現する括弧に対応する＄４と、６番目に出現する括弧に対応する＄６と、８番目に出現する括弧に対応する＄８を用い、１番目に出現する括弧に対応する＄１と、３番目に出現する括弧に対応する＄３と、５番目に出現する括弧に対応する＄５と、７番目に出現する括弧に対応する＄７は用いない。

上述の通り、抽出条件は、正規表現により属性に関わる記述パターンを特定するとともに、記述パターン中の参照部位を特定する。そして、セレクタには、正規表現により特定される参照部位に相当する記述コードを格納する参照変数名を設定する。

最後に設定ボタンを指示することにより、属性名及び属性抽出条件をサイト内検索サーバ１０１に返信するように構成されている。

図１４は、属性抽出条件登録画面（文字列型２）の例を示す図である。図１５は、属性抽出条件登録画面（文字列型３）の例を示す図である。属性値が階層でない場合（単層の場合）には、第一層セレクタのみに参照変数を設定する。

図１６は、属性抽出条件登録画面（文字列型４）の例を示す図である。属性値が、並列に複数列挙される場合には、第一層セレクタに複数の参照変数を入力する。その際、各参照変数をカンマ（並列区切り文字の例）で仕切る。この例では、並列の属性値群を、１番目に出現する括弧に対応する＄１と、３番目に出現する括弧に対応する＄３と、５番目に出現する括弧に対応する＄５と、７番目に出現する括弧に対応する＄７と、９番目に出現する括弧に対応する＄９を用いて参照する。２番目に出現する括弧に対応する＄２と、４番目に出現する括弧に対応する＄４と、６番目に出現する括弧に対応する＄６と、８番目に出現する括弧に対応する＄８は用いない。

図１７は、属性抽出条件登録画面（数値型１）の例を示す図である。図１８は、属性抽出条件登録画面（数値型２）の例を示す図である。数値型の属性は、抽出形式として、数値タイプと日付タイプを指定できる。数値タイプは、一つの数値として抽出されるタイプであり、日付タイプは、年、月、日の三つの数値として抽出されるタイプである。本実施例では、数値タイプを説明し、日付タイプは実施例２で説明する。また、表示フォーマットとして、後方固定文字と、カンマ区切りを指定できる。但し、表示フォーマットは属性抽出条件ではなく、表示に関する条件である。便宜的に、同一画面による設定を受け付けている。

図１９は、属性抽出条件登録画面（文字列型５）の例を示す図である。説明文のように、複数の文からなる文章も抽出条件として設定することができる。

図２０は、属性名テーブルの例を示す図である。属性名テーブル１２０２は、属性抽出条件登録画面で受け付けた文字列型１属性から文字列型５属性の各属性名と、数値型１属性から数値型５属性の各属性名を記憶するように構成されている。

図２１は、属性抽出条件記憶部の例を示す図である。属性抽出条件記憶部１２０３は、属性抽出条件登録画面で受け付けた文字列型１属性から文字列型５属性の各属性抽出条件と、数値型１属性から数値型５属性の各属性抽出条件を記憶するように構成されている。

図２２〜図２６は、文字列型１〜文字列型５の属性抽出条件の例を示す図である。属性抽出条件登録画面で受け付けた各文字列型属性の抽出元データ、抽出条件（正規表現）、第一層セレクタ〜第五層セレクタを記憶するように構成されている。有効フラグは、当該属性抽出条件を受け付けた場合に、ＯＮとし、受け付けなかった場合に、ＯＦＦとするように設定される。また、参照変数が設定されなかったセレクタには、未設定の旨のコードが格納させる。

図２７と図２８は、数値型１と数値型２の属性抽出条件の例を示す図である。文字列型と同様に、属性抽出条件登録画面で受け付けた各数値型属性の抽出元データ、抽出条件（正規表現）、第一層セレクタ〜第三層セレクタを記憶するように構成されている。文字型と同様に、有効フラグは、当該属性抽出条件を受け付けた場合に、ＯＮとし、受け付けなかった場合に、ＯＦＦとするように設定される。また、参照変数が設定されなかったセレクタには、未設定の旨のコードが格納させる。

次に、（ロ）サイト内文書収集整理について説明する。この処理は、電子商取引サイトサーバ１０３のコンテンツの更新を反映するのに適したタイミングに実行される。例えば、コンテンツの更新が毎日行われる運用においては、一日一回サイト内文書収集整理処理が行われる。また、コンテンツの更新の直後に同処理することが望ましい。その為、定期的に自動的に起動することが有効である。

図２９は、サイト内検索サーバのサイト内文書収集整理処理フローを示す図である。クローリング（文書収集部処理）（Ｓ２９０１）で、起点ＵＲＬより下位の文書（コンテンツの例）を収集し、収集文書毎に複製処理（Ｓ２９０３）、文書フィルタリング処理（Ｓ２９０４）、属性抽出処理（Ｓ２９０５）を繰り返し（Ｓ２９０２）、電子商取引サイトサーバ１０３に対応する収集文書データベースを生成する。そして、すべての収集文書についてデータベース化し終えると（Ｓ２９０６）、属性値リスト生成処理（Ｓ２９０７）で、属性値のリストを生成する。

以下、モジュール構成とデータフローを示し、各処理を詳述する。図３０は、サイト内検索サーバのサイト内文書収集整理に係る構成を示す図である。クローリング（文書収集部処理）（Ｓ２９０１）を行うクローラー（文書収集部）３００１は、所定の起点ＵＲＬより下位にある文書ファイルを収集するように構成されている。クローラー（文書収集部）３００１は、従来の周知技術により実現される。収集した文書のＵＲＬと取得日時を収集文書リスト３００２に記憶させ、収集した文書ファイルを収集文書ファイル格納部３００３に記憶させる。当該文書ファイルを読み出す場合には、収集文書リスト３００２のＵＲＬにより当該ファイルを特定することができるように構成されている。

図３１は、収集文書リストの例を示す図である。収集文書リスト３００２は、収集した文書毎に、収集文書ＵＲＬと取得日付を対応付けて記憶するように構成されている。

複製部３００４による複製処理（Ｓ２９０３）では、当該収集文書の収集文書ＵＲＬと取得日付を収集文書リスト３００２から読み出し、当該収集文書の管理データとして収集文書データベース３００７に記憶させる。

ここで、収集文書データベース３００７の構成について説明する。図３２は、収集文書データベースの例を示す図である。収集文書毎に管理データを設け、各管理データは、収集文書ＵＲＬ、取得日付、タイトル、本文、文字列型１属性情報〜文字列型５属性情報、数値型１属性情報〜数値型５属性情報を記憶している。

文書フィルタ３００５による文書フィルタリング処理（Ｓ２９０４）では、当該収集文書ＵＲＬにより収集文書ファイルを特定し、収集文書ファイルを読込み、当該文書のタイトルと、本文（当該文書により表示される文字列）を抽出するように動作する。文書フィルタ３００５も、従来の技術により実現される。抽出したタイトルと本文を、収集文書データベース３００７の当該収集文書の管理データに書き込む。

属性抽出部３００６による属性抽出処理（Ｓ２９０５）では、属性抽出条件記憶部１２０３の属性抽出条件に従って、収集文書ファイル格納部３００３の収集文書から属性情報を抽出する。その際、正規表現に従って参照変数値を求めるマッチング判定処理を行う。以下、処理フロー及びモジュール構成を図示して詳述する。

図３３は、属性抽出処理フローを示す図である。図３４は、属性抽出部の構成を示す図である。属性抽出条件毎に以下の処理を繰り返す（Ｓ３３０１）。有効フラグ（Ｓ３３０２）がＯＦＦの場合には、当該属性に対する抽出処理を行なわない。有効フラグ（Ｓ３３０２）がＯＮの場合は、参照変数数判定部３４０１の参照変数数判定処理（Ｓ３３０３）により、参照変数の数を判定する。具体的には、すべてのセレクタに含まれる参照変数名の末尾の数字（１、２、３、・・・）の最大値を求める。例えば、図２２の例では、第一層セレクタに「＄２」が設定され、第二層セレクタに「＄４」が設定され、第三層セレクタに「＄６」が設定され、第四層セレクタに「＄８」が設定されているので、末尾の数字（２，４，６，８）のうち最大の８が参照変数の数となる。例えば、図２５の例では、第一層セレクタに「＄１，＄３，＄５，＄７，＄９」が設定されているので、末尾の数字（１，３，５，７，９）のうち最大の９が参照変数の数となる。

参照変数数判定処理（Ｓ３３０３）の他の方法として、当該属性抽出条件の抽出条件（正規表現）に含まれる丸括弧対（「(」と「)」）の数をカウントし、参照変数の数を得ることもできる。

次に、対象文字列判定部３４０２の対象文字列判定処理（Ｓ３３０４）では、正規表現に照らす対象文字列を特定する。まず、当該属性抽出条件に含まれる抽出元データを取得する。抽出元データがコンテンツを指している場合には、収集文書ＵＲＬにより特定される収集文書ファイルのソースコードが対象文字列になると判定する。抽出元データがＵＲＬを指している場合には、収集文書ＵＲＬそのものが対象文字列になると判定する。

マッチング判定部３４０３は、当該属性抽出条件に含まれる抽出条件（正規表現）を読み取り（Ｓ３３０５）、正規表現、参照変数の数、対象文字列を指定して、マッチング判定する（Ｓ３３０６）。マッチング処理は、正規表現に従って記述パターンに合致する箇所を判定し、更に参照部位に相当する記述コードを参照変数に格納する。尚、参照変数は、属性抽出部３００６内の変数記憶領域（図示せず）に設けられている。また、マッチング処理自体は、従来の技術により実現される。例えば、Ｐｅｒｌ言語は、正規表現によるマッチ処理関数を備えている。

ここで、正規表現について簡単に説明する。「\」は、特殊文字のエスケープである。「.」は、任意の一文字を示す。「*」０回以上の繰り返しを示す。「?」は、０回か１回の繰り返しを示す。「[]」内の「^」は、否定表現である。そして、「()」で囲まれた部分は、＄１，＄２，＄３，・・・の参照変数値に格納される。

文字列型１の属性名「産地」については、図５の５０１〜５０４の記述コードから参照変数値を得ることになる。同様に、文字列型２の属性名「生産者」については、図７の７０３と７０４の記述コードから、文字列型３の属性名「色」については、７０７と７０８の記述コードから、文字列型４の属性名「味わい」については、図８の８０１と８０２の記述コードから、文字列型５の属性名「商品説明」については、図９の９０１〜図１０の１００１の記述コードから、数値型１の属性名「価格」については、図７の７０１と７０２の記述コードから、数値型２の属性名「ヴィンテージ」については、７０５と７０６からの記述コードから、それぞれ参照変数値を得ることになる。

マッチングを終え、属性型が文字列型の場合には（Ｓ３３０７）、文字列型の属性情報生成部３４０４による文字列型の属性情報生成処理（Ｓ３３０８）を行い、属性型が数値型の場合には（Ｓ３３０７）、数値型の属性情報生成部３４０５による数値型の属性情報生成処理（Ｓ３３０９）を行う。詳しくは後述する。そして、上述の処理を、すべての属性抽出条件について行った時点で終了する（Ｓ３３１０）。

文字列型の属性情報生成処理（Ｓ３３０８）について説明する。この処理により、例えば図２２に示した文字列型１の属性抽出条件の場合、第一層から第四層までの各セレクタに参照変数が設定されているので、属性値も階層を有することになる。図３２の文字列型１属性情報の「フランス／ブルゴーニュ／ヴォーヌロマネ」のように階層区切コード（／）をはさんで第一層の属性値、第二層の属性値、第三層の属性値が並べられる。また、図２５に示した文字列型４の属性抽出条件の場合、第一層のセレクタに複数の参照変数が並列に設定されているので、属性値も複数列挙される。図３２の文字列型５属性情報の「フルボディ繊細果実未豊か」のように並列区切コード（スペース）をはさんで第一層の属性値が複数並べられる。つまり、単階層に属性値を列挙した属性情報を生成する。

図３５は、文字列型の属性情報格納処理フローを示す図である。上位から順（第一層、第二層、第三層、・・・の順）に階層セレクタ毎に以下の処理を繰り返す（Ｓ３５０１）。階層セレクタ展開処理（Ｓ３５０２）では、当該階層のセレクタについて参照変数値を文字列型属性情報に展開する。詳しくは、図３６で詳述する。そして、次の階層セレクタに参照変数が設定されているか判定し（Ｓ３５０３）、設定されている場合には、階層区切コード（／）を書き込み（Ｓ３５０４）、次の階層のセレクタに関する処理に移行する（Ｓ３５０１）。次の階層セレクタに参照変数が設定されていない場合には、終了する。

図３６は、階層セレクタ展開処理フローを示す図である。当該セレクタに設定されている参照変数毎に以下の処理を繰り返す（Ｓ３６０１）。参照変数値を読み取り、属性値として文字列型属性情報に書き込む（Ｓ３６０２）。そして、次の参照変数が設定されている場合には（Ｓ３６０３）、並列区切コード（スペース）を書き込み（Ｓ３６０４）、次の参照変数に対する処理に移行する。次の参照変数が設定されていない場合には、処理を終了する。

次に、数値型の属性情報生成処理（Ｓ３３０９）について説明する。抽出タイプが数値タイプの場合には、文字コードをバイナリコードに変換する。抽出タイプが日付タイプの場合については、実施例２で後述する。

図３７は、数値型の属性情報格納処理フローを示す図である。抽出形式が日付タイプである場合（Ｓ３７０１）の日付変換処理（Ｓ３７０５）については、実施例２で説明する。第一層セレクタから参照変数を読み取り（Ｓ３７０２）、その参照変数値をバイナリに変換する（Ｓ３７０３）。そして、変換したバイナリデータを属性値として当該数値型属性情報に書き込む（Ｓ３７０４）。

以上で、収集文書データベースの生成に関する説明を終える。

続いて、属性値リスト生成部３００８による属性値リスト生成処理（Ｓ２９０７）について説明する。この処理では、検索サービスの際に表示する属性値のリストを生成する。つまり、収集文書データベース３００７に格納された属性値から重複を除いて、すべての属性値をリスト化する。特に、属性値が階層構造をなす場合には、上位の属性値と下位の属性値の関係を定義するように属性値リスト記憶部３００９を生成する。文書型１〜文書型５の各属性、数値型１〜数値型５の各属性について属性値リスト生成処理（Ｓ２９０７）を行う。

図３８は、属性値リスト記憶部の例を示す図である。この例では、第一層の属性値リスト３８０１、第二層の属性値リスト３８０２、第三層の属性値リスト３８０３を示している。第五層まで階層を有する場合には、第四層の属性値リストと第五層の属性値リストも設ける。また、階層構造でない場合は、第一層の属性値リスト３８０１のみで足りる。

リストは、属性値毎に、上位層コード、当該層コード、当該層属性値を対応付けて記憶するように構成されている。上位層コードは、当該層の親となる層のコードである。例えば、第一層の属性値リスト３８０１では、上位層は無いので上位がない旨を示している。そして当該層（第一層）内での識別コードとして、Ａ０１、Ａ０２等のコードを記憶している。そして、それに対応する当該層（第一層）の属性値「フランス」、「イタリア」等を記憶している。第二層の第二層の属性値リスト３８０２では、上位層（第一層）があるので、親となっている第一層コードを上位層コードとして記憶している。例えば当該層（第二層）のコードがＢ０１である属性値「ボルドー」は、親の属性値が「フランス」であるので、上位層コードとして属性値「フランス」に対応する第一層コードＡ０１を記憶している。第三層の属性値リスト３８０３も同様に、上位層コードとして、親となる属性値を識別するコードを記憶している。

図３９は、属性値リスト生成処理フローを示す図である。上位層から順に（Ｓ３９０１）、層内属性値抽出処理（Ｓ３９０２）で当該層の属性値を抽出して当該層の属性値リストに登録する。そして、その層に該当する属性値があった場合には（Ｓ３９０３）、更に下位の層の処理に移行し、その層に該当する属性値が無かった場合には終了する。

図４０は、層内属性値抽出処理フローを示す図である。収集文書データベース３００７で管理する収集文書毎に以下の処理を繰り返す（Ｓ４００１）。当該収集文書の管理データに含まれる当該属性情報の当該層の属性値を読み取る（Ｓ４００２）。例えば、文字列型１の属性に関する属性値リスト生成過程で、第二層の層内属性抽出処理で、収集文書w0059.htmlについて属性値を読み取る場合には、図３２に示した文字列型１属性情報から一つ目の階層区切コード（／）と二つ目の階層区切コード（／）で仕切られた属性値「ブルゴーニュ」を読み取る。そして、上位層の属性値に対応する上位層コードを特定する（Ｓ４００３）。前述の例では、上位である第一層の属性値、つまり一つ目の階層区切コード（／）より前の属性値「フランス」を読み取り、第一層の属性値リスト３８０１で「フランス」対応する当該層コード「Ａ０１」を読み取る。次に、その上位層コードと当該層の属性値が、当該層の属性値リストに既に登録されているか判定する（Ｓ４００５）。前述の例では、第二層の属性値リスト３８０２に「Ａ０１」「（任意）」「ボルドー」のレコードがあるか判定する。すでにレコードが存在すれば、次の収集文書の処理に移行する。存在しなければ、新たな当該層コードを割り振って、上位層コードと当該層の属性値を記憶させる（Ｓ４００６）。前述の例では、上位層コード「Ａ０１」と当該層属性値「ボルドー」の組に、新たな当該層コード「Ｂ０１」を割り振っている。そして、すべての収集文書について処理した時点で終了する（Ｓ４００８）。

例えば、文字列型４の属性に関する属性値リスト生成過程で、第一層の層内属性抽出処理で、収集文書w0059.htmlについて属性値を読み取る場合には、図３２に示した文字列型４属性情報から「フルボディ繊細果実未豊か」を読み取る。そして、並列区切コード（スペース）で区切られた属性値「フルボディ」、「繊細」、「果実未豊か」毎に以下の処理（Ｓ４００４〜Ｓ４００６）を行なう。単層のために上位層が無い場合は、上位層コードを「なし」として処理する。

最後に、（ハ）文書検索サービスについて説明する。サイト利用者端末１０４のブラウザ上で、電子商取引サイトサーバ１０３のサイトが提供する画面に含まれる検索ウィンドウから検索を指示することにより、サイト内検索サーバ１０１の文書検索サービスを起動する。

図４１は、電子商取引サイトの検索ウィンドウの例を示す図である。この例では、検索キーワードを入力して、検索ボタンをクリックすることにより、パラメータを付して検索ＵＲＬにアクセスするように構成されている。これにより、サイト内検索サーバ１０１の文書検索サービスを起動する。

図４２は、電子商取引サイトの検索ウィンドウのソースコード例を示す図である。例えば、「ロマネ」をフリーキーワードとして検索を指示すると、「http://bizsearchasp.accelatech.com/bizasp/index.php?q=%83%8D%83%7D%83l&corpId=atc000001&en=1」のパラメータ付検索ＵＲＬでサイト内検索サーバ１０１にアクセスする。「http://bizsearchasp.accelatech.com/bizasp/index.php」は、検索ＵＲＬであり、「q=%83%8D%83%7D%83l」は、検索条件をエンコードした値であり、「corpId=atc000001」は、電子商取引サイトサーバ１０３を識別する企業ＩＤである。検索ＵＲＬは、サイト内検索サーバ１０１で受信する検索要求の例である。

文書検索サービスの結果として、文書検索結果画面がサイト利用者端末１０４にサイト内検索サーバ１０１から返信される。図４３は、文書検索結果画面の例を示す図である。４３０１は、検索条件や表示条件を示す条件ウィンドウ、４３０２は、検索された文書のタイトル等を一覧表示する一覧ウィンドウ、４３０３は、各属性の属性値リストを表示する属性ウィンドウである。

一覧ウィンドウ４３０２は、検索された文書のタイトルと本文の先頭部分を表示するように構成されている。そして、ブラウザ上で何れかの文書タイトルをクリックすると当該文書のＵＲＬにアクセスするように構成されている。これにより、サイト利用者端末１０４から電子商取引サイトサーバ１０３の所望の文書へアクセスすることができる。

属性ウィンドウ４３０３は、各属性の属性値と、検索された文書のうち当該属性値を有する文書の数を表示するように構成されている。また、いずれかの属性値をクリックすると、当該属性値を当該属性の検索条件とするパラメータを付して検索ＵＲＬに再度アクセスするように構成されている。これにより、検索文書を絞り込むことができる。

文書検索サービスの動作について説明する。図４４は、サイト内検索サーバの文書検索サービス処理フローを示す図である。図４５は、サイト内検索サーバの文書検索サービスに係る構成を示す図である。

検索要求受付部４５０１による検索要求受付処理（Ｓ４４０１）では、検索ＵＲＬへのアクセス待ち状態を維持し、サイト利用者端末１０４からのパラメータ付の検索ＵＲＬへのアクセスを受け付ける。アクセスを受け付けると、電子商取引サイト判定部４５０２による電子商取引サイト判定処理（Ｓ４４０２）で、電子商取引サイトサーバ１０３を特定する。具体的には、検索ＵＲＬに含まれるパラメータから企業ＩＤを取得し、企業ＩＤに対応する電子商取引サイトサーバ１０３を特定する。次に、検索条件判定部４５０３による検索条件判定処理（Ｓ４４０３）で、同じく検索ＵＲＬに含まれるパラメータから検索条件を特定する。そして、文書検索実行部４５０４による文書検索実行処理（Ｓ４４０４）で、電子商取引サイトサーバ１０３に対応する収集文書データベースから、検索条件に適合する文書を検索する。フリーキーワードの場合には、本文中に当該キーワードと一致する部分が含まれる場合に適合と判定する。適合した文書のＵＲＬ（収集文書ＵＲＬ）を検索結果として特定する。一覧ウィンドウ生成部４５０５による一覧ウィンドウ生成処理（Ｓ４４０５）では、検索された文書のＵＲＬに対応するうタイトルと本文を収集文書データベース３００７から取得し、タイトルと本文の先頭部分からなるリストを表示するようにウィンドウを生成する。また、各文書のタイトルをクリック（指示）することにより、当該文書のＵＲＬへのアクセスがブラウザより起動されるように構成する。属性ウィンドウ生成部４５０６による属性ウィンドウ生成処理（Ｓ４４０６）では、属性値リスト記憶部３００９に記憶している属性毎の属性値のリストを表示するように属性ウィンドウを生成する。更に、各属性値を当該属性の条件とする検索条件を加えて再検索し、属性値とフリーキーワードのＡＮＤ条件による検索文書数を求める。そして、その文書数を各属性値に対応させて表示する。この例では括弧付の数字で表示している。また、各属性をクリックにより指示した場合には、その属性値を当該属性の条件としてパラメータに加え、そのパラメータを付した検索ＵＲＬへのアクセスをブラウザに起動させるように画面を構成する。文書検索結果画面返信部４５０７による文書検索結果画面返信処理（Ｓ４４０７）では、検索条件と表示条件を表示する条件ウィンドウを生成し、条件ウィンドウと一覧ウィンドウと属性ウィンドウからなる文書検索結果画面をサイト利用者端末１０４に返信する。

上述の例では、図４１のように当初の検索ウィンドウをフリーキーワードとしたが、各属性の条件を受け付けるように構成することも有効である。例えば、文字列型３の属性名「色」に対して、赤あるいは白を選択させ、パラメータに色を指定する検索条件を含めるようにすることができる。文字列型１の属性名「産地」のように階層を設けた属性の場合には、例えば属性値「フランス」を当該層の検索条件として文書検索するとともに、属性ウィンドウの生成において、当該属性値「フランス」を親とする下位の属性値「ボルドー」等を検索し、検索された下位の属性値リストを表示させる。

また、上述の文書検索結果画面に、再度検索条件を設定するための検索ウィンドウを設け、フリーキーワードあるいは各属性の条件を受け付けて、その条件で再検索するようにすることも有効である。

数値型の属性に関しては、数値として特性を活かした検索（大小比較や範囲指定等）が有効である。

本実施例では、抽出元データをＵＲＬとする例と、数値型の属性のうち抽出形式を日付タイプとする例について説明する。

図４６は、実施例２に係る電子商取引サイトのＨＴＭＬ文書表示例を示す図である。この文書は、図２のコンテンツ構成のうち、www.example.com/press/以下のＨＴＭＬ文書の例である。図４７は、図４６に対応するＨＴＭＬ文書ソースコード例を示す図である。

図４８は、実施例２に係る属性抽出条件登録画面（文字列型１）の例を示す図である。この例は、当該文書のＵＲＬに含まれるディレクトリ名を抽出し、属性として用いる場合の条件設定を示している。第一層セレクタは、第一下位層のディレクトリ「ｓｈｏｐ」や「ｐｒｅｓｓ」を参照し、第二層セレクタは、第二下位層のディレクトリ「２００９」や「２００８」を参照している。

図４９は、実施例２に係る属性抽出条件登録画面（数値型１）の例を示す図である。ＨＴＭＬ文書中のリリース日の記述部位のうち、第一層セレクタは、年の数値を参照し、第二層セレクタは、月の数値を参照し、第三層セレクタは、日の数値を参照している。

図５０と図５１は、実施例２における文字列型１と数値型１の属性抽出条件を示している。

実施例２の文字列型１の場合、実施例１の対象文字列判定部３４０２の対象文字列判定処理（Ｓ３３０４）において、抽出元データがＵＲＬであることから、収集文書ＵＲＬそのものを対象文字列と判定し、マッチング判定部３４０３によるマッチング判定（Ｓ３３０６）において収集文書ＵＲＬに対して正規表現によるマッチングを行う。

また、実施例２の数値型１の場合、図３７のＳ３７０１で抽出条件が日付タイプであると判定され、日付変換処理（Ｓ３７０５）が行われる。

日付変換処理（Ｓ３７０５）では、年、月、日で別々に入力された文字コードを、一つのバイナリコードに変換する。このバイナリコードは、十進法の１桁と２桁を日とし、同じく３桁と４桁を月とし、同じく５桁〜８桁を年とする数値である。

図５２は、日付変換処理フローを示す図である。第一層セレクタから参照変数を読み取り（Ｓ５２０１）、第一層の参照変数値（文字コード）をバイナリに変換する（Ｓ５２０２）。同様に、第二層セレクタから参照変数を読み取り（Ｓ５２０３）、第二層の参照変数値（文字コード）をバイナリに変換する（Ｓ５２０４）。更に、第三層セレクタから参照変数を読み取り（Ｓ５２０５）、第三層の参照変数値（文字コード）をバイナリに変換する（Ｓ５２０６）。そして、第一バイナリ値×１００００（十進法）＋第二バイナリ値×１００（十進法）＋第三バイナリ値を算出する（Ｓ５２０７）。最後に、和を当該属性情報に書き込む（Ｓ５２０８）。

上述処理により得られる収集文書データベース３００７の例を示す。図５３は、実施例２に係る収集文書データベースの例を示す図である。

文書検索サービスによる属性情報の利用に関しては、実施例１と同様である。

上述の説明では、タグ付文書の例としてＨＴＭＬ文書を示したが、他の構造化文書（文章にタグをつけて構造を示す方法を採用した文書）に対しても有効である。ＳＧＭＬ文書、ＸＭＬ文書などにも有効である。これらの構造化文書は、マークアップ言語による記述されている。また、ＰＤＦ文書など、他のタグ付文書についても有効である。

サイト内検索サーバ１０１は、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。

１０１サイト内検索サーバ
１０２システム管理者端末
１０３電子商取引サイトサーバ
１０４サイト利用者端末
１２０１属性抽出条件登録部
１２０２属性名テーブル
１２０３属性抽出条件記憶部
３００１クローラー（文書収集部）
３００２収集文書リスト
３００３収集文書ファイル格納部
３００４複製部
３００５文書フィルタ
３００６属性抽出部
３００７収集文書データベース
３００８属性値リスト生成部
３００９属性値リスト記憶部
３４０１参照変数数判定部
３４０２対象文字列判定部
３４０３マッチング判定部
３４０４文字列型の属性情報生成部
３４０５数値型の属性情報生成部
４５０１検索要求受付部
４５０２電子商取引サイト判定部
４５０３検索条件判定部
４５０４文書検索実行部
４５０５一覧ウィンドウ生成部
４５０６属性ウィンドウ生成部
４５０７文書検索結果画面返信部

Claims

インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバであって、以下の要素を有することを特徴とするサイト内検索サーバ
（１）サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録部
（２）受信した属性抽出条件を記憶する属性抽出条件記憶部
（３）インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集部
（４）収集したタグ付文書ファイルを記憶する収集文書格納部
（５）属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出部
（６）タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース。
属性抽出条件は、抽出元データをタグ付文書ファイル中の記述コードとするか、あるいはタグ付文書ファイルのＵＲＬとするかの条件を含み、
サイト内検索サーバは、更に、収集したタグ付文書ファイルのＵＲＬを記憶する収集文書リストを有し、
属性抽出条件が抽出元データをタグ付文書ファイル中の記述コードとする条件を含む場合には、タグ付文書ファイル中の記述コードから属性情報を抽出し、属性抽出条件が抽出元データをタグ付文書ファイルのＵＲＬとする条件を含む場合には、タグ付文書ファイルのＵＲＬから属性情報を抽出することを特徴とする請求項１記載のサイト内検索サーバ。
属性抽出条件は、記述パターンを特定するとともに記述パターン中の参照部位を特定する正規表現と、正規表現により特定される参照部位の記述コードを格納する参照変数名を含み、
属性抽出部は、タグ付文書ファイルの全体の記述コード中に、正規表現により特定される記述パターンが存在するか判定し、記述パターンが存在する場合に、正規表現により特定される参照部位の記述コードを参照変数に格納するマッチング判定を行ない、参照変数値を属性値として属性情報に含めることを特徴とする請求項１又は２に記載のサイト内検索サーバ。
属性抽出条件登録部は、文字列型の属性抽出条件と数値型の属性抽出条件を受信し、
属性抽出部は、文字列型の属性抽出条件により得られた参照変数値である参照部位の記述コードを、そのまま属性値として文字列の属性情報に含め、数値型の属性抽出条件により得られた参照変数値である参照部位の記述コードを、バイナリコードに変換し、変換したバイナリコードを属性値として数値の属性情報に含めることを特徴とする請求項３記載のサイト内検索サーバ。
属性抽出条件の正規表現は、複数の参照部位を特定し、属性抽出条件の複数の参照変数名は、階層に分けられ、
属性抽出部は、各参照変数値である属性値を、各階層に配分した属性情報を生成することを特徴とする請求項３記載のサイト内検索サーバ。
属性抽出条件の正規表現は、複数の参照部位を特定し、属性抽出条件の複数の参照変数名は、並列であり、
属性抽出部は、各参照変数値である属性値を、単階層に列挙した属性情報を生成することを特徴とする請求項３記載のサイト内検索サーバ。
サイト内検索サーバは、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付部と、
受信した検索要求から検索条件を特定する検索条件判定部と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行部と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成部と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信部を有することを特徴とする請求項１乃至６のいずれかに記載のサイト内検索サーバ。
検索要求は、サイト内検索サーバの所定ＵＲＬであり、検索条件は、前記ＵＲＬに付されたパラメータであることを特徴とする請求項７記載のサイト内検索サーバ。
サイト内検索サーバは、更に、前記任意の属性について、すべてのタグ付文書の属性情報に含まれる属性値のリストを生成する属性値リスト生成部と、
生成した属性値のリストを記憶する属性値リスト記憶部を有することを特徴とする請求項３乃至８のいずれかに記載のサイト内検索サーバ。
サイト内検索サーバは、更に、前記任意の属性について、属性値のリストを表示する属性ウィンドウを生成する属性ウィンドウ生成部を有し、
文書検索結果画面送信部は、文書検索結果画面に属性ウィンドウを含めることを特徴とする請求項９記載のサイト内検索サーバ。
サイトサーバは、インターネットを介する商品取引を支援する電子商取引サイトサーバであって、
タグ付文書は、電子商取引の商品に関する内容を表示する画面を構成することを特徴とする請求項１乃至１０のいずれかに記載のサイト内検索サーバ。
タグ付文書は、構造化文書であることを特徴とする請求項１乃至１１のいずれかに記載のサイト内検索サーバ。
タグ付文書は、ＰＤＦ文書であることを特徴とする請求項１乃至１１のいずれかに記載のサイト内検索サーバ。
インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバによるサイト内検索サービス方法であって、以下の要素を有することを特徴とするサイト内検索サービス方法
（１）サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録工程
（２）受信した属性抽出条件を記憶する属性抽出条件記憶工程
（３）インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集工程
（４）収集したタグ付文書ファイルを記憶する収集文書格納工程
（５）属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出工程
（６）タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース化工程。
サイト内検索サービス方法は、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付工程と、
受信した検索要求から検索条件を特定する検索条件判定工程と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行工程と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成工程と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信工程を有することを特徴とする請求項１４記載のサイト内検索サービス方法。
インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバとなるコンピュータに、以下の手順を実行させるためのプログラム
（１）サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録手順
（２）受信した属性抽出条件を記憶する属性抽出条件記憶手順
（３）インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集手順
（４）収集したタグ付文書ファイルを記憶する収集文書格納手順
（５）属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出手順
（６）タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース化手順。
プログラムは、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付手順と、
受信した検索要求から検索条件を特定する検索条件判定手順と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行手順と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成手順と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信手順をサイト内検索サーバとなるコンピュータに実行させることを特徴とする請求項１６記載のプログラム。