JP2011053734A - サイト内検索サーバ、サイト内検索サービス方法、及びプログラム - Google Patents

サイト内検索サーバ、サイト内検索サービス方法、及びプログラム Download PDF

Info

Publication number
JP2011053734A
JP2011053734A JP2009199345A JP2009199345A JP2011053734A JP 2011053734 A JP2011053734 A JP 2011053734A JP 2009199345 A JP2009199345 A JP 2009199345A JP 2009199345 A JP2009199345 A JP 2009199345A JP 2011053734 A JP2011053734 A JP 2011053734A
Authority
JP
Japan
Prior art keywords
attribute
document
search
site
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009199345A
Other languages
English (en)
Inventor
Tatsuya Shindo
達也 進藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2009199345A priority Critical patent/JP2011053734A/ja
Publication of JP2011053734A publication Critical patent/JP2011053734A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】特定サイト内のコンテンツの検索サービスを提供するサイト内検索システムに関して、サイト運営者側の負担を軽減し、簡単にサイト内検索を実現することを課題とする。
【解決手段】商品紹介のHTML文書のソースコードから抽出する属性を、文字列型と数値型に分けて設定する。抽出元として、コンテンツそのもの、あるいはコンテンツのURLを指定する。また、ソースコードから属性に関する記述を特定し、文字列あるいは数値である属性値を参照変数$1などに格納させるため正規表現による抽出条件を設定させる。この条件により抽出した属性情報をデータベース化し、インターネットを介したサイト内検索に用いる。
【選択図】図13

Description

本発明は、サイト内検索サーバにより特定サイト内のコンテンツの検索サービスを提供するサイト内検索システムに関する。
特許文献1(特開2002−108906「情報検索用ウェブページ」)には、「Webサイトにおける情報検索を快適かつ円滑に行えるようにした情報検索用Webページを提供する」ことを課題とする技術が開示されている。バーチャルショッピングモールにおける商品の検索などに用いられる。
この例では、商品に係る情報データベースを予め用意し、サイト運営者のサーバに検索手段を設けることが前提となっている。その為、サイト運営者側の負担が大きい。
特許文献2(特開2004−264928「Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体」)には、「サイト検索において、検索者に対して、サイト内構造を可視化し、分かりやすいサイト内ナビゲーションを行う」ことを課題とする技術が開示されている。その為に、予めWebページを収集して、推定されるサイト木構造に関係付けておく。
しかし、推定されるサイト木構造は、ページのリンクに基づくものであって、ページの内容を反映したものではない。従って、商品情報の検索などには不十分である。
特開2002−108906号公報 特開2004−264928号公報
解決しようとする問題点は、サイト運営者側の負担を軽減し、簡単にサイト内検索を実現することである。
本願発明に係るサイト内検索サーバは、
インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバであって、以下の要素を有することを特徴とする
(1)サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録部
(2)受信した属性抽出条件を記憶する属性抽出条件記憶部
(3)インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集部
(4)収集したタグ付文書ファイルを記憶する収集文書格納部
(5)属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出部
(6)タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース。
また、属性抽出条件は、抽出元データをタグ付文書ファイル中の記述コードとするか、あるいはタグ付文書ファイルのURLとするかの条件を含み、
サイト内検索サーバは、更に、収集したタグ付文書ファイルのURLを記憶する収集文書リストを有し、
属性抽出条件が抽出元データをタグ付文書ファイル中の記述コードとする条件を含む場合には、タグ付文書ファイル中の記述コードから属性情報を抽出し、属性抽出条件が抽出元データをタグ付文書ファイルのURLとする条件を含む場合には、タグ付文書ファイルのURLから属性情報を抽出することを特徴とする。
また、属性抽出条件は、記述パターンを特定するとともに記述パターン中の参照部位を特定する正規表現と、正規表現により特定される参照部位の記述コードを格納する参照変数名を含み、
属性抽出部は、タグ付文書ファイルの全体の記述コード中に、正規表現により特定される記述パターンが存在するか判定し、記述パターンが存在する場合に、正規表現により特定される参照部位の記述コードを参照変数に格納するマッチング判定を行ない、参照変数値を属性値として属性情報に含めることを特徴とする。
また、属性抽出条件登録部は、文字列型の属性抽出条件と数値型の属性抽出条件を受信し、
属性抽出部は、文字列型の属性抽出条件により得られた参照変数値である参照部位の記述コードを、そのまま属性値として文字列の属性情報に含め、数値型の属性抽出条件により得られた参照変数値である参照部位の記述コードを、バイナリコードに変換し、変換したバイナリコードを属性値として数値の属性情報に含めることを特徴とする。
また、属性抽出条件の正規表現は、複数の参照部位を特定し、属性抽出条件の複数の参照変数名は、階層に分けられ、
属性抽出部は、各参照変数値である属性値を、各階層に配分した属性情報を生成することを特徴とする。
また、属性抽出条件の正規表現は、複数の参照部位を特定し、属性抽出条件の複数の参照変数名は、並列であり、
属性抽出部は、各参照変数値である属性値を、単階層に列挙した属性情報を生成することを特徴とする。
また、サイト内検索サーバは、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付部と、
受信した検索要求から検索条件を特定する検索条件判定部と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行部と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成部と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信部を有することを特徴とする。
また、検索要求は、サイト内検索サーバの所定URLであり、検索条件は、前記URLに付されたパラメータであることを特徴とする。
また、サイト内検索サーバは、更に、前記任意の属性について、すべてのタグ付文書の属性情報に含まれる属性値のリストを生成する属性値リスト生成部と、
生成した属性値のリストを記憶する属性値リスト記憶部を有することを特徴とする。
また、サイト内検索サーバは、更に、前記任意の属性について、属性値のリストを表示する属性ウィンドウを生成する属性ウィンドウ生成部を有し、
文書検索結果画面送信部は、文書検索結果画面に属性ウィンドウを含めることを特徴とする。
また、サイトサーバは、インターネットを介する商品取引を支援する電子商取引サイトサーバであって、
タグ付文書は、電子商取引の商品に関する内容を表示する画面を構成することを特徴とする。
また、タグ付文書は、構造化文書であることを特徴とする。
また、タグ付文書は、PDF文書であることを特徴とする。
本願発明に係るサイト内検索サービス方法は、
インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバによるサイト内検索サービス方法であって、以下の要素を有することを特徴とする
(1)サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録工程
(2)受信した属性抽出条件を記憶する属性抽出条件記憶工程
(3)インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集工程
(4)収集したタグ付文書ファイルを記憶する収集文書格納工程
(5)属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出工程
(6)タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース化工程。
また、サイト内検索サービス方法は、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付工程と、
受信した検索要求から検索条件を特定する検索条件判定工程と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行工程と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成工程と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信工程を有することを特徴とする。
また、本願発明に係るプログラムは、
インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバとなるコンピュータに、以下の手順を実行させることを特徴とする
(1)サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録手順
(2)受信した属性抽出条件を記憶する属性抽出条件記憶手順
(3)インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集手順
(4)収集したタグ付文書ファイルを記憶する収集文書格納手順
(5)属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出手順
(6)タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース化手順。
また、プログラムは、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付手順と、
受信した検索要求から検索条件を特定する検索条件判定手順と、
収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行手順と、
検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成手順と、
一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信手順をサイト内検索サーバとなるコンピュータに実行させることを特徴とする。
登録した属性抽出条件により、収集した文書から各属性を抽出するので、Webページと別に商品情報などのデータベースを用意する必要がなくなる。電子取引サイト側に改造や開発が伴わないため、検索機能の短期導入が可能となる。
属性の抽出を自動化できるで、データベースの更新などメンテナンスの負荷を軽減することができる。また、Webページの内容とデータベースの内容の不整合も生じない。
Webページから抽出すべき属性を自由に選べるので、商品の仕様や価格などサイトの目的に応じた検索項目の設定が可能となる。
インターネットを介して外部のサーバから検索サービスを提供するので、サイト運営側のサーバの負担が軽減される。
図1は、サイト内検索システムのネットワーク概要(その1)を示す図である。 図2は、サイト内検索システムのネットワーク概要(その2)を示す図である。 図3は、電子商取引サイトコンテンツ構成例を示す図である。 図4は、電子商取引サイトのHTML文書表示例を示す図である。 図5は、電子商取引サイトのHTML文書ソースコード例(1/7)を示す図である。 図6は、電子商取引サイトのHTML文書ソースコード例(2/7)を示す図である。 図7は、電子商取引サイトのHTML文書ソースコード例(3/7)を示す図である。 図8は、電子商取引サイトのHTML文書ソースコード例(4/7)を示す図である。 図9は、電子商取引サイトのHTML文書ソースコード例(5/7)を示す図である。 図10は、電子商取引サイトのHTML文書ソースコード例(6/7)を示す図である。 図11は、電子商取引サイトのHTML文書ソースコード例(7/7)を示す図である。 図12は、サイト内検索サーバの属性抽出条件登録に係る構成を示す図である。 図13は、属性抽出条件登録画面(文字列型1)の例を示す図である。 図14は、属性抽出条件登録画面(文字列型2)の例を示す図である。 図15は、属性抽出条件登録画面(文字列型3)の例を示す図である。 図16は、属性抽出条件登録画面(文字列型4)の例を示す図である。 図17は、属性抽出条件登録画面(数値型1)の例を示す図である。 図18は、属性抽出条件登録画面(数値型2)の例を示す図である。 図19は、属性抽出条件登録画面(文字列型5)の例を示す図である。 図20は、属性名テーブルの例を示す図である。 図21は、属性抽出条件記憶部の例を示す図である。 図22は、文字列型1の属性抽出条件の例を示す図である。 図23は、文字列型2の属性抽出条件の例を示す図である。 図24は、文字列型3の属性抽出条件の例を示す図である。 図25は、文字列型4の属性抽出条件の例を示す図である。 図26は、文字列型5の属性抽出条件の例を示す図である。 図27は、数値型1の属性抽出条件の例を示す図である。 図28は、数値型2の属性抽出条件の例を示す図である。 図29は、サイト内検索サーバのサイト内文書収集整理処理フローを示す図である。 図30は、サイト内検索サーバのサイト内文書収集整理に係る構成を示す図である。 図31は、収集文書リストの例を示す図である。 図32は、収集文書データベースの例を示す図である。 図33は、属性抽出処理フローを示す図である。 図34は、属性抽出部の構成を示す図である。 図35は、文字列型の属性情報格納処理フローを示す図である。 図36は、階層セレクタ展開処理フローを示す図である。 図37は、数値型の属性情報格納処理フローを示す図である。 図38は、属性値リスト記憶部の例を示す図である。 図39は、属性値リスト生成処理フローを示す図である。 図40は、層内属性値抽出処理フローを示す図である。 図41は、電子商取引サイトの検索ウィンドウの例を示す図である。 図42は、電子商取引サイトの検索ウィンドウのソースコード例を示す図である。 図43は、文書検索結果画面の例を示す図である。 図44は、サイト内検索サーバの文書検索サービス処理フローを示す図である。 図45は、サイト内検索サーバの文書検索サービスに係る構成を示す図である。 図46は、実施例2に係る電子商取引サイトのHTML文書表示例を示す図である。 図47は、実施例2に係る電子商取引サイトのHTML文書ソースコード例を示す図である。 図49は、実施例2に係る属性抽出条件登録画面(文字列型1)の例を示す図である。 図49は、実施例2に係る属性抽出条件登録画面(数値型1)の例を示す図である。 図50は、実施例2に係る文字列型1の属性抽出条件の例を示す図である。 図51は、実施例2に係る数値型1の属性抽出条件の例を示す図である。 図52は、日付変換処理フローを示す図である。 図53は、実施例2に係る収集文書データベースの例を示す図である。
本発明に係るサイト内検索システムは、インターネットを介し外付けされたサイト内検索サーバにより特定サイト内のコンテンツの検索サービスを提供する。
図1は、サイト内検索システムのネットワーク概要(その1)を示す図である。サイト内検索サーバ101は、インターネットを介して、システム管理者端末102及び電子商取引サイトサーバ103と接続している。また、電子商取引サイトサーバ103は、インターネットを介して、サイト利用者端末104と接続している。電子商取引サイトサーバ103は、通信販売のウェブサイトを開設し、電子商取引を行う通信販売業者が運営するサーバである。サイト利用者端末104は、通信販売のウェブサイトを閲覧し、商品を購入する利用者が用いる端末である。サイト内検索サーバ101は、例えば通信販売のウェブサイト内の検索サービスを提供するアプリケーションソフトを実装状態でレンタルするASP(アプリケーションサービスプロバイダ)サーバである。システム管理者端末102は、後述する属性抽出条件など運用に必要な情報の設定を行う端末である。システム管理者端末102とサイト利用者端末104は、HTML文書(タグ付文書の例、構造化文書の例、コンテンツの例、Webページの例)を表示し、指示されたイベントを返信するブラウザを有している。
図1以外にも、システム管理者端末102とサイト内検索サーバ101を非公開のネットワークで接続する形態も考えられる。図2は、サイト内検索システムのネットワーク概要(その2)を示す図である。この例では、システム管理者端末102は、LANを介して同一施設内に設置されたサイト内検索サーバ101と接続している。
次に、電子商取引サイトサーバ103に設けられているコンテンツを例示する。図3は、電子商取引サイトコンテンツ構成例を示す図である。www.example.com/shop/wine/の下位には、当該通信販売業者が取り扱う商品であるワインの紹介画面が設けられている。
図4は、電子商取引サイトのHTML文書表示例を示す図である。カテゴリトップ> フランス> ブルゴーニュ> ヴォーヌロマネは、パンくずリストである。これは、WEBサイト内の当該ページの階層内位置を、上位ページへのリンクのリスト形式で表している。その他、商品名、価格、生産者、ヴィンテージ、色、味わい、個数、商品のご説明等の項目とともに、商品の画像が表示されている。個数を入力し、「買い物かごへ」のアイコンをクリックすることにより、購入手続きに進行するように構成されている。この例で、価格、生産者、ヴィンテージ、色、味わい、商品のご説明は、商品の属性を示しており、商品を検索する際の項目となり得る情報である。特に、生産者や味わいは、文字列型の属性であり、価格やヴィンテージは、数値型の属性である。
図5〜図11は、電子商取引サイトのHTML文書ソースコード例を示す図である。この例は、図4の表示例に対応している。
ここで、サイト内検索システムの動作概要について説明する。
(イ)属性抽出条件登録
前処理として、システム管理者端末102からサイト内検索サーバ101に、属性情報を抽出する際の条件を登録する。例えば、ワイン紹介画面のHTMLコードから価格や味わいなどの属性を抽出する条件である。
(ロ)サイト内文書収集整理
定期的に、サイト内検索サーバ101が電子商取引サイトサーバ103から公開情報である文書を収集し、収集した文書から属性情報を抽出し、データベース化する。例えば、ワイン紹介画面毎に、価格や味わいなどの属性を検索できるように整理する。
(ハ)文書検索サービス
サイト内検索サーバ101は、サイト利用者端末104からの検索要求に応じて、データベースから所望の文書を検索して、検索文書一覧として提供する。但し、サイト利用者端末104からの検索要求は、電子商取引サイトサーバ103が提供する画面に含まれる検索ウィンドウより発生するので、サイト利用者自身は、サイト内検索サーバ101にアクセスしているという意識を持つことなく、電子商取引サイトサーバ103による画面展開と一連の動作として接することになる。例えば、通販業者の画面からワインの検索を指示し、遠隔地にあるサイト内検索サーバから通販業者サイト内のワイン検索結果一覧画面を取得する。
上述の(イ)属性抽出条件登録、(ロ)サイト内文書収集整理、(ハ)文書検索サービスを順に説明する。まず、(イ)属性抽出条件登録について説明する。
図12は、サイト内検索サーバの属性抽出条件登録に係る構成を示す図である。
属性抽出条件登録部1201は、システム管理者端末102に属性抽出条件登録画面を送信し、システム管理者端末102のブラウザに表示された属性抽出条件登録画面に対して入力され、返信される属性抽出条件を受信するように構成されている。そして、各属性名を属性名テーブル1202に記憶させ、各属性抽出条件を属性抽出条件記憶部1203に記憶させるように動作する。
属性抽出条件登録画面を例示する。図13は、属性抽出条件登録画面(文字列型1)の例を示す図である。この例では、文字列型の属性を5つ扱い、数値型の属性を5つ扱う構成となっている。タグは、文字列型1〜文字列型5、及び数値型1〜数値型5の属性抽出条件登録画面を選択するように構成されている。属性名は、当該属性を示す名前である。抽出元データは、当該属性を含むデータ源を示している。「URL」の選択は、抽出元データをコンテンツ(例えば、HTML文書ファイル)のURLとする条件を設定することを意味する。これにより、コンテンツのURLコードから属性値を得ることになる。他方、「コンテンツ」の選択は、抽出元データをコンテンツ(HTML文書ファイル)中の記述コードとする条件を設定することを意味する。そして、コンテンツのソースコードから属性値を得ることになる。
抽出条件には、抽出元データの中から属性値を特定するための比較条件を正規表現により記述する。属性が階層構造である場合には、第一層セレクタから第五層セレクタを用いて、各層を区別する。各セレクタには、参照変数名($1、$2、$3等)を入力する。参照変数は、正規表現中の「()」で括られた文字列を参照するための変数であり、括弧の出現順に各括弧内の文字列に相当するコードを$1、$2、$3、・・・で参照することができる。参照変数は、マッチング判定を行なうプログラムにおいてメモリに記憶されるスカラー変数である。本願発明では、上述の参照変数の機能を活用する。その為、属性値が参照変数値となるように正規表現を記述するとともに、その参照変数値をセレクタで指定する。この例では、上位の属性値から順に、2番目に出現する括弧に対応する$2と、4番目に出現する括弧に対応する$4と、6番目に出現する括弧に対応する$6と、8番目に出現する括弧に対応する$8を用い、1番目に出現する括弧に対応する$1と、3番目に出現する括弧に対応する$3と、5番目に出現する括弧に対応する$5と、7番目に出現する括弧に対応する$7は用いない。
上述の通り、抽出条件は、正規表現により属性に関わる記述パターンを特定するとともに、記述パターン中の参照部位を特定する。そして、セレクタには、正規表現により特定される参照部位に相当する記述コードを格納する参照変数名を設定する。
最後に設定ボタンを指示することにより、属性名及び属性抽出条件をサイト内検索サーバ101に返信するように構成されている。
図14は、属性抽出条件登録画面(文字列型2)の例を示す図である。図15は、属性抽出条件登録画面(文字列型3)の例を示す図である。属性値が階層でない場合(単層の場合)には、第一層セレクタのみに参照変数を設定する。
図16は、属性抽出条件登録画面(文字列型4)の例を示す図である。属性値が、並列に複数列挙される場合には、第一層セレクタに複数の参照変数を入力する。その際、各参照変数をカンマ(並列区切り文字の例)で仕切る。この例では、並列の属性値群を、1番目に出現する括弧に対応する$1と、3番目に出現する括弧に対応する$3と、5番目に出現する括弧に対応する$5と、7番目に出現する括弧に対応する$7と、9番目に出現する括弧に対応する$9を用いて参照する。2番目に出現する括弧に対応する$2と、4番目に出現する括弧に対応する$4と、6番目に出現する括弧に対応する$6と、8番目に出現する括弧に対応する$8は用いない。
図17は、属性抽出条件登録画面(数値型1)の例を示す図である。図18は、属性抽出条件登録画面(数値型2)の例を示す図である。数値型の属性は、抽出形式として、数値タイプと日付タイプを指定できる。数値タイプは、一つの数値として抽出されるタイプであり、日付タイプは、年、月、日の三つの数値として抽出されるタイプである。本実施例では、数値タイプを説明し、日付タイプは実施例2で説明する。また、表示フォーマットとして、後方固定文字と、カンマ区切りを指定できる。但し、表示フォーマットは属性抽出条件ではなく、表示に関する条件である。便宜的に、同一画面による設定を受け付けている。
図19は、属性抽出条件登録画面(文字列型5)の例を示す図である。説明文のように、複数の文からなる文章も抽出条件として設定することができる。
図20は、属性名テーブルの例を示す図である。属性名テーブル1202は、属性抽出条件登録画面で受け付けた文字列型1属性から文字列型5属性の各属性名と、数値型1属性から数値型5属性の各属性名を記憶するように構成されている。
図21は、属性抽出条件記憶部の例を示す図である。属性抽出条件記憶部1203は、属性抽出条件登録画面で受け付けた文字列型1属性から文字列型5属性の各属性抽出条件と、数値型1属性から数値型5属性の各属性抽出条件を記憶するように構成されている。
図22〜図26は、文字列型1〜文字列型5の属性抽出条件の例を示す図である。属性抽出条件登録画面で受け付けた各文字列型属性の抽出元データ、抽出条件(正規表現)、第一層セレクタ〜第五層セレクタを記憶するように構成されている。有効フラグは、当該属性抽出条件を受け付けた場合に、ONとし、受け付けなかった場合に、OFFとするように設定される。また、参照変数が設定されなかったセレクタには、未設定の旨のコードが格納させる。
図27と図28は、数値型1と数値型2の属性抽出条件の例を示す図である。文字列型と同様に、属性抽出条件登録画面で受け付けた各数値型属性の抽出元データ、抽出条件(正規表現)、第一層セレクタ〜第三層セレクタを記憶するように構成されている。文字型と同様に、有効フラグは、当該属性抽出条件を受け付けた場合に、ONとし、受け付けなかった場合に、OFFとするように設定される。また、参照変数が設定されなかったセレクタには、未設定の旨のコードが格納させる。
次に、(ロ)サイト内文書収集整理について説明する。この処理は、電子商取引サイトサーバ103のコンテンツの更新を反映するのに適したタイミングに実行される。例えば、コンテンツの更新が毎日行われる運用においては、一日一回サイト内文書収集整理処理が行われる。また、コンテンツの更新の直後に同処理することが望ましい。その為、定期的に自動的に起動することが有効である。
図29は、サイト内検索サーバのサイト内文書収集整理処理フローを示す図である。クローリング(文書収集部処理)(S2901)で、起点URLより下位の文書(コンテンツの例)を収集し、収集文書毎に複製処理(S2903)、文書フィルタリング処理(S2904)、属性抽出処理(S2905)を繰り返し(S2902)、電子商取引サイトサーバ103に対応する収集文書データベースを生成する。そして、すべての収集文書についてデータベース化し終えると(S2906)、属性値リスト生成処理(S2907)で、属性値のリストを生成する。
以下、モジュール構成とデータフローを示し、各処理を詳述する。図30は、サイト内検索サーバのサイト内文書収集整理に係る構成を示す図である。クローリング(文書収集部処理)(S2901)を行うクローラー(文書収集部)3001は、所定の起点URLより下位にある文書ファイルを収集するように構成されている。クローラー(文書収集部)3001は、従来の周知技術により実現される。収集した文書のURLと取得日時を収集文書リスト3002に記憶させ、収集した文書ファイルを収集文書ファイル格納部3003に記憶させる。当該文書ファイルを読み出す場合には、収集文書リスト3002のURLにより当該ファイルを特定することができるように構成されている。
図31は、収集文書リストの例を示す図である。収集文書リスト3002は、収集した文書毎に、収集文書URLと取得日付を対応付けて記憶するように構成されている。
複製部3004による複製処理(S2903)では、当該収集文書の収集文書URLと取得日付を収集文書リスト3002から読み出し、当該収集文書の管理データとして収集文書データベース3007に記憶させる。
ここで、収集文書データベース3007の構成について説明する。図32は、収集文書データベースの例を示す図である。収集文書毎に管理データを設け、各管理データは、収集文書URL、取得日付、タイトル、本文、文字列型1属性情報〜文字列型5属性情報、数値型1属性情報〜数値型5属性情報を記憶している。
文書フィルタ3005による文書フィルタリング処理(S2904)では、当該収集文書URLにより収集文書ファイルを特定し、収集文書ファイルを読込み、当該文書のタイトルと、本文(当該文書により表示される文字列)を抽出するように動作する。文書フィルタ3005も、従来の技術により実現される。抽出したタイトルと本文を、収集文書データベース3007の当該収集文書の管理データに書き込む。
属性抽出部3006による属性抽出処理(S2905)では、属性抽出条件記憶部1203の属性抽出条件に従って、収集文書ファイル格納部3003の収集文書から属性情報を抽出する。その際、正規表現に従って参照変数値を求めるマッチング判定処理を行う。以下、処理フロー及びモジュール構成を図示して詳述する。
図33は、属性抽出処理フローを示す図である。図34は、属性抽出部の構成を示す図である。属性抽出条件毎に以下の処理を繰り返す(S3301)。有効フラグ(S3302)がOFFの場合には、当該属性に対する抽出処理を行なわない。有効フラグ(S3302)がONの場合は、参照変数数判定部3401の参照変数数判定処理(S3303)により、参照変数の数を判定する。具体的には、すべてのセレクタに含まれる参照変数名の末尾の数字(1、2、3、・・・)の最大値を求める。例えば、図22の例では、第一層セレクタに「$2」が設定され、第二層セレクタに「$4」が設定され、第三層セレクタに「$6」が設定され、第四層セレクタに「$8」が設定されているので、末尾の数字(2,4,6,8)のうち最大の8が参照変数の数となる。例えば、図25の例では、第一層セレクタに「$1,$3,$5,$7,$9」が設定されているので、末尾の数字(1,3,5,7,9)のうち最大の9が参照変数の数となる。
参照変数数判定処理(S3303)の他の方法として、当該属性抽出条件の抽出条件(正規表現)に含まれる丸括弧対(「(」と「)」)の数をカウントし、参照変数の数を得ることもできる。
次に、対象文字列判定部3402の対象文字列判定処理(S3304)では、正規表現に照らす対象文字列を特定する。まず、当該属性抽出条件に含まれる抽出元データを取得する。抽出元データがコンテンツを指している場合には、収集文書URLにより特定される収集文書ファイルのソースコードが対象文字列になると判定する。抽出元データがURLを指している場合には、収集文書URLそのものが対象文字列になると判定する。
マッチング判定部3403は、当該属性抽出条件に含まれる抽出条件(正規表現)を読み取り(S3305)、正規表現、参照変数の数、対象文字列を指定して、マッチング判定する(S3306)。マッチング処理は、正規表現に従って記述パターンに合致する箇所を判定し、更に参照部位に相当する記述コードを参照変数に格納する。尚、参照変数は、属性抽出部3006内の変数記憶領域(図示せず)に設けられている。また、マッチング処理自体は、従来の技術により実現される。例えば、Perl言語は、正規表現によるマッチ処理関数を備えている。
ここで、正規表現について簡単に説明する。「\」は、特殊文字のエスケープである。「.」は、任意の一文字を示す。「*」0回以上の繰り返しを示す。「?」は、0回か1回の繰り返しを示す。「[]」内の「^」は、否定表現である。そして、「()」で囲まれた部分は、$1,$2,$3,・・・の参照変数値に格納される。
文字列型1の属性名「産地」については、図5の501〜504の記述コードから参照変数値を得ることになる。同様に、文字列型2の属性名「生産者」については、図7の703と704の記述コードから、文字列型3の属性名「色」については、707と708の記述コードから、文字列型4の属性名「味わい」については、図8の801と802の記述コードから、文字列型5の属性名「商品説明」については、図9の901〜図10の1001の記述コードから、数値型1の属性名「価格」については、図7の701と702の記述コードから、数値型2の属性名「ヴィンテージ」については、705と706からの記述コードから、それぞれ参照変数値を得ることになる。
マッチングを終え、属性型が文字列型の場合には(S3307)、文字列型の属性情報生成部3404による文字列型の属性情報生成処理(S3308)を行い、属性型が数値型の場合には(S3307)、数値型の属性情報生成部3405による数値型の属性情報生成処理(S3309)を行う。詳しくは後述する。そして、上述の処理を、すべての属性抽出条件について行った時点で終了する(S3310)。
文字列型の属性情報生成処理(S3308)について説明する。この処理により、例えば図22に示した文字列型1の属性抽出条件の場合、第一層から第四層までの各セレクタに参照変数が設定されているので、属性値も階層を有することになる。図32の文字列型1属性情報の「フランス/ブルゴーニュ/ヴォーヌロマネ」のように階層区切コード(/)をはさんで第一層の属性値、第二層の属性値、第三層の属性値が並べられる。また、図25に示した文字列型4の属性抽出条件の場合、第一層のセレクタに複数の参照変数が並列に設定されているので、属性値も複数列挙される。図32の文字列型5属性情報の「フルボディ 繊細 果実未豊か」のように並列区切コード(スペース)をはさんで第一層の属性値が複数並べられる。つまり、単階層に属性値を列挙した属性情報を生成する。
図35は、文字列型の属性情報格納処理フローを示す図である。上位から順(第一層、第二層、第三層、・・・の順)に階層セレクタ毎に以下の処理を繰り返す(S3501)。階層セレクタ展開処理(S3502)では、当該階層のセレクタについて参照変数値を文字列型属性情報に展開する。詳しくは、図36で詳述する。そして、次の階層セレクタに参照変数が設定されているか判定し(S3503)、設定されている場合には、階層区切コード(/)を書き込み(S3504)、次の階層のセレクタに関する処理に移行する(S3501)。次の階層セレクタに参照変数が設定されていない場合には、終了する。
図36は、階層セレクタ展開処理フローを示す図である。当該セレクタに設定されている参照変数毎に以下の処理を繰り返す(S3601)。参照変数値を読み取り、属性値として文字列型属性情報に書き込む(S3602)。そして、次の参照変数が設定されている場合には(S3603)、並列区切コード(スペース)を書き込み(S3604)、次の参照変数に対する処理に移行する。次の参照変数が設定されていない場合には、処理を終了する。
次に、数値型の属性情報生成処理(S3309)について説明する。抽出タイプが数値タイプの場合には、文字コードをバイナリコードに変換する。抽出タイプが日付タイプの場合については、実施例2で後述する。
図37は、数値型の属性情報格納処理フローを示す図である。抽出形式が日付タイプである場合(S3701)の日付変換処理(S3705)については、実施例2で説明する。第一層セレクタから参照変数を読み取り(S3702)、その参照変数値をバイナリに変換する(S3703)。そして、変換したバイナリデータを属性値として当該数値型属性情報に書き込む(S3704)。
以上で、収集文書データベースの生成に関する説明を終える。
続いて、属性値リスト生成部3008による属性値リスト生成処理(S2907)について説明する。この処理では、検索サービスの際に表示する属性値のリストを生成する。つまり、収集文書データベース3007に格納された属性値から重複を除いて、すべての属性値をリスト化する。特に、属性値が階層構造をなす場合には、上位の属性値と下位の属性値の関係を定義するように属性値リスト記憶部3009を生成する。文書型1〜文書型5の各属性、数値型1〜数値型5の各属性について属性値リスト生成処理(S2907)を行う。
図38は、属性値リスト記憶部の例を示す図である。この例では、第一層の属性値リスト3801、第二層の属性値リスト3802、第三層の属性値リスト3803を示している。第五層まで階層を有する場合には、第四層の属性値リストと第五層の属性値リストも設ける。また、階層構造でない場合は、第一層の属性値リスト3801のみで足りる。
リストは、属性値毎に、上位層コード、当該層コード、当該層属性値を対応付けて記憶するように構成されている。上位層コードは、当該層の親となる層のコードである。例えば、第一層の属性値リスト3801では、上位層は無いので上位がない旨を示している。そして当該層(第一層)内での識別コードとして、A01、A02等のコードを記憶している。そして、それに対応する当該層(第一層)の属性値「フランス」、「イタリア」等を記憶している。第二層の第二層の属性値リスト3802では、上位層(第一層)があるので、親となっている第一層コードを上位層コードとして記憶している。例えば当該層(第二層)のコードがB01である属性値「ボルドー」は、親の属性値が「フランス」であるので、上位層コードとして属性値「フランス」に対応する第一層コードA01を記憶している。第三層の属性値リスト3803も同様に、上位層コードとして、親となる属性値を識別するコードを記憶している。
図39は、属性値リスト生成処理フローを示す図である。上位層から順に(S3901)、層内属性値抽出処理(S3902)で当該層の属性値を抽出して当該層の属性値リストに登録する。そして、その層に該当する属性値があった場合には(S3903)、更に下位の層の処理に移行し、その層に該当する属性値が無かった場合には終了する。
図40は、層内属性値抽出処理フローを示す図である。収集文書データベース3007で管理する収集文書毎に以下の処理を繰り返す(S4001)。当該収集文書の管理データに含まれる当該属性情報の当該層の属性値を読み取る(S4002)。例えば、文字列型1の属性に関する属性値リスト生成過程で、第二層の層内属性抽出処理で、収集文書w0059.htmlについて属性値を読み取る場合には、図32に示した文字列型1属性情報から一つ目の階層区切コード(/)と二つ目の階層区切コード(/)で仕切られた属性値「ブルゴーニュ」を読み取る。そして、上位層の属性値に対応する上位層コードを特定する(S4003)。前述の例では、上位である第一層の属性値、つまり一つ目の階層区切コード(/)より前の属性値「フランス」を読み取り、第一層の属性値リスト3801で「フランス」対応する当該層コード「A01」を読み取る。次に、その上位層コードと当該層の属性値が、当該層の属性値リストに既に登録されているか判定する(S4005)。前述の例では、第二層の属性値リスト3802に「A01」「(任意)」「ボルドー」のレコードがあるか判定する。すでにレコードが存在すれば、次の収集文書の処理に移行する。存在しなければ、新たな当該層コードを割り振って、上位層コードと当該層の属性値を記憶させる(S4006)。前述の例では、上位層コード「A01」と当該層属性値「ボルドー」の組に、新たな当該層コード「B01」を割り振っている。そして、すべての収集文書について処理した時点で終了する(S4008)。
例えば、文字列型4の属性に関する属性値リスト生成過程で、第一層の層内属性抽出処理で、収集文書w0059.htmlについて属性値を読み取る場合には、図32に示した文字列型4属性情報から「フルボディ 繊細 果実未豊か」を読み取る。そして、並列区切コード(スペース)で区切られた属性値「フルボディ」、「繊細」、「果実未豊か」毎に以下の処理(S4004〜S4006)を行なう。単層のために上位層が無い場合は、上位層コードを「なし」として処理する。
最後に、(ハ)文書検索サービスについて説明する。サイト利用者端末104のブラウザ上で、電子商取引サイトサーバ103のサイトが提供する画面に含まれる検索ウィンドウから検索を指示することにより、サイト内検索サーバ101の文書検索サービスを起動する。
図41は、電子商取引サイトの検索ウィンドウの例を示す図である。この例では、検索キーワードを入力して、検索ボタンをクリックすることにより、パラメータを付して検索URLにアクセスするように構成されている。これにより、サイト内検索サーバ101の文書検索サービスを起動する。
図42は、電子商取引サイトの検索ウィンドウのソースコード例を示す図である。例えば、「ロマネ」をフリーキーワードとして検索を指示すると、「http://bizsearchasp.accelatech.com/bizasp/index.php?q=%83%8D%83%7D%83l&corpId=atc000001&en=1」のパラメータ付検索URLでサイト内検索サーバ101にアクセスする。「http://bizsearchasp.accelatech.com/bizasp/index.php」は、検索URLであり、「q=%83%8D%83%7D%83l」は、検索条件をエンコードした値であり、「corpId=atc000001」は、電子商取引サイトサーバ103を識別する企業IDである。検索URLは、サイト内検索サーバ101で受信する検索要求の例である。
文書検索サービスの結果として、文書検索結果画面がサイト利用者端末104にサイト内検索サーバ101から返信される。図43は、文書検索結果画面の例を示す図である。4301は、検索条件や表示条件を示す条件ウィンドウ、4302は、検索された文書のタイトル等を一覧表示する一覧ウィンドウ、4303は、各属性の属性値リストを表示する属性ウィンドウである。
一覧ウィンドウ4302は、検索された文書のタイトルと本文の先頭部分を表示するように構成されている。そして、ブラウザ上で何れかの文書タイトルをクリックすると当該文書のURLにアクセスするように構成されている。これにより、サイト利用者端末104から電子商取引サイトサーバ103の所望の文書へアクセスすることができる。
属性ウィンドウ4303は、各属性の属性値と、検索された文書のうち当該属性値を有する文書の数を表示するように構成されている。また、いずれかの属性値をクリックすると、当該属性値を当該属性の検索条件とするパラメータを付して検索URLに再度アクセスするように構成されている。これにより、検索文書を絞り込むことができる。
文書検索サービスの動作について説明する。 図44は、サイト内検索サーバの文書検索サービス処理フローを示す図である。図45は、サイト内検索サーバの文書検索サービスに係る構成を示す図である。
検索要求受付部4501による検索要求受付処理(S4401)では、検索URLへのアクセス待ち状態を維持し、サイト利用者端末104からのパラメータ付の検索URLへのアクセスを受け付ける。アクセスを受け付けると、電子商取引サイト判定部4502による電子商取引サイト判定処理(S4402)で、電子商取引サイトサーバ103を特定する。具体的には、検索URLに含まれるパラメータから企業IDを取得し、企業IDに対応する電子商取引サイトサーバ103を特定する。次に、検索条件判定部4503による検索条件判定処理(S4403)で、同じく検索URLに含まれるパラメータから検索条件を特定する。そして、文書検索実行部4504による文書検索実行処理(S4404)で、電子商取引サイトサーバ103に対応する収集文書データベースから、検索条件に適合する文書を検索する。フリーキーワードの場合には、本文中に当該キーワードと一致する部分が含まれる場合に適合と判定する。適合した文書のURL(収集文書URL)を検索結果として特定する。一覧ウィンドウ生成部4505による一覧ウィンドウ生成処理(S4405)では、検索された文書のURLに対応するうタイトルと本文を収集文書データベース3007から取得し、タイトルと本文の先頭部分からなるリストを表示するようにウィンドウを生成する。また、各文書のタイトルをクリック(指示)することにより、当該文書のURLへのアクセスがブラウザより起動されるように構成する。属性ウィンドウ生成部4506による属性ウィンドウ生成処理(S4406)では、属性値リスト記憶部3009に記憶している属性毎の属性値のリストを表示するように属性ウィンドウを生成する。更に、各属性値を当該属性の条件とする検索条件を加えて再検索し、属性値とフリーキーワードのAND条件による検索文書数を求める。そして、その文書数を各属性値に対応させて表示する。この例では括弧付の数字で表示している。また、各属性をクリックにより指示した場合には、その属性値を当該属性の条件としてパラメータに加え、そのパラメータを付した検索URLへのアクセスをブラウザに起動させるように画面を構成する。文書検索結果画面返信部4507による文書検索結果画面返信処理(S4407)では、検索条件と表示条件を表示する条件ウィンドウを生成し、条件ウィンドウと一覧ウィンドウと属性ウィンドウからなる文書検索結果画面をサイト利用者端末104に返信する。
上述の例では、図41のように当初の検索ウィンドウをフリーキーワードとしたが、各属性の条件を受け付けるように構成することも有効である。例えば、文字列型3の属性名「色」に対して、赤あるいは白を選択させ、パラメータに色を指定する検索条件を含めるようにすることができる。文字列型1の属性名「産地」のように階層を設けた属性の場合には、例えば属性値「フランス」を当該層の検索条件として文書検索するとともに、属性ウィンドウの生成において、当該属性値「フランス」を親とする下位の属性値「ボルドー」等を検索し、検索された下位の属性値リストを表示させる。
また、上述の文書検索結果画面に、再度検索条件を設定するための検索ウィンドウを設け、フリーキーワードあるいは各属性の条件を受け付けて、その条件で再検索するようにすることも有効である。
数値型の属性に関しては、数値として特性を活かした検索(大小比較や範囲指定等)が有効である。
本実施例では、抽出元データをURLとする例と、数値型の属性のうち抽出形式を日付タイプとする例について説明する。
図46は、実施例2に係る電子商取引サイトのHTML文書表示例を示す図である。この文書は、図2のコンテンツ構成のうち、www.example.com/press/以下のHTML文書の例である。図47は、図46に対応するHTML文書ソースコード例を示す図である。
図48は、実施例2に係る属性抽出条件登録画面(文字列型1)の例を示す図である。この例は、当該文書のURLに含まれるディレクトリ名を抽出し、属性として用いる場合の条件設定を示している。第一層セレクタは、第一下位層のディレクトリ「shop」や「press」を参照し、第二層セレクタは、第二下位層のディレクトリ「2009」や「2008」を参照している。
図49は、実施例2に係る属性抽出条件登録画面(数値型1)の例を示す図である。HTML文書中のリリース日の記述部位のうち、第一層セレクタは、年の数値を参照し、第二層セレクタは、月の数値を参照し、第三層セレクタは、日の数値を参照している。
図50と図51は、実施例2における文字列型1と数値型1の属性抽出条件を示している。
実施例2の文字列型1の場合、実施例1の対象文字列判定部3402の対象文字列判定処理(S3304)において、抽出元データがURLであることから、収集文書URLそのものを対象文字列と判定し、マッチング判定部3403によるマッチング判定(S3306)において収集文書URLに対して正規表現によるマッチングを行う。
また、実施例2の数値型1の場合、図37のS3701で抽出条件が日付タイプであると判定され、日付変換処理(S3705)が行われる。
日付変換処理(S3705)では、年、月、日で別々に入力された文字コードを、一つのバイナリコードに変換する。このバイナリコードは、十進法の1桁と2桁を日とし、同じく3桁と4桁を月とし、同じく5桁〜8桁を年とする数値である。
図52は、日付変換処理フローを示す図である。第一層セレクタから参照変数を読み取り(S5201)、第一層の参照変数値(文字コード)をバイナリに変換する(S5202)。同様に、第二層セレクタから参照変数を読み取り(S5203)、第二層の参照変数値(文字コード)をバイナリに変換する(S5204)。更に、第三層セレクタから参照変数を読み取り(S5205)、第三層の参照変数値(文字コード)をバイナリに変換する(S5206)。そして、第一バイナリ値×10000(十進法)+第二バイナリ値×100(十進法)+第三バイナリ値を算出する(S5207)。最後に、和を当該属性情報に書き込む(S5208)。
上述処理により得られる収集文書データベース3007の例を示す。図53は、実施例2に係る収集文書データベースの例を示す図である。
文書検索サービスによる属性情報の利用に関しては、実施例1と同様である。
上述の説明では、タグ付文書の例としてHTML文書を示したが、他の構造化文書(文章にタグをつけて構造を示す方法を採用した文書)に対しても有効である。SGML文書、XML文書などにも有効である。これらの構造化文書は、マークアップ言語による記述されている。また、PDF文書など、他のタグ付文書についても有効である。
サイト内検索サーバ101は、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。
101 サイト内検索サーバ
102 システム管理者端末
103 電子商取引サイトサーバ
104 サイト利用者端末
1201 属性抽出条件登録部
1202 属性名テーブル
1203 属性抽出条件記憶部
3001 クローラー(文書収集部)
3002 収集文書リスト
3003 収集文書ファイル格納部
3004 複製部
3005 文書フィルタ
3006 属性抽出部
3007 収集文書データベース
3008 属性値リスト生成部
3009 属性値リスト記憶部
3401 参照変数数判定部
3402 対象文字列判定部
3403 マッチング判定部
3404 文字列型の属性情報生成部
3405 数値型の属性情報生成部
4501 検索要求受付部
4502 電子商取引サイト判定部
4503 検索条件判定部
4504 文書検索実行部
4505 一覧ウィンドウ生成部
4506 属性ウィンドウ生成部
4507 文書検索結果画面返信部

Claims (17)

  1. インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバであって、以下の要素を有することを特徴とするサイト内検索サーバ
    (1)サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録部
    (2)受信した属性抽出条件を記憶する属性抽出条件記憶部
    (3)インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集部
    (4)収集したタグ付文書ファイルを記憶する収集文書格納部
    (5)属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出部
    (6)タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース。
  2. 属性抽出条件は、抽出元データをタグ付文書ファイル中の記述コードとするか、あるいはタグ付文書ファイルのURLとするかの条件を含み、
    サイト内検索サーバは、更に、収集したタグ付文書ファイルのURLを記憶する収集文書リストを有し、
    属性抽出条件が抽出元データをタグ付文書ファイル中の記述コードとする条件を含む場合には、タグ付文書ファイル中の記述コードから属性情報を抽出し、属性抽出条件が抽出元データをタグ付文書ファイルのURLとする条件を含む場合には、タグ付文書ファイルのURLから属性情報を抽出することを特徴とする請求項1記載のサイト内検索サーバ。
  3. 属性抽出条件は、記述パターンを特定するとともに記述パターン中の参照部位を特定する正規表現と、正規表現により特定される参照部位の記述コードを格納する参照変数名を含み、
    属性抽出部は、タグ付文書ファイルの全体の記述コード中に、正規表現により特定される記述パターンが存在するか判定し、記述パターンが存在する場合に、正規表現により特定される参照部位の記述コードを参照変数に格納するマッチング判定を行ない、参照変数値を属性値として属性情報に含めることを特徴とする請求項1又は2に記載のサイト内検索サーバ。
  4. 属性抽出条件登録部は、文字列型の属性抽出条件と数値型の属性抽出条件を受信し、
    属性抽出部は、文字列型の属性抽出条件により得られた参照変数値である参照部位の記述コードを、そのまま属性値として文字列の属性情報に含め、数値型の属性抽出条件により得られた参照変数値である参照部位の記述コードを、バイナリコードに変換し、変換したバイナリコードを属性値として数値の属性情報に含めることを特徴とする請求項3記載のサイト内検索サーバ。
  5. 属性抽出条件の正規表現は、複数の参照部位を特定し、属性抽出条件の複数の参照変数名は、階層に分けられ、
    属性抽出部は、各参照変数値である属性値を、各階層に配分した属性情報を生成することを特徴とする請求項3記載のサイト内検索サーバ。
  6. 属性抽出条件の正規表現は、複数の参照部位を特定し、属性抽出条件の複数の参照変数名は、並列であり、
    属性抽出部は、各参照変数値である属性値を、単階層に列挙した属性情報を生成することを特徴とする請求項3記載のサイト内検索サーバ。
  7. サイト内検索サーバは、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付部と、
    受信した検索要求から検索条件を特定する検索条件判定部と、
    収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行部と、
    検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成部と、
    一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信部を有することを特徴とする請求項1乃至6のいずれかに記載のサイト内検索サーバ。
  8. 検索要求は、サイト内検索サーバの所定URLであり、検索条件は、前記URLに付されたパラメータであることを特徴とする請求項7記載のサイト内検索サーバ。
  9. サイト内検索サーバは、更に、前記任意の属性について、すべてのタグ付文書の属性情報に含まれる属性値のリストを生成する属性値リスト生成部と、
    生成した属性値のリストを記憶する属性値リスト記憶部を有することを特徴とする請求項3乃至8のいずれかに記載のサイト内検索サーバ。
  10. サイト内検索サーバは、更に、前記任意の属性について、属性値のリストを表示する属性ウィンドウを生成する属性ウィンドウ生成部を有し、
    文書検索結果画面送信部は、文書検索結果画面に属性ウィンドウを含めることを特徴とする請求項9記載のサイト内検索サーバ。
  11. サイトサーバは、インターネットを介する商品取引を支援する電子商取引サイトサーバであって、
    タグ付文書は、電子商取引の商品に関する内容を表示する画面を構成することを特徴とする請求項1乃至10のいずれかに記載のサイト内検索サーバ。
  12. タグ付文書は、構造化文書であることを特徴とする請求項1乃至11のいずれかに記載のサイト内検索サーバ。
  13. タグ付文書は、PDF文書であることを特徴とする請求項1乃至11のいずれかに記載のサイト内検索サーバ。
  14. インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバによるサイト内検索サービス方法であって、以下の要素を有することを特徴とするサイト内検索サービス方法
    (1)サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録工程
    (2)受信した属性抽出条件を記憶する属性抽出条件記憶工程
    (3)インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集工程
    (4)収集したタグ付文書ファイルを記憶する収集文書格納工程
    (5)属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出工程
    (6)タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース化工程。
  15. サイト内検索サービス方法は、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付工程と、
    受信した検索要求から検索条件を特定する検索条件判定工程と、
    収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行工程と、
    検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成工程と、
    一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信工程を有することを特徴とする請求項14記載のサイト内検索サービス方法。
  16. インターネットを介してタグ付文書ファイルにより公開情報を提供するサイトサーバとインターネットを介して接続し、更にシステム管理者端末に接続するサイト内検索サーバとなるコンピュータに、以下の手順を実行させるためのプログラム
    (1)サイトサーバが提供する公開情報から任意の属性に関する属性情報を抽出するための属性抽出条件を、システム管理者端末から受信する属性抽出条件登録手順
    (2)受信した属性抽出条件を記憶する属性抽出条件記憶手順
    (3)インターネットを介して電子商取引サイトサーバで公開するタグ付文書ファイルを収集する文書収集手順
    (4)収集したタグ付文書ファイルを記憶する収集文書格納手順
    (5)属性抽出条件に従って、各タグ付文書ファイルから属性情報を抽出する属性抽出手順
    (6)タグ付文書毎に、抽出した属性情報を記憶する収集文書データベース化手順。
  17. プログラムは、更に、インターネットを介して、属性に関する検索条件を含む検索要求を受信する検索要求受付手順と、
    受信した検索要求から検索条件を特定する検索条件判定手順と、
    収集文書データベースから、属性情報が検索条件に適合するタグ付文書を検索する文書検索実行手順と、
    検索されたタグ付文書のタイトルを一覧表示する一覧ウィンドウを生成する一覧ウィンドウ生成手順と、
    一覧ウィンドウを含む文書検索結果画面を返信する文書検索結果画面送信手順をサイト内検索サーバとなるコンピュータに実行させることを特徴とする請求項16記載のプログラム。
JP2009199345A 2009-08-31 2009-08-31 サイト内検索サーバ、サイト内検索サービス方法、及びプログラム Pending JP2011053734A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009199345A JP2011053734A (ja) 2009-08-31 2009-08-31 サイト内検索サーバ、サイト内検索サービス方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009199345A JP2011053734A (ja) 2009-08-31 2009-08-31 サイト内検索サーバ、サイト内検索サービス方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2011053734A true JP2011053734A (ja) 2011-03-17

Family

ID=43942706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009199345A Pending JP2011053734A (ja) 2009-08-31 2009-08-31 サイト内検索サーバ、サイト内検索サービス方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2011053734A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147840A1 (ja) * 2011-04-28 2012-11-01 有限会社アイ・アール・ディー データベース構築装置、商標侵害検知装置、データベース構築方法、および商標侵害検知方法
WO2012169379A1 (ja) * 2011-06-09 2012-12-13 Shindo Tatsuya 文書共有システム
JP2019096248A (ja) * 2017-11-28 2019-06-20 富士ゼロックス株式会社 文書処理装置及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312379A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 情報抽出方法および情報抽出装置
JP2008226235A (ja) * 2007-02-14 2008-09-25 Shinseiki:Kk 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312379A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 情報抽出方法および情報抽出装置
JP2008226235A (ja) * 2007-02-14 2008-09-25 Shinseiki:Kk 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147840A1 (ja) * 2011-04-28 2012-11-01 有限会社アイ・アール・ディー データベース構築装置、商標侵害検知装置、データベース構築方法、および商標侵害検知方法
JP2013152692A (ja) * 2011-04-28 2013-08-08 Ird:Kk データベース構築装置、データベース構築方法、およびプログラム
WO2012169379A1 (ja) * 2011-06-09 2012-12-13 Shindo Tatsuya 文書共有システム
JPWO2012169379A1 (ja) * 2011-06-09 2015-02-23 達也 進藤 文書共有システム
JP2019096248A (ja) * 2017-11-28 2019-06-20 富士ゼロックス株式会社 文書処理装置及びプログラム

Similar Documents

Publication Publication Date Title
TW504624B (en) Method and apparatus for automatically processing acquired data and contextual information and associating the same with available multimedia resources
TW501033B (en) Electronic shopping agent which is capable of operating with vendor sites which have disparate formats
US8010544B2 (en) Inverted indices in information extraction to improve records extracted per annotation
US6424980B1 (en) Integrated retrieval scheme for retrieving semi-structured documents
US8249885B2 (en) Knowledge-based e-catalog procurement system and method
US5884309A (en) Order entry system for internet
KR100834360B1 (ko) 적응형 카탈로그 페이지 디스플레이
US6757678B2 (en) Generalized method and system of merging and pruning of data trees
KR100885772B1 (ko) 제품 정보를 등록 및 검색하기 위한 방법 및 시스템
JP3946934B2 (ja) ウェブページ部品統合処理装置、ウェブページ部品統合処理方法及びクライアント装置
US20090112862A1 (en) Image-based search system and method
WO2005098683A2 (en) Techniques for management and generation of web forms
JP2004530173A (ja) マークアップ言語ドキュメントを処理するフレームワークを提供する方法およびシステム
JP2000090076A (ja) ドキュメント管理方法およびドキュメント管理システム
JP2008243193A (ja) データ管理システム
JP2006285513A (ja) 情報処理支援システム及び情報処理支援プログラム
JP2003076715A (ja) ウェブページ検索方法、ウェブページ検索装置、プログラム、および記録媒体
JP2007213551A (ja) データ管理システム
JP3738339B2 (ja) 情報機器
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
JP5284064B2 (ja) 商品idサーバ装置、および商品idサーバ装置の制御方法
JP2001325290A (ja) 文書ファイル検索システム
JP2011053734A (ja) サイト内検索サーバ、サイト内検索サービス方法、及びプログラム
CA2358204A1 (en) System and method for retrieving information from an electronic catalog
RU105759U1 (ru) Система интерактивного поиска и отображения информации

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131029