JP4264118B2 - ネットワーク上の異なる情報源から情報を構成する方法 - Google Patents

ネットワーク上の異なる情報源から情報を構成する方法 Download PDF

Info

Publication number
JP4264118B2
JP4264118B2 JP2008007850A JP2008007850A JP4264118B2 JP 4264118 B2 JP4264118 B2 JP 4264118B2 JP 2008007850 A JP2008007850 A JP 2008007850A JP 2008007850 A JP2008007850 A JP 2008007850A JP 4264118 B2 JP4264118 B2 JP 4264118B2
Authority
JP
Japan
Prior art keywords
information
computer
semi
processing unit
relational database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2008007850A
Other languages
English (en)
Other versions
JP2008123547A (ja
Inventor
アシシ・ガプタ
ヴェンキー・ハリナリヤン
ダラン・クアス
アナンド・ラジャラマン
Original Assignee
アマゾン ドット コム・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アマゾン ドット コム・インコーポレーテッド filed Critical アマゾン ドット コム・インコーポレーテッド
Publication of JP2008123547A publication Critical patent/JP2008123547A/ja
Application granted granted Critical
Publication of JP4264118B2 publication Critical patent/JP4264118B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Description

本発明は、異なる半構造化情報リソースからの構造化された情報検索および解釈に関する。本発明の1つの具体的な応用分野は、インターネットによって容易になった、世界規模の情報源にわたる公衆および半公衆のデータベースからの情報の取り出しである。
インターネットは、情報、アイデア、およびメッセージの世界的通信手段を提供するネットワークである。インターネットは長年にわたり大学などで使用されてきたが、最近、インターネットおよびインターネット上にある情報に対する関心が爆発的と言えるほど高まっている。ワールド・ワイド・ウェブ(または「ウェブ」)は、インターネットの人気増大のかなりの部分を担っており、それはおそらくウェブにアクセスするために容易に使用することができる使いやすいグラフィカル・ユーザ・インタフェース(「GUI」)によるものであろう。
ワールド・ワイド・ウェブは、インターネットを介してハイパーテキスト文書をユーザが入手することができるようにする。ハイパーテキスト文書は書物のように情報を線状には提示せず、読者に他の場所へのリンクまたはポインタを提供し、それによってユーザが1つの場所から他の場所にジャンプすることができる。ウェブ上のハイパーテキスト文書はハイパーテキスト・マークアップ言語(「HTML」)によって書かれる。
ワールド・ワイド・ウェブの人気が増大するに伴い、それによって提供される情報の量も増大している。したがって、ワールド・ワイド・ウェブ上にはユーザが探索する情報を含むサイトやページが多数ある。しかし、ウェブは興味ある情報を探索するための組込まれた機構を備えていない。探索機構がなかったとしたら、インターネットのサイトを見つけだすのは文字通り干し草の山で針を探すようなものであろう。しかし幸い、ユーザが比較的簡単なキーワード探索を行うことができるいくつかのウェブ・サイト(Yahoo、Alta Vista、Exciteなど)がある。
キーワード探索は多くの用途にとって十分であるが、他の多くの用途ではほとんど用を成さない。たとえば、就職口、売り家などに関する項目またはリストを複数含むウェブ・サイトは多数ある。キーワード探索は、多くの理由からこのようなサイトの探索には不十分である。キーワード探索では常に、そのキーワードとは一致するが求める情報ではない情報が見つけ出される。この問題は、探索パラメータを絞り込むことによって多少軽減されることがあるが、これには求める情報が見つけられないというリスクが伴う。さらに、サポートされている探索語では求める情報を特定することができない場合がある。たとえば、3年未満のコンピュータ・プログラミング経験を必要とする就職口リストを見つけるようにキーワード探索照会で指定することはできない。
理想的には、複数のウェブ・サイトにある就職口リストのような情報を単一のリレーショナル・データベースとして示し、それによってリレーショナル・データベース照会を使用して求める情報を検索することができれば望ましいであろう。しかし、ウェブ上には就職口リストのような情報の構造体の標準はない。1つの解決策は、新聞、企業、またはその他の機関などの各ウェブ・サイトに対して、所定の形式の就職口リスト情報を提供させて、就職口リストを融合したものを作成することであろう。これは、別のサイト(たとえば就職バンク・サイト)が使用するように情報を絶えずフォーマットし直さなければならないため、十分な解決策ではないことがわかるであろう。
他の解決策は、サイトから情報を取り出すラッパーを手作りすること(すなわちカスタム・プログラム)であろう。ラッパーは、ウェブ・サイト上の情報(たとえば就職口リスト)がリレーショナル・データベースのように見えるようにしたり、リレーショナル・データベースによってアクセス可能にしたりするプログラムまたはソフトウェア層である。したがって、ラッパーはどちらかと言えばウェブ・サイト固有のものであり、サイトにある半構造化情報の実際の形式を隠す。ラッパーを手作りすることには、きわめて手間と時間がかかり、それによってサイトのコストが大幅に増すと共に、新しいサイトを利用可能にするのが大幅に遅れるという欠点がある。さらに、手作りされたラッパーは、ウェブ・サイトの変更を考慮に入れるためにメンテナンスすることが難しい。
本発明は、異なる半構造化リソースにおいて半構造化情報がどのような構成になっているかを判断し、ラッパーを生成して情報を取り出し、構造化情報(たとえば構造化照会言語すなわちSQLデータベースのタプル)を標準リレーショナル・データベース・エンジンに結合されたマッパに提供するシステムおよび方法である。特定の実施態様ではマッパの最上部に照会エージェントを設ける。さらに、本発明によると、各ラッパーが特定の情報源専用である複数のラッパーを使用して異なる半構造化リソース間で構造化高水準ユーザ照会を処理する。
一実施態様では、本発明は半構造化情報にアクセスするためのラッパーを生成する方法であって、半構造化情報を検査して属性を含む求めるパターンを識別するステップと、半構造化情報内の属性の場所を指定するパターンの正規表現を含む記述ファイルを生成するステップと、記述ファイルを使用して、リレーショナル・データベース・システムのタプルとして半構造化情報内の属性へのアクセスを提供するラッパーを生成するステップとを含む方法を提供する。ラッパーは、コンパイラまたはインタプリタによって記述ファイルから自動的に生成することができる。好ましい実施態様では、半構造化情報はウェブ・サイトにおけるウェブ・ページを表すHTML内にある。
本発明の利点としては、文字通り数千個のウェブ・サイトからの情報を統合し、それらを単一の統一されたリレーショナル・データベースとして使用可能にする機能を備えることが含まれる。実際には、ウェブはユーザが構造化照会言語(「SQL」)照会を行うことができる仮想リレーショナル・データベースになる。さらに、本発明は、この機能をきわめて高速な方式で実現し、拡張することができるようにすると同時に、アクセスされるウェブ・サイトの変更に容易に対応することができるようにする。
本発明は、添付図面を参照しながら以下の詳細な説明を読めばよりよく理解できよう。
定義
半構造化情報 − 全体としては精密な構造を持たないが、半構造化情報内の各要素は半構造化情報内におけるその場所または周囲状況に基づく意味を持つ情報である。半構造化情報の形式は、正規表現、典型的にはネストされた正規表現によって表すことができる。
サイト − テキスト、フォームなどのブロックから成る関連性のある相互接続された集合を含む場所又はオブジェクトである。たとえば、ウェブ・サイトはテキストをウェブ・ページの形の半構造化情報として提示することができる。
エージェント − ユーザが見ることができる構成要素である。たとえば、エージェントには、ユーザのリレーショナル・データベース照会を受け入れ、照会の結果を表示するユーザ・インタフェースなどが含まれる。
ラッパー(またはサイト・プログラム) − サイト上の情報に対するリレーショナル・データベース・インタフェースを提供するソフトウェア層である。
マッパ − 異なるサイトの語彙を、エージェントにわかる語彙に翻訳する役割を果たす構成要素。
詳細な説明
以下の詳細な説明では、本発明についてワールド・ワイド・ウェブ上で動作する好ましい実施形態を参照しながら説明する。具体的には、ウェブ上での本発明の具体的な応用例を示す例について説明する。しかし、本発明は特定の情報源には限定されず、本明細書に記載されている例にも限定されない。したがって、以下の実施形態の説明は、例示的なものに過ぎず、限定的なものではない。
図1に、本発明の実施形態のソフトウェアを実行するために使用するコンピュータ・システムの例を示す。図1には、モニタ3と、画面5と、筐体7と、キーボード9と、マウス11とを備えるコンピュータ・システム1が図示されている。マウス11は、マウス・ボタン13のような1つまたは複数のボタンを有することができる。筐体7には、CD−ROMドライブ15と、システム・メモリと、ハード・ドライブ(図2参照)とが収容され、これらは本発明を実施するコード、本発明と共に使用するデータなどを含むソフトウェア・プログラムの記憶と取り出しのために使用することができる。コンピュータ可読記憶媒体の例としてCD−ROM17が図示されているが、フロッピィ・ディスク、テープ、フラッシュ・メモリ・システム・メモリ、ハード・ドライブなどの他のコンピュータ可読記憶媒体も使用することができる。筐体7には、中央処理装置、システム・メモリ・ハード・ディスクなどの周知のコンピュータ構成要素(図示せず)も収容されている。
図2に、本発明の実施形態のソフトウェアを実行するために使用するコンピュータ・システム1のブロック図を示す。図1に示すように、コンピュータ・システム1はモニタ3とキーボード9を備える。コンピュータ・システム1は、中央処理装置102、システム・メモリ104、入出力コントローラ106、ディスプレイ・アダプタ108、取外し可能ディスク112(たとえばCD−ROMドライブ)、固定ディスク116(たとえばハード・ドライブ)、ネットワーク・インタフェース118、およびスピーカ120などのサブシステムをさらに備える。本発明と共に使用するのに適したその他のコンピュータ・システムは、追加のサブシステムまたはこれより少ないサブシステムを備えることもできる。たとえば、他のコンピュータ・システムは、複数のプロセッサ102(すなわちマルチプロセッサ・システム)やキャッシュ・メモリを備えることもできる。
112などの矢印は、コンピュータ・システム1のシステム・バス・アーキテクチャを表す。しかし、これらの矢印は、サブシステムをリンクする役割を果たす任意の相互接続方式の例示に過ぎない。たとえば、ローカル・バスを使用して、中央処理装置をシステム・メモリとディスプレイ・アダプタとに接続することができる。図2に示すコンピュータ・システム1は本発明と共に使用するのに適したコンピュータ・システムの一例にすぎない。当業者なら、本発明と共に使用するのに適した他のサブシステム構成も容易にわかるであろう。
本発明の好ましい実施形態は、インターネットのウェブ・サイト上の半構造化情報(たとえばウェブ・ページ)へのアクセスを提供する。図3に、インターネットを介してネットワーク化された複数のコンピュータの図を示す。コンピュータ202、204、および206は、世界中の教育、研究、および商業コンピュータ・サイトを結ぶ一連の高速通信リンクであるインターネット208によって相互接続されている。インターネット・コンピュータは、通信プロトコルとして伝送制御プロトコル/インターネット・プロトコル(「TCP/IP」)を使用する。
図4は、ラッパーを生成するプロセスを示す高水準フローチャートである。ステップ252で、(たとえば語彙解析を使用して)半構造化情報を調べ、属性を含む半構造化情報内の求めるパターンを識別する。属性は、典型的には半構造化情報のテキスト内の1つまたは複数の語である。たとえば、「Palo Alto(パロアルト)」という語が、半構造化情報内の求める属性であり、後でリレーショナル・データベース・スキーマの「city(市)」フィールドに関連づけられることになる。属性を処理して、追加の半構造化情報を得ることもできる。したがって、属性はウェブ・ページへのリンク、または情報のストリングを出力する関数に対する引数とすることができる。好ましい実施形態では、半構造化情報はウェブ・ページを表すHTMLである。
ステップ254で、パターンの正規表現を含む記述ファイルを生成する。この記述ファイルは、半構造化情報内の属性に対するマップとして機能する正規表現を含む。記述ファイルは、典型的にはハード・ドライブやメモリのようなコンピュータ可読記憶媒体に記憶される。ステップ252および254は典型的にはユーザによって行われるが、これらのステップはプログラム式コンピュータ・システムが実行するように自動化することもできる。
ステップ256で、記述ファイルを使用してラッパーを生成する。このラッパーは、リレーショナル・データベース・システムのタプルとして半構造化情報内の属性へのアクセスを提供する。ラッパーは、記述ファイルをコンパイルするかまたは記述ファイルをインタプリタへの入力として使用することによって生成することができる。
以下で詳述するように、特定の半構造化情報のラッパーが生成された後は、ユーザはリレーショナル・データベース照会(たとえばSQL照会)を生成することができ、この照会はラッパーが提供するタプルによって満足される。ラッパーは、半構造化情報から求める属性を取り出し、タプルをリレーショナル・データベース・システムに供給することができる。したがって、リレーショナル・データベース・システムは、半構造化情報をラッパーの結果としての1つまたは複数のデータベース・テーブルとして見る。
当然ながら、上記の例は、読者の理解を助けることを意図した本発明のきわめて単純な実施形態である。一般には、異なる半構造化情報に対応する複数のラッパーが存在することになる。さらに、ラッパーがアクセスした半構造化情報内の属性をリレーショナル・データベース・スキーマのフィールドに変換する1つまたは複数のマッパがある。
図5は、異なる半構造化情報源からの半構造化情報にアクセスするためのラッパーを生成するプロセスを示すフローチャートである。ステップ302で、語彙解析を使用して、求める反復パターンがないか半構造化情報を調べる。求める反復パターンには、1つまたは複数の属性が含まれる。
ステップ304で、半構造化情報内のパターンのオカレンスを、先験的情報なしで名前と位置によってネストされた構造体にカタログ化する。先験的情報なしでカタログ化することは、パターンをカタログ化する前にユーザが事前情報を持っている必要も事前プログラミングを行う必要もないことを意味する。一実施形態では、ネストされた構造体は半構造化情報内の属性のネスト化を表すグラフである。典型的には、ネストされた構造体の属性の多くはリレーショナル・データベース・スキーマのフィールドに対応する。
ステップ306で、ネストされた構造体内のパターンを調べて、リレーショナル・データベース・スキーマのフィールドに対応する属性を識別する。これらの属性が識別された後、半構造化情報内の属性の場所を指定する正規表現を生成する。この正規化表現は、それらの属性が識別されたら直ちに生成することも、半構造化情報の定義をファイルに書き込むときに生成することもできる。したがって、正規表現の生成は特定の時点で行う必要はない。
ステップ307で、ネストされた構造体内のパターンを調べてさらにカタログ化することができるパターンを識別する。求めるパターンによっては、他の求めるパターンにさらに分解することができる場合もある。識別されたそれらのパターンの1つ1つを、それを構成するより小さなパターンに分解する。次に、これらのより小さなパターンをさらに調べるためにネストされた構造体にカタログ化する。
ステップ308で、ネストされた構造体内のパターンを調べて、他の半構造化情報へのリンクを識別する。これらのリンクは、求めるパターンと属性を含んでいる可能性のある他の半構造化情報を指す。リンクをたどって、他の半構造化情報に求めるパターンがないか調べ、次にそのパターンをネストされた構造体にカタログ化する。典型的には、リンクはウェブ・ページのユニフォーム・リソース・ロケータ(「URL」)アドレスである。しかし、リンクは、実行された場合に次に調べる半構造化情報出力を生成するプログラムを指すこともできる。
次にステップ310で、他に調べるべきネストされた情報がないかどうか判断する。ネストされた情報がまだある場合、ステップ306でネストされた構造体内のネストされた情報を調べてリレーショナル・データベース・スキーマのフィールドに対応する属性を識別する。ステップ306、307、308は特定の順序で図示されているが、これらのステップはこのフローチャート内の他の多くのステップと同様に、図示されている順序で行う必要はない。したがって、フローチャートに示されている順序は、一実施形態を例示するために過ぎず、本発明を限定するものではない。
調べるべきネストされた情報がそれ以上ない場合、ステップ312で半構造化情報の定義がプログラム・トランスレータに供給または入力され、パーサが構築される。半構造化情報の定義には、リレーショナル・データベース・スキーマのフィールドに対応する属性を含む正規表現が含まれる。この正規表現は、リレーショナル・データベース・スキーマに対応する半構造化情報内の属性の場所を指定する。したがって、ラッパーは、属性の半構造化情報を構文解析することができるパーサを含むことになり、それによってラッパーは属性をリレーショナル・データベース・システムにタプルとして提示することができる。プログラム・トランスレータは、コンパイラまたはインタプリタとすることができる。
一実施形態では、コンパイラが、定義ファイルを入力として受け取り、半構造化情報からリレーショナル・データベース・スキーマのフィールドに対応する属性を取り出してタプルを形成するプログラム(すなわちパーサ)を生成することによって、パーサを生成する。他の実施形態では、インタプリタが、半構造化情報の定義と半構造化情報を入力として受け取り、半構造化情報からリレーショナル・スキーマのフィールドに対応する属性を取り出してタプルを形成することによって、パーサを生成する。
ここで一例を検討すればわかりやすいであろう。図6に、複数の賃貸不動産物件を含むウェブ・サイトのサンプルHTMLページを示す。このウェブ・サイトでは賃貸用の2件のコンドミニアムと2件のアパートが記載されていることが容易にわかる。このウェブ・サイトはきわめて単純であるが、本発明によりリレーショナル・データベースを介してアクセス可能な一種の半構造化情報の好例である。
このHTMLページを走査して属性を含む求める反復パターンを調べる。求めるこれらの反復パターンを識別し、図7に示すグラフまたはネストされた構造体にカタログする。ルート・ノード402は、このウェブ・サイトのURLアドレスの表示である。ルート・ノードの下には、図6のウェブ・サイト内の求めるパターンを示すその他のノードがある。ノード403は、このウェブ・サイトがカテゴリ・ブロックを示すことを示している。ノード404および406によって示されているように、このカテゴリ・ブロックは「category(カテゴリ)」という属性の後にリスト・ブロックが続いた1つまたは複数の表現を含む。「category(カテゴリ)」という属性は賃貸のタイプ(たとえばコンドミニアムかアパートか)である。
リスト・ブロックは、ノード408によって示されているように「テキスト」という1つまたは複数の属性を含む。「text(テキスト)」属性は、賃貸単位のリストのテキストである。図のように、このテキストはノード410、412、414、および416によって示されているように、「city(市)」、「rent(賃貸料)」、「bedrooms(寝室数)」、および「bathrooms(浴室数)」を含むことができる。したがって、このグラフはウェブ・サイト内の属性の場所を示す。以下のように、このグラフを使用して正規表現を含む記述ファイルを生成することができる。
図8に、図6のHTMLページをマッピングするために生成することができる記述ファイルを示す。最初に、この記述ファイルには変数定義がある。したがって、変数$category、$listings、$text、および$cityは文字列(すなわち1個または複数個の文字)である。また、変数$rent、$bedrooms、および$bathroomsは数値である。これらの変数は、ウェブ・サイト内の求める属性に対応し、ウェブ・サイトのグラフ内の各非ルート・ノードにも対応する。
変数定義の後には、半構造化情報またはウェブ・サイトの定義がある。図のように、ウェブ・サイト・アドレスは「URL」タイプのアドレスである。ウェブ・サイト自体は以下の正規表現によって定義される。
"<h2>"$category"</h2>"$listings #LOOKAHEAD ("<h2>"|"</body>")
この正規表現は、属性「category(カテゴリ)」に対応する変数$categoryがHTMLタグ<h2>と</h2>の間に見つかることを意味している。たとえば、図6のHTMLページの3行目に、この2つのタグの間に「Condos」が示されている。
上記の正規化表現は、HTMLタグ</h2>の後に変数$listingsがあり、<h2>または</body>に達するまでそれが続くことも示している。変数$listingsは、図7の406のリスト・ブロックに対応する。キーワード「#LOOKAHEAD」は、変数$listingsを区切るためにこれらのタグを探索しなければならないが、これらのタグはさらに解析するために残っていなければならないことを示している。このウェブ・ページには、各賃貸リストについて1つずつ、この正規表現と一致する半構造化情報の4つの反復が含まれているのがわかる。
図8を参照すると、変数$listingsは「TEXT」タイプ(これはデータ・タイプであり、属性「text(テキスト)」や変数$textと混同してはならない)であり、以下の正規表現によって表される。
"<p>" $text #LOOKAHEAD ("<p>" | "<hr>")
この正規表現は、変数$listingsがタグ<p>とタグ<p>または<hr>との間に変数$text(属性「text」に対応する)を含むことを示している。
変数$textは「TEXT」タイプであり、以下の正規化表現によって表される。
”<b>”$city”</b>”
”$”$rent
$bedrooms”BR”
$bathrooms”BA”
上記の正規表現は、変数$textが変数$city、$rent、$bedrooms、および$bathroomsのすべてを含むことも1つも含まないこともできることを示している。これらの変数は、それぞれ属性「city(市)」、「rent(賃貸料)」、「bedrooms(寝室数)」、および「bathrooms(浴室数)」に対応する。正規化表現によって示されているように変数$cityは<b>と</b>の間にくる。変数$rentがドル符号の後に続く。また、変数$bedroomsおよび$bathroomsがそれぞれ語「BR」および「BA」の前にくる。この例では、データ源として単一のHTMLページだけが示されているが、データ源は一般に情報リポジトリとすることができ、場合によっては異なる情報の間のリンクを備える。
この記述ファイルを専用プログラム・トランスレータが使用してラッパーを生成することができる。前述のように、記述ファイルには1組の正規化表現と、各正規表現についてその名前(明示的)と、ネストされた構造体内の位置と、ネストされた構造体の対応する属性とを含む。ラッパーは、属性をリレーショナル・データベース・システムがタプルとして使用することができるようにする。
図9に、図7の記述ファイルから生成されたラッパーによって、共通リレーショナル・データ・ベース・システムが使用することができるようにされたタプルを示す。説明を簡単にするために、この5つの属性はリレーショナル・データベースの5つのフィールドに直接対応している。しかし、実際には、属性はマッパによって変換する必要がある。たとえば、マッパは属性「category(カテゴリ)」を「rental_type」という名前のフィールドに関連づける必要がある。さらに、マッパは賃貸料を月額から年額に変換しなければならない場合がある。マッパによって行われる変換は、リレーショナル・データベースを使用することもできる。
図のように、ラッパーは4つのタプルをリレーショナル・データベース・システムが使用できるようにする。タプルのうちの2つはコンドミニアムを記述し、もう2つのタプルはアパートを記述する。ウェブ・サイトに情報がなかったフィールドは空白になっている。場合によっては、属性の単一のグループ化の結果として複数のリレーショナル・タプルができることがある。
これらのタプルをユーザがリレーショナル・データベース・システムを介して使用することができるようにすることによって、ユーザはキーワード探索では使用することができない照会を行うことができる。例えば、ユーザは月額1100ドル未満のすべての賃貸物件を求めることができる。さらに、ウェブ・サイトの半構造化情報をリレーショナル・データベースで使用可能にすることができる。したがって、この情報を他のリレーショナル情報と組み合わせることができる。たとえば、市名、人口、収入中央値、住宅価格中央値など、市に関する情報を持つウェブ・サイトがあるとする。本発明により、ラッパーを使用してその半構造化情報を使用可能にし、それによって、月額1100ドル未満であって人口が65,000人未満の市にあるすべての賃貸物件をユーザが求めることができるようにすることができる。リレーショナル・データベース・システムで標準になっている通り、この市フィールドを使用してこの情報を一緒にリンクし、この照会が満足されることになる。
図7のノード408にある属性「text(テキスト)」は、図9のタプルには示されていない。これは、半構造化情報内のすべての属性がリレーショナル・データベース・スキーマのフィールドに対応していなくてもよいことを例示している。当然ながら、すべての属性を使用可能にして、それによってリレーショナル・データベースが必要な属性を使用するようにすることもできる。
上記の例では、2つのウェブ・サイトからのリレーショナル・データを使用しているが、本発明は数百または数千のウェブ・サイトがユーザにとって1つの仮想リレーショナル・データベースとして見えるようにすることができることが容易にわかるであろう。また、この仮想リレーショナル・データベースを、ローカル・コンピュータ・システム上に記憶されている他のリレーショナル・データベースや、遠隔の他のネットワーク・コンピュータ・システム上にある他のリレーショナル・データベースと組み合わせることもできる。したがって、上述の市に関する情報はコンピュータ・システム上にローカルに記憶されているリレーショナル・データベースに入っていても構わなかったことになる。
図10に、データウェアハウスのためにデータベース・ローダを使用する本発明の一実施形態のブロック図を示す。複数のラッパーまたはサイト・プログラム504を介して複数の情報源502(たとえばハイパーテキスト・ネットワークを形成する複数のウェブ・サイト)にアクセスする。ラッパーによって供給されたタプルは、単一のマッパ506を介してリレーショナル・データベース・システムのスキーマ(またはフィールド名)と合致するように変換される。1つのマッパが図示されているが、複数のマッパ(たとえば各ラッパーについて1つのマッパ)を使用することもできる。
データウェアハウスでは、データベース・ローダ508が情報源から求めるすべてのデータを取り出し、それをリレーショナル・データベース510にロードする。したがって、データはリレーショナル・データベース510に事前にロードされているため、ユーザ512が照会を出した場合、ユーザの照会はウェブを介して送られて複数のウェブ・サイトにアクセスすることによっては満たされない。したがって、ユーザの照会はリレーショナル・データベースによって満たされる。これには、ウェブを介してリアルタイムで照会に応じるよりも格段に高速であるという明らかな利点がある。
データウェアハウスを実現するためには、求めるすべての可能な属性を知っていることが役に立つ。たとえば、データベース・ローダが「パロアルト」が市であることを知らなかった場合、状況によっては、データベース・ローダがリレーショナル・データベースに事前ロードするタプルが市フィールドに「パロアルト」を含まないことになる。これは図6に示すウェブ・ページでは起こらない(city(市)が常にタグ<h2>と</h2>によって囲まれているため)が、市を常にそれほど容易には識別することができないある種のウェブ・サイトではこれが起こる可能性がある。
図11に、動的エージェントを使用する本発明の他の実施形態を示す。複数のラッパー554を介して複数の情報源552にアクセスする。ラッパーによって供給されたタプルはマッパ556を介してリレーショナル・データベース・システムのスキーマに合致するように変換される。図10とは異なり、ユーザ558は動的エージェント560に照会する。動的エージェントは情報源の情報にアクセスし、その結果のデータがリレーショナル・データベース562に記憶またはキャッシュされる。リレーショナル・データベースには、情報源からのリレーショナル・データと共に他のリレーショナル・データも入れることができる。
動的エージェントがユーザから照会を受け取ると、エージェントはリレーショナル・データベース内にその照会に応じるのに十分なデータがすでに入っているかどうかを判断する。さらに、エージェントは、(たとえばタイムスタンプを使用して)リレーショナル・データベース内のデータが十分に最新であるかどうかを判断することができる。追加のデータまたは情報が必要な場合、エージェントはマッパに照会を出し、さらにマッパはラッパーを介して適切な情報源に照会を出す。
この手法は常にデータウェアハウス手法ほど高速であるとは限らないこともあるが、全範囲の属性を事前に知っている必要がないという利点がある。たとえば、ユーザが「city=Palo Alto」を含む照会を出した後は、動的エージェントは「Palo Alto」が市であることがわかり、それに応じて情報源を探索することができる。他の実施形態では、この2つの手法を合わせた手法を使用し、それによって、ある種のデータがリレーショナル・データベースに事前ロードされ、他のデータはリアルタイムで取り出されるようにする。このような混成手法によって両方の手法の利点を得ることができる。
以上、本発明について特定の実施形態を参照しながら説明した。当業者には他の実施形態も明らかであろう。したがって、本発明は特許請求の範囲の記載以外には限定されない。
本発明の実施形態のソフトウェアを実行するために使用するコンピュータ・システムの例を示す図である。 本発明の実施形態のソフトウェアを実行するために使用する典型的なコンピュータ・システムのシステム・ブロック図である。 インターネットを介してネットワーク化された複数のコンピュータを示す図である。 ラッパーを生成するプロセスの高水準フローチャートである。 半構造化情報にアクセスするためのラッパーを生成するプロセスのフローチャートである。 ウェブ・サイトのHTMLページのサンプルを示す図である。 図6のHTMLページの、対象となる属性を含むグラフである。 図6のHTMLページをマッピングするために生成することができる記述ファイルを示す図である。 図7の記述ファイルから生成されたラッパーによって、リレーショナル・データベース・システムに使用することができるようにされたタプルを示す図である。 データウェアハウス化のためにデータベース・ローダを使用する本発明の一実施形態を示すブロック図である。 動的エージェントを使用する本発明の他の実施形態を示すブロック図である。
符号の説明
1 コンピュータ・システム
3 モニタ
5 画面
7 筐体
9 キーボード
15 CD−ROMドライブ
108 中央処理装置
112 取外し可能ディスク
116 固定ディスク
118 ネットワーク・インタフェース
120 スピーカ
202 コンピュータ
208 インターネット

Claims (1)

  1. コンピュータを使用してネットワーク上の異なる情報源から情報を構する方法であって、
    a)ソフトウエアを実行するコンピュータの処理装置が、コンピュータに接続のネットワーク上の情報源中の、テキスト情報まれる半構造化情報語彙解析を使用して、反復パターンがないかに関して調べ、当該テキスト情報中の求めるパターンを識別するステップと、
    b)ソフトウエアを実行するコンピュータの処理装置が、求めるパターンに関する事前の情報を必要とせずに、識別されたパターンを名前と位置によってネストされた構造体にカタログ化するステップと、
    c)ソフトウエアを実行するコンピュータの処理装置が、前記ネストされた構造体内のパターンを調べてリレーショナル・データベースのリレーショナル・スキーマのフィールドに対応する属性を識別するステップと、
    d)ソフトウエアを実行するコンピュータの処理装置が、前記ネストされた構造体内のパターンを調べて分解できるパターンを識別し、分解して前記ネストされた構造体にカタログ化するステップと、
    e)ソフトウエアを実行するコンピュータの処理装置が、前記ネストされた構造体内のパターンを調べて他の半構造化情報へのリンクを識別し、検査して前記ネストされた構造体にカタログ化するステップと、
    f)コンピュータの処理装置が、該当するネストされた情報がすべてカタログ化されるまでステップ(c)ないし(e)を繰り返し、専用のプログラム・トランスレータが使用するように半構造化情報の定義を得るステップと、
    g)ソフトウエアを実行するコンピュータの処理装置が、リレーショナル・データベースのパーサを構築するために前記定義をプログラム・トランスレータに入力として供給するステップと
    を含む方法。
JP2008007850A 1996-10-02 2008-01-17 ネットワーク上の異なる情報源から情報を構成する方法 Expired - Lifetime JP4264118B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/724,943 US5826258A (en) 1996-10-02 1996-10-02 Method and apparatus for structuring the querying and interpretation of semistructured information

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP9269792A Division JPH10222539A (ja) 1996-10-02 1997-10-02 半構造化情報の照会および解釈を構造化する方法および装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008328321A Division JP2009080849A (ja) 1996-10-02 2008-12-24 単一の高水準構造化ユーザ照会に応答する方法

Publications (2)

Publication Number Publication Date
JP2008123547A JP2008123547A (ja) 2008-05-29
JP4264118B2 true JP4264118B2 (ja) 2009-05-13

Family

ID=24912520

Family Applications (3)

Application Number Title Priority Date Filing Date
JP9269792A Pending JPH10222539A (ja) 1996-10-02 1997-10-02 半構造化情報の照会および解釈を構造化する方法および装置
JP2008007850A Expired - Lifetime JP4264118B2 (ja) 1996-10-02 2008-01-17 ネットワーク上の異なる情報源から情報を構成する方法
JP2008328321A Pending JP2009080849A (ja) 1996-10-02 2008-12-24 単一の高水準構造化ユーザ照会に応答する方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP9269792A Pending JPH10222539A (ja) 1996-10-02 1997-10-02 半構造化情報の照会および解釈を構造化する方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008328321A Pending JP2009080849A (ja) 1996-10-02 2008-12-24 単一の高水準構造化ユーザ照会に応答する方法

Country Status (2)

Country Link
US (1) US5826258A (ja)
JP (3) JPH10222539A (ja)

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003046A (en) * 1996-04-15 1999-12-14 Sun Microsystems, Inc. Automatic development and display of context information in structured documents on the world wide web
US5913214A (en) 1996-05-30 1999-06-15 Massachusetts Inst Technology Data extraction from world wide web pages
US5905862A (en) * 1996-09-04 1999-05-18 Intel Corporation Automatic web site registration with multiple search engines
US6085186A (en) * 1996-09-20 2000-07-04 Netbot, Inc. Method and system using information written in a wrapper description language to execute query on a network
US6801926B1 (en) * 1996-11-05 2004-10-05 Peoplesoft, Inc. Platform-independent programmable batch processing engine
US6085190A (en) * 1996-11-15 2000-07-04 Digital Vision Laboratories Corporation Apparatus and method for retrieval of information from various structured information
US6038566A (en) * 1996-12-04 2000-03-14 Tsai; Daniel E. Method and apparatus for navigation of relational databases on distributed networks
JPH10171814A (ja) * 1996-12-12 1998-06-26 Digital Vision Lab:Kk 情報検索装置
CA2329345A1 (en) * 1997-04-22 1998-10-29 Greg Hetherington Method and apparatus for processing free-format data
US7020670B1 (en) * 1997-04-23 2006-03-28 Xerox Corporation Document constraint descriptors obtained from user signals indicating attribute-value relations
US7779020B2 (en) * 2002-03-01 2010-08-17 International Business Machines Corporation Small-footprint applicative query interpreter method, system and program product
US6442576B1 (en) * 1997-08-06 2002-08-27 Adobe Systems Incorporated Searching for documents with multiple element types
US6339775B1 (en) * 1997-11-07 2002-01-15 Informatica Corporation Apparatus and method for performing data transformations in data warehousing
US6014670A (en) * 1997-11-07 2000-01-11 Informatica Corporation Apparatus and method for performing data transformations in data warehousing
US6571243B2 (en) 1997-11-21 2003-05-27 Amazon.Com, Inc. Method and apparatus for creating extractors, field information objects and inheritance hierarchies in a framework for retrieving semistructured information
US6304870B1 (en) * 1997-12-02 2001-10-16 The Board Of Regents Of The University Of Washington, Office Of Technology Transfer Method and apparatus of automatically generating a procedure for extracting information from textual information sources
US5963949A (en) * 1997-12-22 1999-10-05 Amazon.Com, Inc. Method for data gathering around forms and search barriers
JPH11261627A (ja) * 1998-03-09 1999-09-24 Fujitsu Ltd 電子メール配信装置
US6424980B1 (en) * 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents
US6925595B1 (en) * 1998-08-05 2005-08-02 Spyglass, Inc. Method and system for content conversion of hypertext data using data mining
GB2343763B (en) * 1998-09-04 2003-05-21 Shell Services Internat Ltd Data processing system
US6298334B1 (en) * 1998-10-15 2001-10-02 Netdecide Corporation Object-based numeric-analysis engine
US6163794A (en) * 1998-10-23 2000-12-19 General Magic Network system extensible by users
JP2000200288A (ja) * 1999-01-07 2000-07-18 Nec Corp 検索結果解析方式
US6782505B1 (en) * 1999-04-19 2004-08-24 Daniel P. Miranker Method and system for generating structured data from semi-structured data sources
US6792576B1 (en) * 1999-07-26 2004-09-14 Xerox Corporation System and method of automatic wrapper grammar generation
US6356906B1 (en) * 1999-07-26 2002-03-12 Microsoft Corporation Standard database queries within standard request-response protocols
US6613099B2 (en) * 1999-08-20 2003-09-02 Apple Computer, Inc. Process and system for providing a table view of a form layout for a database
US6851089B1 (en) * 1999-10-25 2005-02-01 Amazon.Com, Inc. Software application and associated methods for generating a software layer for structuring semistructured information
US6721780B1 (en) * 1999-11-09 2004-04-13 Fireclick, Inc. Predictive pre-download of network objects
US6721727B2 (en) 1999-12-02 2004-04-13 International Business Machines Corporation XML documents stored as column data
US6658400B2 (en) * 1999-12-04 2003-12-02 William S. Perell Data certification and verification system having a multiple-user-controlled data interface
US7152062B1 (en) 2000-11-21 2006-12-19 Actuate Corporation Technique for encapsulating a query definition
US7124144B2 (en) * 2000-03-02 2006-10-17 Actuate Corporation Method and apparatus for storing semi-structured data in a structured manner
US6581062B1 (en) 2000-03-02 2003-06-17 Nimble Technology, Inc. Method and apparatus for storing semi-structured data in a structured manner
US6449620B1 (en) * 2000-03-02 2002-09-10 Nimble Technology, Inc. Method and apparatus for generating information pages using semi-structured data stored in a structured manner
US7707159B2 (en) * 2000-03-02 2010-04-27 Actuate Corporation Method and apparatus for storing semi-structured data in a structured manner
WO2001071538A2 (en) * 2000-03-21 2001-09-27 Quack.Com System and method for non-programming development of rules used in the transformation of web-based information
US6954895B1 (en) * 2000-03-22 2005-10-11 Autodesk, Inc. Method and apparatus for using and storing objects
US7404141B1 (en) 2000-03-31 2008-07-22 Oracle International Corporation System for creating and maintaining a website
US6745238B1 (en) * 2000-03-31 2004-06-01 Oracle International Corporation Self service system for web site publishing
US6604107B1 (en) * 2000-04-24 2003-08-05 Ebay Inc. Generic attribute database system for storing items of different categories having shared attributes
US8296792B2 (en) * 2000-04-24 2012-10-23 Tvworks, Llc Method and system to provide interactivity using an interactive channel bug
US9788058B2 (en) 2000-04-24 2017-10-10 Comcast Cable Communications Management, Llc Method and system for automatic insertion of interactive TV triggers into a broadcast data stream
US7702995B2 (en) 2000-04-24 2010-04-20 TVWorks, LLC. Method and system for transforming content for execution on multiple platforms
US8936101B2 (en) 2008-07-17 2015-01-20 Halliburton Energy Services, Inc. Interventionless set packer and setting method for same
US6778983B1 (en) * 2000-04-28 2004-08-17 International Business Machines Corporation Apparatus and method for accessing HTML files using an SQL query
US8478732B1 (en) 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6704728B1 (en) 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US6516308B1 (en) 2000-05-10 2003-02-04 At&T Corp. Method and apparatus for extracting data from data sources on a network
KR100391391B1 (ko) * 2000-06-14 2003-07-12 (주) 제이.에스.씨.앤.아이 저작권 침해 방지를 위한 정보추출 에이전트 시스템 및그의 정보제공 방법
US7117215B1 (en) 2001-06-07 2006-10-03 Informatica Corporation Method and apparatus for transporting data for data warehousing applications that incorporates analytic data interface
US7313588B1 (en) 2000-07-13 2007-12-25 Biap Systems, Inc. Locally executing software agent for retrieving remote content and method for creation and use of the agent
US7613790B2 (en) 2000-07-13 2009-11-03 Biap Systems, Inc. Apparatus for and method of executing customized interactive computing services in a broadband network environment
JP4536880B2 (ja) * 2000-07-18 2010-09-01 キヤノン株式会社 情報処理システム及びその制御方法、情報処理装置及び方法、並びに記憶媒体
US7756904B2 (en) 2000-08-01 2010-07-13 Actuate Corporation Nested conditional relations (NCR) model and algebra
US7308646B1 (en) * 2000-08-30 2007-12-11 International Business Machines Corporation Integrating diverse data sources using a mark-up language
CA2360906C (en) * 2000-11-16 2010-01-05 General Electric Company Method for mapping information from a network-based data source
US7174534B2 (en) * 2001-01-22 2007-02-06 Symbol Technologies, Inc. Efficient system and method for running and analyzing multi-channel, multi-modal applications
US7269784B1 (en) 2001-01-22 2007-09-11 Kasriel Stephane Server-originated differential caching
US20020129342A1 (en) * 2001-03-07 2002-09-12 David Kil Data mining apparatus and method with user interface based ground-truth tool and user algorithms
US20020161757A1 (en) * 2001-03-16 2002-10-31 Jeffrey Mock Simultaneous searching across multiple data sets
US6915482B2 (en) * 2001-03-28 2005-07-05 Cyber Watcher As Method and arrangement for web information monitoring
WO2002086781A1 (fr) * 2001-04-17 2002-10-31 Nishimori, Koji Procede et systeme d'automatisation d'un cadre de vie
US7581170B2 (en) * 2001-05-31 2009-08-25 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML
US7162643B1 (en) 2001-06-15 2007-01-09 Informatica Corporation Method and system for providing transfer of analytic application data over a network
US7185063B1 (en) * 2001-06-22 2007-02-27 Digital River, Inc. Content delivery network using differential caching
US7720842B2 (en) 2001-07-16 2010-05-18 Informatica Corporation Value-chained queries in analytic applications
US7092997B1 (en) 2001-08-06 2006-08-15 Digital River, Inc. Template identification with differential caching
US7188214B1 (en) 2001-08-07 2007-03-06 Digital River, Inc. Efficient compression using differential caching
DE10144332A1 (de) * 2001-09-10 2003-04-03 Siemens Ag Verfahren zur Übertragung eines Prozesswerts und Steuerungssystem
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
US8387074B2 (en) * 2001-11-09 2013-02-26 International Business Machines Corporation Enterprise directory service
US20030101212A1 (en) * 2001-11-26 2003-05-29 Borg Michael J. Method for automatically completing an electronic form
US7296051B1 (en) 2002-02-19 2007-11-13 Digital River, Inc. Predictive predownload of templates with delta encoding
US7487261B1 (en) 2002-02-22 2009-02-03 Digital River, Inc. Delta caching service
US6820077B2 (en) 2002-02-22 2004-11-16 Informatica Corporation Method and system for navigating a large amount of data
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US7020667B2 (en) * 2002-07-18 2006-03-28 International Business Machines Corporation System and method for data retrieval and collection in a structured format
US7035841B2 (en) * 2002-07-18 2006-04-25 Xerox Corporation Method for automatic wrapper repair
US8452631B2 (en) * 2002-09-17 2013-05-28 International Business Machines Corporation Keeping working hours and calendar entries up-to date
US7487234B2 (en) * 2002-09-17 2009-02-03 International Business Machines Corporation Context conflict resolution and automatic context source maintenance
JP2004158050A (ja) * 2002-11-01 2004-06-03 Renesas Technology Corp 半導体記憶装置
US7146356B2 (en) * 2003-03-21 2006-12-05 International Business Machines Corporation Real-time aggregation of unstructured data into structured data for SQL processing by a relational database engine
US20050015361A1 (en) 2003-07-15 2005-01-20 International Business Machines Corporation Model content provider with reusable components for supporting a plurality of GUI API's
US20050015368A1 (en) * 2003-07-15 2005-01-20 International Business Machines Corporation Query modelling tool having a dynamically adaptive interface
US8458164B2 (en) * 2003-07-15 2013-06-04 International Business Machines Corporation Query model tool and method for visually grouping and ungrouping predicates
US7421458B1 (en) 2003-10-16 2008-09-02 Informatica Corporation Querying, versioning, and dynamic deployment of database objects
US7254590B2 (en) 2003-12-03 2007-08-07 Informatica Corporation Set-oriented real-time data processing based on transaction boundaries
US20050165789A1 (en) * 2003-12-22 2005-07-28 Minton Steven N. Client-centric information extraction system for an information network
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
US7769752B1 (en) 2004-04-30 2010-08-03 Network Appliance, Inc. Method and system for updating display of a hierarchy of categories for a document repository
US7421322B1 (en) 2004-04-30 2008-09-02 Carfax, Inc. System and method for automatic identification of vehicle identification number
US7519621B2 (en) * 2004-05-04 2009-04-14 Pagebites, Inc. Extracting information from Web pages
US8291265B2 (en) * 2004-05-05 2012-10-16 Fluor Technologies Corporation Integrated acceptance testing
US8244689B2 (en) 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US20060179046A1 (en) * 2005-01-14 2006-08-10 Cosmix Corporation Web operation language
US9208229B2 (en) 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US20060265357A1 (en) * 2005-04-26 2006-11-23 Potts Matthew P Method of efficiently parsing a file for a plurality of strings
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US7831545B1 (en) 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
US7991797B2 (en) 2006-02-17 2011-08-02 Google Inc. ID persistence through normalization
US8260785B2 (en) * 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US8700568B2 (en) 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US8099415B2 (en) * 2006-09-08 2012-01-17 Simply Hired, Inc. Method and apparatus for assessing similarity between online job listings
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US7752484B2 (en) * 2006-10-24 2010-07-06 Sap Ag On-demand wrappers of application data with session failover recovery
US20080195646A1 (en) * 2007-02-12 2008-08-14 Microsoft Corporation Self-describing web data storage model
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US7966291B1 (en) 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8738643B1 (en) 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
US7840548B2 (en) * 2007-12-27 2010-11-23 Yahoo! Inc. System and method for adding identity to web rank
US7933916B2 (en) * 2008-02-28 2011-04-26 Microsoft Corporation Querying nonSQL data stores with a SQL-style language
US9646308B1 (en) 2008-06-06 2017-05-09 Carfax, Inc. Tool for selling and purchasing vehicle history reports
US9003474B1 (en) 2008-08-22 2015-04-07 Taser International, Inc. Systems and methods for managing disclosure of protectable information
US9280528B2 (en) * 2010-10-04 2016-03-08 Yahoo! Inc. Method and system for processing and learning rules for extracting information from incoming web pages
US8935719B2 (en) 2011-08-25 2015-01-13 Comcast Cable Communications, Llc Application triggering
US10579634B2 (en) * 2012-08-30 2020-03-03 Citus Data Bilgi Islemleri Ticaret A.S. Apparatus and method for operating a distributed database with foreign tables
US20150310129A1 (en) * 2013-01-09 2015-10-29 Hitachi, Ltd. Method of managing database, management computer and storage medium
EP2755148A1 (en) * 2013-01-15 2014-07-16 Fujitsu Limited Data storage system, and program and method for execution in a data storage system
US9414114B2 (en) 2013-03-13 2016-08-09 Comcast Cable Holdings, Llc Selective interactivity
US11076205B2 (en) 2014-03-07 2021-07-27 Comcast Cable Communications, Llc Retrieving supplemental content
CN110175157B (zh) * 2019-04-24 2023-10-03 平安科技(深圳)有限公司 一种列存储文件的查询方法及查询装置
WO2022010868A1 (en) 2020-07-06 2022-01-13 Grokit Data, Inc. Automation system and method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4631673A (en) * 1985-01-22 1986-12-23 International Business Machines Corporation Method for refreshing multicolumn tables in a relational data base using minimal information
US4918588A (en) * 1986-12-31 1990-04-17 Wang Laboratories, Inc. Office automation system with integrated image management
US4918593A (en) * 1987-01-08 1990-04-17 Wang Laboratories, Inc. Relational database system
SE466029B (sv) * 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
US5307484A (en) * 1991-03-06 1994-04-26 Chrysler Corporation Relational data base repository system for managing functional and physical data structures of nodes and links of multiple computer networks
US5748954A (en) * 1995-06-05 1998-05-05 Carnegie Mellon University Method for searching a queued and ranked constructed catalog of files stored on a network
US5710918A (en) * 1995-06-07 1998-01-20 International Business Machines Corporation Method for distributed task fulfillment of web browser requests
US5737592A (en) * 1995-06-19 1998-04-07 International Business Machines Corporation Accessing a relational database over the Internet using macro language files
US5706507A (en) * 1995-07-05 1998-01-06 International Business Machines Corporation System and method for controlling access to data located on a content server
US5649186A (en) * 1995-08-07 1997-07-15 Silicon Graphics Incorporated System and method for a computer-based dynamic information clipping service

Also Published As

Publication number Publication date
JP2009080849A (ja) 2009-04-16
US5826258A (en) 1998-10-20
JPH10222539A (ja) 1998-08-21
JP2008123547A (ja) 2008-05-29

Similar Documents

Publication Publication Date Title
JP4264118B2 (ja) ネットワーク上の異なる情報源から情報を構成する方法
US7581170B2 (en) Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML
Arocena et al. WebOQL: Restructuring documents, databases, and webs
US5913214A (en) Data extraction from world wide web pages
Mena et al. Ontology-based query processing for global information systems
US7747610B2 (en) Database system and methodology for processing path based queries
US8122048B2 (en) Context sensitive term expansion with dynamic term expansion
US7299221B2 (en) Progressive relaxation of search criteria
US6449620B1 (en) Method and apparatus for generating information pages using semi-structured data stored in a structured manner
US7747617B1 (en) Searching documents using a dimensional database
US6766330B1 (en) Universal output constructor for XML queries universal output constructor for XML queries
US6094649A (en) Keyword searches of structured databases
US7617196B2 (en) Context-sensitive term expansion with multiple levels of expansion
Stuckenschmidt et al. Exploring large document repositories with RDF technology: The DOPE project
US20060015843A1 (en) Semantic system for integrating software components
Binding et al. KOS at your service: Programmatic access to knowledge organisation systems
EP1774432A2 (en) Patent mapping
JPWO2003060764A1 (ja) 情報検索システム
KR100303153B1 (ko) 에이치티엠엘(html)문서저장및검색시스템
Yu et al. Metadata management system: design and implementation
Mahalingam et al. Ontology tools for semantic reconciliation in distributed heterogeneous information environments
Iocchi The Web-OEM approach to Web information extraction
Sfakakis et al. Eliminating query failures in a work‐centric library meta‐search environment
Ghiselli et al. A unified access to extract knowledge from heterogeneous web archives
Bi et al. Facilitating Integration of Distributed Statistical Databases Using Metadata and XML

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080924

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080929

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081024

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081029

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081125

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090213

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term