JP2000510978A - キャッシュデータベースにおける情報検索 - Google Patents

キャッシュデータベースにおける情報検索

Info

Publication number
JP2000510978A
JP2000510978A JP09541791A JP54179197A JP2000510978A JP 2000510978 A JP2000510978 A JP 2000510978A JP 09541791 A JP09541791 A JP 09541791A JP 54179197 A JP54179197 A JP 54179197A JP 2000510978 A JP2000510978 A JP 2000510978A
Authority
JP
Japan
Prior art keywords
information
page
item
link
access system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP09541791A
Other languages
English (en)
Other versions
JP2000510978A5 (ja
Inventor
ウィークス、リチャード
スティーブンス、リー・マイケル
デイビース、ニコラス・ジョン
リベット、マイク・チャールズ
フラビン、フィル・グラーメ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9610505.1A external-priority patent/GB9610505D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2000510978A publication Critical patent/JP2000510978A/ja
Publication of JP2000510978A5 publication Critical patent/JP2000510978A5/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 本発明は、インターネットのような通信ネットワーク(110)を使用して情報をダウンロードするための情報アクセスシステムを提供する。システムはユーザ要求にしたがってページをローカルメモリ(120)にダウンロードし、同時に埋め込まれたHTMLリンクに関してページを調べる。次にシステムは埋め込まれたリンクによって識別されたページを第2の“ルックアヘッド”ローカルキャッシュ(125)へダウンロードする。本発明は、“Casper”(Cashed Access to Stored Pages with Easy Retrieval)と呼ばれ、ユーザへのアクセス時間、およびネットワークトラヒックの低減を行なう。

Description

【発明の詳細な説明】 キャッシュデータベースにおける情報検索 本発明は、通信システムによって情報にアクセスするための方法またはシステ ム、あるいはその両方に関する。 インターネットは周知の通信システムであり、これは複数の別個の通信ネット ワークを一緒に接続したものに基づいている。インターネットは多くの異なるプ ロバイダから豊富な情報源を供給するが、このように情報が非常に豊富であるた めに、中央で監視および制御されないので、特定の情報にアクセスするときに問 題が発生する。 科学、企業、および技術における情報量は、1982年には5年ごとに倍増してい た。1988年までには2.2年ごとに倍増し、1992年までには1.6年ごとに倍増するよ うになった。インターネットおよび他のネットワークが拡張すると、増加速度は 上昇し続けることになる。このようなネットワークが存続していける鍵は、情報 を管理し、ユーザが要求する情報をユーザが要求するときにユーザに提供する能 力にある。 インターネット上で得られる情報をナビゲートすることは、ブラウザおよびハ イパーテキストマークアップ言語(HTML)のような言語によって可能である 。例えば、よく知られているワールドワイドウエッブ(WWW)はインターネッ トの領域であり、ドキュメント間にハイパーテキストリンクを使用するとブラウ ズすることができる。 共に未決の国際特許出願第GB96/00132号では、インターネット上のページに 関してメタ情報を記憶するインテリジェントソフトウエアエージェントのコミュ ニティに基づいて、例えばインターネットによって情報にアクセスするシステム が開示されている。エージェントに基づくアクセスシステムはキーワードの組を 使用して、特定のユーザにとって関心のある情報を配置する。アクセスシステム はさらにユーザプロフィールを記憶し、あるユーザが記憶したページを、プロフ ィールで潜在的な関心を示している別のユーザに知らせることができる。本明細 書では、この同時出願の特許明細書の開示を参考文献として取上げる。 本発明の第1の態様にしたがって、通信ネットワークによってアクセス可能な 情報にアクセスするための情報アクセスシステムであり: a)情報項目をネットワークからローカルメモリにダウンロードする手段と ; b)情報項目を処理して、埋込まれたリンクを、ネットワーク上でアクセス 可能な他の情報項目に配置する情報プロセッサとを含み; 前記情報プロセッサが: i)このような埋め込まれたリンクをもつ情報項目を待ち行列に入れる待ち 行列構成と; ii)1組の同時に起動できる情報収集ユニットとを含み; 該プロセッサは最初に使用の際に情報項目を処理して、その中に埋め込まれた リンクを識別し、リンクによってダウンロードする情報を識別し、次に識別され たリンクを各使用可能な収集ユニットへ割当て、次に各収集ユニットが割当てら れたリンクによって識別される情報項目をネットワークからローカルメモリへダ ウンロードするように動作する情報アクセスシステムを提供する。 本発明の実施形態の長所は、情報ページにアクセスするときの遅延を低減でき ることである。さらに、ページはネットワーク全体で1度だけ検索されるので、 ネットワークトラヒックを低減することも事実である。ユーザは次にローカルメ モリにアクセスできる。 好ましくは、ローカルメモリは2以上のキャッシュデータメモリを含み、第1 のキャッシュデータメモリはシステムによって検索した情報項目を保持し、第2 のキャッシュデータメモリはユーザがアクセスを要求したときに、第1のキャッ シュデータメモリから転送された情報項目を保持する。したがって第2のキャッ シュデータメモリは第1のキャッシュデータメモリとは異なるやり方で管理でき 、例えばユーザが比較的頻繁にアクセスする情報を供給できる。第1のキャッシ ュデータメモリは、例えば第2のキャッシュデータメモリと比較して相当に小さ く、ユーザが極最近要求したページに埋め込まれたリンクへダウンロードされた 情報のみを保持するように“余分なものを除去(prune)”することができる。 全体的に本発明の実施形態は、待ち行列構成プロセスを処理する監視およびス ケジューリング能力を必要とする。さもなければ待ち行列の処理はボトルネック になることがある。 本発明の第2の態様にしたがって、通信ネットワークによってアクセス可能な 情報項目を記憶する方法であり: i)情報項目を処理して、1または複数のリンクをその中に埋め込まれた他 の情報項目に配置する段階と; ii)前記1または複数の他の情報項目を前記ネットワークによってローカル データメモリにダウンロードする段階とを含む方法を提供する。 ここで本発明の実施形態にしたがう情報アクセスシステムを添付の図面を引用 して例示的に記載することにする。 図1は、情報アクセスシステムを支援する環境を示す。 図2は、情報アクセスシステムの全体的な動作のフローチャートを示す。 図3は、図1の情報アクセスシステムにおけるルックアヘッドプロセッサの素 子のブロック図を示す。 図4は、情報アクセスシステムのルックアヘッドプロセッサによって準備され た処理のフローチャートを示す。 図5は、処理中の待ち行列および関連する情報収集ユニットを示す。 図6は、時間間隔が過ぎた後の図5の待ち行列およびユニットを示す。 図7は、図2のフローチャートに対する代わりの別のフローチャートを示す。 本明細書では、以下に記載した本発明の特定の実施形態において、“Cached A ccess to Stored Pages with Easy Retrieval(簡単な検索による記憶されたぺー ジへのキャッシュアクセス)”を表すのに“Casper”として記載している。Caspe rシステムはとくに、インターネット大域通信ネットワーク(Internet Global Communications Network)で準備されているワールドワイドウエッブ(World Wi de Web)のページにアクセスするように設計されている。しかしながら、もちろ ん本発明の他の実施形態を使用して、データユニット(情報項目)が他のデータ ユニットへのリンクに埋め込まれている他の情報システムにアクセスすることが できる。 ウエッブによってアクセス可能な情報は、HTMLのページとして準備されて いる。ドキュメント内では、単語および他の識別子のストリングを強調できる。 ユーザがドキュメントを見る一方で、単語および識別子の強調されたストリング を 選択し、マウスボタンを使用してそれをクリックすると、強調されたテキストは 他のドキュメントへのリンクを準備する。強調されたテキストをクリックすると 、システムはインターネット上で関連するドキュメントの呼出しをトリガし、ユ ーザのスクリーン上で見ることができるようになる。このようにして、ユーザが それまで見ていたドキュメントは置換される。 上述の出願中の特許明細書GB96/00132号で開示されたシステムは、ハイパー テキストリンクをクリックすることによってインターネット上で選択したページ に関するメタ情報を記憶するのに使用できる。システムは、キーワードの組を使 用することによって、メタ情報が記憶されている新しいドキュメントのユーザグ ループ内で他の関心をもっているユーザに変える。 Casperシステムでは、本発明の実施形態によると、あるページが選択されて、 例えばそのメタ情報を記憶するときに、このシステムは、インターネット上で得 られる他のドキュメントへのハイパーテキストリンクについてそのページを自動 的に調べる。ドキュメント内にこのようなリンクがあり、リンクされたドキュメ ントがローカルにまだ記憶されていないとき、Casperシステムは新しいページに ページ処理待ち行列に入力する。次にページからのリンクは、ページ収集ソフト ウエアユニットが使用可能になるとき、それへ割当てられる。各リンクにおいて リンクされたドキュメントは、今度はローカルの“ルックアヘッド”キャッシュ データメモリへ読み取られる。 これは、ユーザが関心をもっているページと明らかに関係しているページのロ ーカルメモリを一緒にする効果をもつ。ユーザがもともとアクセスしていたぺー ジを超えて先に進むことを決めるときは、ユーザはインターネット上のリンクを 呼ぶのではなく、ローカルデータのキャッシュから関係するページを簡単に得る ことができる。したがってユーザはより迅速に情報を検索し、インターネット上 のトラヒックを低減する。 図1を参照すると、本発明の実施形態を支援するハードウエア/ソフトウエア 環境は: i)プロキシサーバ(proxy server)105を介してインターネット110のよう なネットワークヘ接続されたWWWビューワ100と; ii)主キャッシュ120、“ルックアヘッド”キャッシュ125、および関係付け られたキャッシュ制御装置115と; iii)キャッシュ制御装置115と“ルックアヘッド”キャッシュ125との間に 接続され、インターネット110へ直接にアクセスする“ルックアヘッド”プロセ ッサ130とを含む。 Casperを支援する環境は一般的に周知の形式である。WWWビューワ100はプ ロキシサーバ105を介してインターネット110に関するブラウジング能力を準備す る。プロキシサーバ105は周知の形式のソフトウエアシステムであり、ユーザの ブラウザから情報の要求を傍受し、インターネット上で情報要求を情報源へ送る 前にそれらを処理する。主およびルックアヘッドキャッシュ120、125はWWWペ ージを記憶するローカルデータメモリであり、キャッシュ制御装置115はローカ ルデータメモリへのインターフェイスを準備し、キャッシュとの間でページを書 き込み、検索し、その内容をログする。 Casperが主として異なる領域は、第2のキャッシュ、すなわちルックアヘッド キャッシュ125の準備、およびルックアヘッドプロセッサ130の準備である。 キャッシングサーバを使用するやり方が知られており、キャッシュは一時的な メモリであり、そのとき例えばあるグループのユーザが最も最近アクセスしたペ ージを保持する。キャッシュがいっぱいになると、より新しいページが付加され るのに合わせて、ページが取り除かれる。Casperには、ユーザがアクセスしたペ ージを記憶する主キャッシュ120がある。しかしながら、ルックアヘッドキャッ シュ125もあり、ここではアクセスされなかったが、ユーザがアクセスしたぺー ジにリンクされているページを記憶する。このルックアヘッドキャッシュ125は 、ユーザが要求したページに埋め込まれたリンクを受取り、これらのリンクへペ ージをダウンロードすることによって満たされる。 したがってこれらのキャッシュ120,125はユーザがページを要求するときに使 用することになる。Casperは、プロキシサーバ105を使用して要求を傍受し、ペ ージが既に主キャッシュ120またはルックアヘッドキャッシュ125内にあるかに関 して最初に検査する。ページが既にキャッシュ120,125の一方の中に在るときは 、Casperはそのページをキャッシュから検索する。さもなければ(ページ がキャッシュになければ)、インターネット上の関連する情報源が最終的にコン タクトされて、ページは遠隔のサーバ135から得られなければならない。 図2を参照すると、上述に関するフローチャートは次の段階を含む: 段階300:Casperシステムのプロキシサーバ105は、遠隔のサーバ135のよ うなインターネット上の遠隔のサイトでユニバーサルリソースロケータ(URL )を含むユーザ要求300を受け取る。要求は代わりを幾つかもつものの1つに対 してでよい。例えば、ユーザはページを見ることを要求するか、または更新する ために関連する遠隔のサーバ135からページを再びロードすることを要求するか 、あるいはその両方を行なうことができる。その代りにユーザは、ダイナミック に走行し、キャッシングがそれには不適切なプログラムを呼ぶことができる。ペ ージが要求されると、キャッシュされたページのバージョンを受理できないこと 、したがってシステムがもとの遠隔のサーバ135からページを送らなければなら なるという指示を受け入れることができる。 段階305:要求の性質および関連する制約を判断するために、プロキシサ ーバ105はユーザ要求を調べる。ユーザ要求は、ユーザが選択したオプションの 制約、例えば、キャッシュされた形のファイルを受理できないことを意味する“ 再ロード”を含むことができるが、ユーザ要求が含むURLに関係して埋め込ま れた制約を含むこともできる。Casperは構成ファイルを準備しており、この構成 ファイルは: ・例えば、疑わしい内容を含むために非合法になるURLと、 ・例えば、頻繁に変化する内容がわかっているか、または関係するサーバが ローカルあるいは高速であるためにキャッシングが不適切であるという理 由で、自分自身がネットワークを再ロードさせるURLと、 とを特定することができる。 したがって次のような一連の検査を行なって、要求を調べる: ・URLは再ロードをさせるか? ・URLは許容された位置にあるか? ・ユーザは再ロードを特定したか? ・さもなければキャッシュしたバージョンを受理できないことをユーザが特 定したか? 結果に依存して、プロキシサーバは段階310または330へ進む。ユーザが “再ロード”をクリックするか、またはURLが“再ロード”させるとき、“キ ャッシュされたバージョンを受理できない”ときの通路(パス)をとり、段階3 10へ進む。URLが許容された位置にないとき、“アクセスが拒絶された”と いうメッセージがユーザに戻されて、さらに処理は行なわれなくなる。さもなけ れば、“キャッシュされたものが受理できる”ときの通路をとり、段階330へ 進む。 段階310:段階305において、キャッシュされたバージョンが受理でき ないことが分かったとき、プロキシサーバ105は関連する遠隔のサーバ135との接 続を開始する。図1を見て分かるように、プロキシサーバ105はインターネット1 10への直接的なインターフェイスをもつ。段階315では、プロキシサーバ105は要 求の課題が存在するか否かを検査する。ノーのときは、段階320および355で、プ ロキシサーバ105はメッセージを生成し、ユーザヘ適切に送る。 段階323:要求の課題が存在するとき、プロキシサーバ105はそれをキャ ッシュすべきか否かを検査する。要求の課題が存在し、それが、HTMLページ であるがキャッシングに適さないとすると、例えば、Casperの構成ファイルが強 制的な再ロードの位置としてURLを定めるときは、プロキシサーバは段階35 0、355へ進んで、ルックアヘッドプロセッサをトリガして、ページをユーザ のブラウザヘ送ることになる。要求の課題が存在し、それがHTMLページであ り、キャッシングが適していないときは、プロキシサーバ105は段階325へ進 んで、関係するページを主キャッシュ120へ書込む。次にプロキシサーバ105は上 述のように段階350、355へ進む。 キャッシングまたはルックアヘッド処理の何れもが実際に適さないことはよく あり、例えばダイナミックに走行するプログラムのときである。、この場合、プ ロキシサーバ105は上述のように段階350、355へ向かうことができ、ルッ クアヘッドプロセッサ130はプロセスへの埋め込まれたリンクを見つけないこと になる。他方で、ルックアヘッド処理が適しているか否かに関して、特別な検査 (図2には示されていない)を行なうことができる。ノーのときは、プロキシサー バ105は段階350、355を省いて、単にプログラムをユーザのブラウザ100へ 送ることができる。 段階330:段階305で、キャッシングが適していることが分かったとき 、すなわちユーザが再ロードを特定しなかったか、またはキャッシュされた形式 を受理できないとき、プロキシサーバ115はキャッシュ制御装置115を介して要求 の課題、すなわち通常はウエッブページが主キャッシュ120内にあるか否かに関 する検査を行なう。イエスのときは、プロキシサーバは段階345へ進む準備が 完了する。 要求されたウエッブページが主キャッシュ120内に存在しないときは、プロキ シサーバ105はキャッシュ制御装置115を介して、要求されたウエッブページがル ックアヘッドキャッシュ125内に既に存在しているか否かの検査を行なう。イエ スのときは、プロキシサーバ105は段階340へ進み、このページを主キャッシ ュ120へ転送し、段階340へ進む準備ができる。 要求されたウエッブページがルックアヘッドキャッシュ125内にないとき、プ ロキシサーバ105は段階310へ進み、段階310に関して既に記載したプロセ スにしたがう。 段階345:プロキシサーバは主キャッシュ120から要求されたページをフ ェッチして(取ってきて)、段階350へ進み、ルックアヘッドプロセッサ130を トリガする。プロセッサをトリガした後で、プロキシサーバ105は段階355へ 進み、Casperページラッパーを要求されたページに付加して、ユーザのブラウザ 100へ送る。 一方で、以下でさらに記載するように、ルックアヘッドプロセッサ130は要求 されたページを調べて、埋め込まれたリンクを識別し、ルックアヘッドキャッシ ュ125へ埋め込まれたリンクによって識別されたページにアクセスし、ダウンロ ードする。 図3を参照すると、ルックアヘッドプロセッサ130は、ユニックスマシンで走 行するソフトウエアプロセスおよびメモリを含む。それは3つの非同期プロセッ サ、すなわちページプロセッサ255、スロットプロセッサ260、およびシェルフプ ロセッサ265を含む。 ページプロセッサ255は、例えば処理されるページのURLを含むメッセージ を受取るメッセージ入力200、URLの内容を検索し、十分に詳しくパースし、 埋め込まれた全てのHTMLリンクを識別するHTMLパーサ205、識別された リンクの何れを“(プリフェッチ)予め取出す”必要があるかを判断するリンク評 価装置210、および処理要求がメッセージ入力200へ到来するときに処理するペー ジデータを記憶するページ待ち行列215をもつ。パーサ205およびリンク評価装置 210は両方とも、主キャッシュ120へアクセスし、リンク評価装置210はルックア ヘッドキャッシュ125へアクセスする。タイマ235はページ待ち行列215と関係付 けられ、処理を待つ時間が長すぎたリンクを“無視する”とき、マークを付す。 これによりページ待ち行列の長さを適切にする仕組みを提供する。 スロットプロセッサ260は全体的な目的として、ページ待ち行列215内のぺージ データを可能な限り迅速に処理する。この目的のために、スロットプロセッサ26 0は複数の収集スロット225によって、多数のユニックスサブプロセスを並行して 走行する能力をもつ。スロットプロセッサ260はスロットフィラ(充填器)220を 準備してスロット225の状態を監視し、ページ待ち行列215から使用されていない スロットを分布する試みを行なう。使用されていないスロットが新しく満たされ るたびに、接続プロセッサ230はユニックスサブプロセスとして実行を開始(flre off)されて、埋め込まれたリンク内のURLによって示されたサーバへの接続 を試みようとする。接続が成功すると、読み取りプロセッサ240はサーバから関 連するページを読み取り、それをキャッシュ制御装置115の一部であるキャッシ ュライタ245へ送り、このデータをルックアヘッドキャッシュ125に書きこみ、シ ェルフプロセッサ265へ知らせる。接続および読み取りプロセッサ230,240の両方 はタイミング手段235を準備して、収集スロットが非効率に関係するのを避ける 。 シェルフプロセッサ265は、1時間長の後にファイルを取り除くことによって ルックアヘッドキャッシュ125の大きさを制限する。シェルフプロセッサ265は、 “タイムアウトシェルフ”と呼ばれるデータメモリ250内の時間スロットにファ イル識別子を入力することによってルックアヘッドキャッシュ125へ送られたフ ァイルリストを維持する。シェルフプロセッサ265はクロック235を準備して、デ ータメモリ全体で時間スロットを効果的にシフトし、各時間スロットはデータ メモリの端部に到達すると、ルックアヘッドキャッシュ125から関係付けられた 全てのファイルの検出をトリガする。 ページ待ち行列の最大の許容可能な長さおよび収集スロット数は、動作条件を 満たすために構成可能であることを意図したものである。次にルックアヘッドプ ロセッサ130を必要な大きさにするための考察を以下に記載する。 ページ待ち行列の長さに関して、ページ待ち行列の長さを任意に長くしてもソ フトウエアに関して重大な不利はない。しかしながらその長さを短縮することは 、システムの性能をある程度管理することになる。ページに待ち行列の最後を落 とさせるということの背景にある理由は、待ち行列の最後に行ってしまったペー ジが完全に処理されてなくても、ユーザはそのときまでに関心を失うことが多い からである。したがってそれらのページをさらに処理する意味はない。 したがって可能な最初の方法は、短いページ待ち行列で開始して、それがまれ にオーバフローするときだけは、それまでにその長さを増加することである。し かしながら、長過ぎる時間、例えば1分以上にわたって、ページが待ち行列上に 残っているとき、これは待ち行列を低減すべきであるという指示である。その代 りに、収集スロット数を増加すべきこともある;これを次に記載する。 “シェルフ(棚)”の長さ、すなわちルックアヘッドキャッシュ内でのページの 許容される寿命に依存して、ルックアヘッドキャッシュの動作に2つの異なるモ ードがあるために、事態は幾分複雑である。 ルックアヘッドキャッシングの唯一の目的が、即時のブラウジング期間中にユ ーザに一層迅速に応答することであるときは、数分間以上の間キャッシュ内にペ ージを保持する意味はない。ページがルックアヘッドキャッシュ内にもっと著し く長い間、例えば数日間、保持されるときは、キャッシュがページに対する第2 の要求を満たすことができるようになる可能性が生じる。たとえ、数分間かかっ てしまっても、ページをプリフェッチすることは価値があるので、このやり方で ルックアヘッドキャッシュを動作することによって、より長い待ち行列をもつ方 を選んで待ち行列の長さを判断することに関する上述の記載を変更することにな る。 収集スロットの数に関して、最も簡単なレベルではスロットが多いほどよい。 常に使用されていない収集スロットがあるとき、最低の遅延でページをフェッチ することができる。 実際には、ユニックスマシンは許可されたサブプロセス数を制限する。誰もほ とんどCPU(中央処理ユニット)またはメモリ資源を使用していないので、こ の制限範囲内で多数の、例えば20以上のサブプロセスを走行できる。ほとんど のサブプロセスの“寿命”は、単にデータが使用可能になるのを待つために費や される。 ルックアヘッドロードがあるときは、2以上の装置が処理可能であり、もちろ ん多数の装置が使用できる。 多数のサブプロセスの代わりは、ルックアヘッドプロセッサ内を走行する多数 のスレッドをもつことになる。この方法は、要求されるオペレーティングシステ ムのオーバーヘッドはより少なく、より効率的に動作する可能性が高いが、メン テナンスを一層困難にすることになる。ルックアヘッドプロセッサは、個々に保 守できる部品としてではなく、1つのプログラム内に全て構成されることになる 。さらにルックアヘッドプロセッサの信頼性は妥協できるものとなる:複数のサ ブプロセス構成はサブプロセスのいくつかの中での故障を許容し、このような故 障はルックアヘッドプロセッサそれ自身に影響を与えず、ルックアヘッドプロセ ッサは結局は信頼性と連続性をもって走行することになる。 図4を参照すると、“ルックアヘッドプロセッサ”の基本的な動作全体のフロ ーチャートが示されており、次に記載する: 段階400:プロキシサーバ105はその主キャッシュまたはインターネットのか らユーザへページを供給し、ルックアヘッドプロセッサ130に命令して、関連す るページのURLを含むプロセッサへメッセージを送ることによってページを処 理する。 段階405:ルックアヘッドプロセッサ130は主キャッシュ120からURLの内容 を得て、ページの内容をパースして、他のページへのリンクを判断する。(すな わち、ルックアヘッドプロセッサ130はページのHTMLを解釈して、リンクさ れたページに関する情報を抽出する。これにはもちろんHTML構文についての プログラムされた知識(programmed-in knowledge)が必要である。) 段階410:子の判断された子リンク(child link)の存在を主キャッシュ120お よびルックアヘッドキャッシュ125に対してテストする。 段階415:子リンクがまだキャッシュされていないときは、ページまたは子ぺ ージはまだ処理されておらず、ページの子リストに付加される。 段階420:処理されるページが検索する必要のある子リンクをもつと判断され たときは、ページは処理する待ち行列の見出しに付加される。ページ処理待ち行 列215内での各エントリはそれをページのURLと関係付けており、また、各子 リンクに対しては、リンクURLとリンク状態とを関係付けている。このリンク 状態は、リンク評価装置210によって拒絶されるときは“無視された”ものから 、また完全に処理されたときは“完了した”ものから、時間切れのときは“中止 した”ものから、あるいは現在処理中のときはスロット番号から選択される。 段階425:ページ処理待ち行列215が長くなりすぎたとき、すなわち処理のボ トルネックを示すときは、待ち行列内の最後のページは取り除かれ、子供に関係 つけられた未解決の収集は中止される。 段階430:新しいページの各子供、およびページ待ち行列における他のページ のまだ処理されていない子供を、動作していないページ収集スロットへ割当てる ことによって、それらを処理する試みが行われる。スロットフィルタ220は収集 スロット225の状態を観察し、各収集スロット225には“空いている”、“接続さ れている”、または“読取りしている”があり、空いているスロット中の場所を ページの待ち行列215埋めていくが、先ずは最近付加したページ内の第1の処理 されていないリンクから始める。 段階435:新しく満たされたページ収集スロットを活性化し、上述のように“ 接続プロセッサ”230をユニックスサブプロセスのように放出する。 段階440:接続を試みるのに費やした時間が長すぎるか、または他の理由のた めに故障したページ収集スロットが解放されて、不活性のマークを付されると、 スロットフィルタ220に知らされる。 段階445:サーバ135への接続が成功したページ収集スロットは、“接続状態 ”から“読取り状態”に更新される。読取りは読取りプロセッサ240によって、 接続段階と同じユニックスサブプロセッサ240を使用して達成される。スロット プロセッサ130はネットワークから関連する子リンクのデータを読取り、それを キ ャッシュ制御装置115内のキャッシュライタへ送る。キャッシュライタはルック アヘッドキャッシュ125にデータを書込み、シェルフプロセッサ265へ知らせる。 段階450:サーバから読取る試みに長過ぎる時間を費やしたページ収集スロッ ト225は放出され、不活性のマークを付され、再び接続段階のときのようにスロ ットフィルタ220へ知らせる。 段階455:ページがルックアヘッドキャッシュ内で長過ぎる時間を費やすと、 望ましくないとみなされ、キャッシュから取り除かれる。ユーザがアクセスした ファイルは予め取り出した後で個別のキャッシュ制御装置の検査によって主キャ ッシュ120へ転送されることになるので、これは有用である。古いファイルを規 則的に走査し、ページを取り除くことによって、ルックアヘッドキャッシュ125 を最も簡単に整えることができるが、この方法では計算に著しい時間がかかり、 ディスクアクセス量が高くなる。したがって、上述のようにシェルフプロセッサ 265を使用することが好ましい。 上述の処理段階は、記載した順番である必要はないが、不確定に反復する。明 らかに、とくに段階440,445,450,および455はプロセスの残りに関係して適切で あることが分かっている頻度で実行でき、これらの段階は破線の輸郭で示され、 ルックアヘッドプロセッサ130に命令してページを処理する度ごとに実行する必 要はない。 図5を参照すると、システムの実時間の図が示されている。この例では、待ち 行列215には4ページあり、10の個別の収集スロット505がある。新しいぺージ (ページ1)がちょうど到達し、ページ4の子供の処理がちょうど完了したために いくつかの収集スロット505がちょうど空いたと仮定すると、収集スロット505の いくつかを割当てる必要がある。ページ2は処理中の子供を2つもつ。他の2つ の子供は処理の準備はできているが、新しいページ1が到達すると、他の2つに 作用することができる。ページ3は4つの子供の処理をもち、1つを接続すると 、3つは既に接続されており、既に読取られている。ページ4は完了し、全ての その子供は、それらが緩慢過ぎたために、読取られるかまたは打ち切られる。 ここでルックアヘッドプロセッサ130は、新しく到達したページ1の子供にス ロット2,6,および7を、ページ2にスロット8を割当てる。ページ4には未 解決の動作がないので、待ち行列から取り除かれる。 図6を参照すると、再割り当ての結果を見ることができる。 図7を参照すると、段階345、350において本発明の図2とわずかに異な る形が示されており、ページが主キャッシュ中で既に発見されているときにシス テムはルックアヘッドプロセッサ130を迂回することが好ましいと考えられる。 主キャッシュ120にロードする前に全てのページがルックアヘッドプロセッサに よって既に処理されていることが好ましい。 上述の変形例の結果として、図7に示されているように、システムはルックア ヘッドキャッシュ125から主キャッシュ120へページを転送した後、段階350で 、ルックアヘッドプロセッサ130をトリガするように直接的に進んでよい。この 場合、ページを主キャッシュに転送するのと同時に、システムはさらにページを ルックアヘッドプロセッサ130へも供給することになる。 本発明の実施形態は目的指向の方法で設計することができる。例えば、最も高 いレベルでは、3つのプロセッサ、ページ、スロット、およびシェルフプロセッ サをオブジェクトとしてみなすことができる。それぞれは独立したエンティティ であり、直接的なデータアクセスまたは変更によってではなく、メッセージを介 して他のオブジェクトと通信することができる。より低いレベルでは、ページ待 ち行列の要素および収集スロットは、オブジェクトのような特徴をもち:それぞ れ基本形の例(ページ待ち行列の要素または収集スロット)であり、それぞれが 関係付けられたデータおよび状態をもつ。 上述のように、Casperは選択したページにリンクされた全てのページにアクセ スする。上述に記載した出願中の特許出願GB96/00132号に記載した原理を使用 し、例えば関心および前後関係に基づいてユーザプロフィールにしたがってアク セスしたページを選択することができる。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG),EA(AM,AZ,BY,KG,KZ ,MD,RU,TJ,TM),AL,AM,AT,AU ,AZ,BA,BB,BG,BR,BY,CA,CH, CN,CU,CZ,DE,DK,EE,ES,FI,G B,GE,GH,HU,IL,IS,JP,KE,KG ,KP,KR,KZ,LC,LK,LR,LS,LT, LU,LV,MD,MG,MK,MN,MW,MX,N O,NZ,PL,PT,RO,RU,SD,SE,SG ,SI,SK,TJ,TM,TR,TT,UA,UG, US,UZ,VN,YU (72)発明者 スティーブンス、リー・マイケル イギリス国、アイピー4・5キューティ ー、サフォーク、イプスウィッチ、ラッシ ュメア、セント・アンドリュー、ホーリ ー・ドライブ 22 (72)発明者 デイビース、ニコラス・ジョン イギリス国、シーオー4・4エスエック ス、エセックス、コルチェスター、スプリ ンドル・ウッド 10 (72)発明者 リベット、マイク・チャールズ イギリス国、アイピー12・4ディーエル、 サフォーク、ウッドブリッジ、ブルームヒ ース、キングストン・ライズ(番地なし) (72)発明者 フラビン、フィル・グラーメ イギリス国、アイピー11・9ティービー、 サフォーク、フェリックストウ、ウエスト モーランド・ロード 8

Claims (1)

  1. 【特許請求の範囲】 1.通信ネットワークによってアクセス可能な情報にアクセスするための情報ア クセスシステムであり: a)情報項目をネットワークからローカルメモリにダウンロードする手段と ; b)情報項目を処理して、埋込まれたリンクを、ネットワーク上でアクセス 可能な他の情報項目に配置する情報プロセッサとを含み; 前記情報プロセッサが: i)このような埋め込まれたリンクをもつ情報項目を待ち行列に入れる待ち 行列構成と; ii)1組の同時に起動できる情報収集ユニットとを含み; 該プロセッサは最初に使用の際に情報項目を処理して、その中に埋め込まれた リンクを識別するようにし、リンクによってダウンロードする情報を識別し、次 に識別されたリンクを各使用可能な収集ユニットへ割当てる、次に各収集ユニッ トが割当てられたリンクによって識別される情報項目をネットワークからローカ ルメモリへダウンロードするように動作する情報アクセスシステム。 2.情報項目に関する要求用の入力をさらに含む請求項1記載の情報アクセスシ ステム。 3.ローカルメモリが少なくとも2つのキャッシュデータメモリ、すなわち収集 ユニットが識別された情報項目をダウンロードする第1のキャッシュデータメモ リ、および入力で受取った要求において識別された情報項目を記憶する第2のキ ャッシュデータメモリを含む請求項2記載の情報アクセスシステム。 4.情報項目を識別する要求に応答して、第1のキャッシュデータメモリから第 2のキャッシュデータメモリへ情報項目を転送する手段をさらに含む請求項3記 載の情報アクセスシステム。 5.各要求は少なくとも1つの位置インジケータを含み、それによってネットワ ーク内の関連ずる情報項目の位置を示し、前記アクセスシステムが関係する位置 インジケータを制約データと一緒に記憶するレジスタを含み、該システムがレジ スタにアクセスすることによって入力において要求に応答し、要求に含まれる位 置インジケータに関係して記憶された制約データを得る請求項2乃至4の何れか 1項記載の情報アクセスシステム。 6.待ち行列構成から情報項目を削除する待ち行列長さ制御手段をさらに含む請 求項1乃至5の何れか1項記載の情報アクセスシステム。 7.待ち行列長さ制御手段が、最大時間長の間待ち行列構成内に存在していた情 報項目を削除する請求項6記載の情報アクセスシステム。 8.収集ユニットが使用可能になったときを検出し、情報項目内に位置するリン クを待ち行列構成から収集ユニットへ転送する収集ユニット監視手段を含む請求 項1乃至7の何れか1項記載の情報アクセスシステム。 9.収集ユニット監視手段が、優先順に情報項目内に位置するリンクを転送し、 情報項目が待ち行列構成内に存在していた関係する時間長によって優先順位を判 断する請求項8記載の情報アクセスシステム。 10.最小時間長の間待ち行列構成内に存在していた情報項目内に位置するリン クに最高の優先順位を与える請求項9記載の情報アクセスシステム。 11.待ち行列構成が、各情報項目に対して: a)項目用の識別子と; b)項目内に埋め込まれた1または複数のリンクの識別子とを記憶することによ って、情報項目を待ち行列に入れるように構成されている請求項1乃至10の何 れか1項記載の情報アクセスシステム。 12.待ち行列構成が、収集ユニットによってリンクのダウンロード状態に関係 して、各リンク識別子の状態情報を記憶するようにさらに構成されている請求項 11記載の情報。 13.通信ネットワークによってアクセス可能な情報項目を記憶する方法であり : i)情報項目を処理して、1または複数のリンクをその中に埋め込まれた他の情 報項目へ配置する段階と; ii)前記ネットワークによって前記1または複数の他の情報項目をローカルデー タメモリへダウンロードする段階とを含む方法。 14.前記処理段階が、それぞれ情報項目の識別子およびダウンロードされる各 埋め込まれたリンクに対する識別子に関して記憶することによって情報項目を待 ち行列に入れることを含む請求項13記載の方法。 15.前記処理段階が、情報項目の待ち行列において識別される埋め込まれたリ ンクを各収集ユニットに割当てることと、収集ユニットによって情報項目を割当 てられたリンクへダウンロードすることとをさらに含む請求項13または14記載の 方法。 16.処理段階がさらに、埋込まれたリンクの各識別子に関係する状態情報であ り、収集ユニットによってダウンロードすることに関係する状熊を示す状熊情報 を記憶する請求項14または15記載の方法。
JP09541791A 1996-05-20 1997-05-20 キャッシュデータベースにおける情報検索 Pending JP2000510978A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GBGB9610505.1A GB9610505D0 (en) 1996-05-20 1996-05-20 Information retrieval in cache database
EP96303645.4 1996-05-22
EP9610505.1 1996-05-22
EP96303645 1996-05-22
PCT/GB1997/001363 WO1997044747A1 (en) 1996-05-20 1997-05-20 Information retrieval in cache database

Publications (2)

Publication Number Publication Date
JP2000510978A true JP2000510978A (ja) 2000-08-22
JP2000510978A5 JP2000510978A5 (ja) 2005-01-13

Family

ID=26143719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09541791A Pending JP2000510978A (ja) 1996-05-20 1997-05-20 キャッシュデータベースにおける情報検索

Country Status (6)

Country Link
EP (1) EP0898754B1 (ja)
JP (1) JP2000510978A (ja)
AU (1) AU2906297A (ja)
CA (1) CA2253829C (ja)
DE (1) DE69723432T2 (ja)
WO (1) WO1997044747A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000224120A (ja) * 1998-11-10 2000-08-11 Lg Electronics Inc 放送環境内で資源を位置するための方法及びシステム
US8417724B2 (en) 2010-05-12 2013-04-09 International Business Machines Corporation File server for extracting and displaying file list on client, method of providing display on client, and computer program executable on file server

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125125A (ja) * 1997-07-08 1999-01-29 Canon Inc ネットワーク情報探索装置、ネットワーク情報探索方法および記憶媒体
TW405083B (en) * 1997-11-06 2000-09-11 Ibm Asynchronous printing of WEB documents
US6032162A (en) * 1998-01-08 2000-02-29 Burke; Alexander James System for processing and storing internet bookmark address links
US20020002039A1 (en) 1998-06-12 2002-01-03 Safi Qureshey Network-enabled audio device
US6591288B1 (en) 1998-05-19 2003-07-08 Nortel Networks Limited Data network accelerated access system
FR2779594A1 (fr) * 1998-06-08 1999-12-03 Pascal Jean Michel Derycke Procede d'optimisation de la vitesse de consultation d'un site web
JP3789244B2 (ja) * 1998-07-28 2006-06-21 富士通株式会社 ハイパーテキスト表示装置およびハイパーテキスト表示システム
KR20000011320A (ko) * 1998-07-29 2000-02-25 야스카와 히데아키 웹페이지선택및프린팅방법및장치
SE514376C2 (sv) * 1998-09-24 2001-02-19 Mirror Image Internet Inc Ett internet-cachningssystem samt ett förfarande och anordning i ett sådant system
JP2000285006A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 情報取得制御装置及び情報取得制御方法
GB2339516B (en) * 1999-04-06 2000-07-05 Iesearch Limited An inter-computer communications apparatus
US6760760B1 (en) 1999-06-09 2004-07-06 Amx Corporation Control system communication server for transmitting files via multiple communication paths
US6510458B1 (en) 1999-07-15 2003-01-21 International Business Machines Corporation Blocking saves to web browser cache based on content rating
JP3534027B2 (ja) 1999-12-01 2004-06-07 日本電気株式会社 コンテンツ提供装置及びプログラムを記録した機械読み取り可能な記録媒体
WO2001043399A1 (en) * 1999-12-10 2001-06-14 Sun Microsystems, Inc. Maintaining cache consistency for dynamic web content
GB2364483A (en) * 2000-06-30 2002-01-23 Nokia Oy Ab Accessing more than one item of information from a remote server
US6832239B1 (en) 2000-07-07 2004-12-14 International Business Machines Corporation Systems for managing network resources
WO2002045353A1 (es) * 2000-11-30 2002-06-06 Inalambrica.Net Costa Rica Sociedad Anonima Sistema integrado de recepcion y distribucion de datos a alta velocidad
CA2384259A1 (en) 2002-04-29 2003-10-29 Ibm Canada Limited-Ibm Canada Limitee Access concurrency for cached authorization information in relational database systems
US8028038B2 (en) 2004-05-05 2011-09-27 Dryden Enterprises, Llc Obtaining a playlist based on user profile matching
US8028323B2 (en) 2004-05-05 2011-09-27 Dryden Enterprises, Llc Method and system for employing a first device to direct a networked audio device to obtain a media item
US9063739B2 (en) 2005-09-07 2015-06-23 Open Invention Network, Llc Method and computer program for device configuration
US10981051B2 (en) 2017-12-19 2021-04-20 Activision Publishing, Inc. Synchronized, fully programmable game controllers

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5485609A (en) * 1994-05-20 1996-01-16 Brown University Research Foundation Online background predictors and prefetchers for locality management

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000224120A (ja) * 1998-11-10 2000-08-11 Lg Electronics Inc 放送環境内で資源を位置するための方法及びシステム
JP2009219154A (ja) * 1998-11-10 2009-09-24 Lg Electronics Inc 放送環境内で資源を配置するための方法及びシステム
US8417724B2 (en) 2010-05-12 2013-04-09 International Business Machines Corporation File server for extracting and displaying file list on client, method of providing display on client, and computer program executable on file server
US9031989B2 (en) 2010-05-12 2015-05-12 International Business Machines Corporation File server for extracting and displaying file list on client, method of providing display on client, and computer program executable on file server

Also Published As

Publication number Publication date
EP0898754B1 (en) 2003-07-09
EP0898754A1 (en) 1999-03-03
DE69723432D1 (de) 2003-08-14
DE69723432T2 (de) 2004-04-15
AU2906297A (en) 1997-12-09
CA2253829C (en) 2002-07-23
CA2253829A1 (en) 1997-11-27
WO1997044747A1 (en) 1997-11-27

Similar Documents

Publication Publication Date Title
JP2000510978A (ja) キャッシュデータベースにおける情報検索
JP3935586B2 (ja) html中で指定されたリンクに対応するウェブ・ページの事前ロード装置および方法
US8103746B2 (en) Method and system for distributing requests for content
US6182111B1 (en) Method and system for managing distributed data
US8065673B2 (en) Update checking and synchronization for link and offline data
US6192398B1 (en) Remote/shared browser cache
US8972998B2 (en) Processing annotation requests using multithreaded constituent task and independent input/output tasks
US6029175A (en) Automatic retrieval of changed files by a network software agent
US5974460A (en) Apparatus and method for selecting an optimum telecommunications link
US7047485B1 (en) Intelligent pre-caching on a network
US6105028A (en) Method and apparatus for accessing copies of documents using a web browser request interceptor
RU2453911C2 (ru) Автономное выполнение веб-приложений
JP3561139B2 (ja) ファイルオブジェクト中継方法、ファイルオブジェクト中継方法のプログラムを記録したコンピュータで読取り可能な記録媒体、およびゲートウェイ計算機
RU2373567C2 (ru) Общая модель зависимости для аннулирования элементов кэша
US20020116582A1 (en) Batching of invalidations and new values in a web cache with dynamic content
US20110035553A1 (en) Method and system for cache management
US20030225796A1 (en) Method and apparatus for peer-to-peer file sharing
US20040073630A1 (en) Integrated JSP and command cache for web applications with dynamic content
WO2002029548A9 (en) Http transaction monitor with capacity to replay in debugging session
TW200935245A (en) System and method for providing visibility for dynamic webpages
WO2002029571A2 (en) Http transaction monitor with edit and replay capacity
KR20050001422A (ko) 캐시 엔트리를 무효화시키는 데 사용될 수 있는데이터베이스 테이블 변경 정보의 등록 및 검색
JP2002540492A (ja) ウェブサーバコンテンツ複製
US6883020B1 (en) Apparatus and method for filtering downloaded network sites
US20020111992A1 (en) JSP composition in a cache for web applications with dynamic content

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040520

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070521

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080318