JP4795258B2 - Webページ再収集方式 - Google Patents

Webページ再収集方式 Download PDF

Info

Publication number
JP4795258B2
JP4795258B2 JP2007018012A JP2007018012A JP4795258B2 JP 4795258 B2 JP4795258 B2 JP 4795258B2 JP 2007018012 A JP2007018012 A JP 2007018012A JP 2007018012 A JP2007018012 A JP 2007018012A JP 4795258 B2 JP4795258 B2 JP 4795258B2
Authority
JP
Japan
Prior art keywords
web page
web server
web
access
recollection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007018012A
Other languages
English (en)
Other versions
JP2008186157A (ja
Inventor
孝之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007018012A priority Critical patent/JP4795258B2/ja
Publication of JP2008186157A publication Critical patent/JP2008186157A/ja
Application granted granted Critical
Publication of JP4795258B2 publication Critical patent/JP4795258B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Description

本発明は、Web検索サービスにおいて、個々のWebサーバに及ぼすアクセス負荷を軽減するWebページ再収集方式に関する。
Web検索サービスにおいては、クローラプログラムにより、ある時点でのWebの状態を網羅的に収集し、記載内容の断片からWebページの名前(URI:Uniform Resource Identifier)を検索するための索引を生成する従来技術がある。
一括型と呼ばれる通常のクローラは、最初に与えたいくつかのURIを起点とし、収集したWebページに含まれるハイパーリンクが指すWebページを再帰的に収集していく。このため、Webの広い範囲を網羅するには、例えば、1ヶ月というような時間を要する。そこで、時々刻々と変化するWebの状態を、より忠実に捉えるためのインクリメンタルクローラが開発されている。
インクリメンタルクローラは、一度収集したWebページを適当な期間を置いて、再度収集する。このインクリメンタルクローラは、Webページ毎に独立したタイミングで収集を行う。このため、Web全体を網羅するのを待つことなく、一部のWebページの収集を繰り返すことができる。
再収集までの期間は、当該Webページの過去の更新傾向等に基づき、次の更新時期を予測することで決定される。例えば、Webページの変更回数、変更の規模、WebページのURIや内容などの特徴に基づいて、当該Webページが最終アクセス後に更新されている確率を求め、クローリングの優先順位であるスコアに反映する方法がある(例えば、特許文献1参照)。
特開2005−228343号公報
しかしながら、従来技術には次のような課題がある。
クローラは、他者が運用するWebサーバに対してアクセスを繰り返すため、Webサーバ本来の目的である一般利用者への情報提供を妨げないよう、十分な間隔を空けてアクセスするなどの配慮が必要である。こうしたWebサーバアクセス間隔への配慮は、インクリメンタルクローラにおけるWebページ再収集のスケジューリングとは相容れず、Webページ収集時期やWebページ収集範囲が不適切なものになってしまう可能性がある。
特許文献1に記載されている従来技術では、クローラが動作するコンピュータおよび通信回線の性能で定まるクローリング容量に基づいて、収集Webページ数を決定する処理ステップが開示されている。しかしながら、この処理は、以下の2点の問題点を有している。
第1の問題点は、クローラには、高速な通信回線を接続するのが一般的であり、クローラの容量以下であっても、個々のWebサーバに対しては、過大な負荷をかけてしまう可能性があることである。また、アクセス間隔への配慮の結果生じるWebサーバへの負荷の上限値は、物理的な回線容量よりも大幅に小さいのが普通である。
第2の問題点は、クローリング容量のあふれがWebページの再収集時期に及ぼす影響を考慮しておらず、あふれが発生していない場合に対して収集時期がどのくらい遅延するか、あるいは全く収集できなくなるWebページがどのくらい発生するかなどを把握しないまま動作するという点である。
本発明は上述のような課題を解決するためになされたもので、個々のWebサーバに及ぼすアクセス負荷を抑えつつ、収集Webページの網羅性・収集頻度の制御を可能にするWebページ再収集方式を得ることを目的とする。
本発明に係るWebページ再収集方式は、Webサーバから前回ダウンロードしたWebページの内容またはWebページのハッシュ値を前回内容情報として記憶部に記憶させ、当該Webページを再度ダウンロードした際のWebページの内容情報と、記憶部に記憶された前回内容情報とを比較して当該Webページの更新の有無を検知し、ダウンロード時刻と更新の有無を対応付けたデータを履歴データとしてダウンロードを行うごとに記憶部にさらに記憶させ、履歴データに基づいて当該Webページが次に更新されると期待される時刻を次回ダウンロード時刻として設定して記憶部に記憶させるWebページ再アクセススケジューリング手段と、同一Webサーバに属する複数のWebページについて、Webページ再アクセススケジューリング手段の有する記憶部に記憶された前回ダウンロード時刻と次回ダウンロード時刻との差分から求まるそれぞれのアクセス間隔を用いて、当該Webサーバに及ぼすアクセス負荷指標を計算し、アクセス負荷指標が所定許容値を超えない場合にアクセス負荷指標に基づいて当該Webサーバに対するアクセス間隔を設定するWebサーバアクセススケジューリング手段とを備えるものである。
本発明によれば、同一Webサーバに含まれるWebページのアクセス間隔を考慮して求めたWebサーバ毎のアクセス負荷指標に基づいて、それぞれのWebサーバに対する最適なアクセスタイミングを設定することより、個々のWebサーバに及ぼすアクセス負荷を抑えつつ、収集Webページの網羅性・収集頻度の制御を可能にするWebページ再収集方式を得ることができる。
以下、本発明のWebページ再収集方式の好適な実施の形態につき図面を用いて説明する。
実施の形態1.
図1は、本発明の実施の形態1におけるWebページ再収集方式の構成図である。本実施の形態1におけるWebページ再収集方式は、Webサーバ状態記憶手段1、Webページ状態記憶手段2、Webページ内容記憶手段3、ディスパッチ手段4、Webページダウンロード手段5、Webページ再アクセススケジューリング手段6、Webサーバアクセススケジューリング手段7、およびハイパーリンク抽出手段8で構成される。
ここで、Webサーバ状態記憶手段1、Webページ状態記憶手段2、およびWebページ内容記憶手段3は、記憶部に相当する。また、このような構成を有するWebページ再収集方式は、図1に示したように、インターネット9に接続された複数のWebサーバ10a〜10cから、所望のWebページをダウンロードできる構成となっている。
まず始めに、個々の構成要素の機能について説明する。
Webサーバ状態記憶手段1は、Webサーバ状態テーブルを記憶する記憶部である。図2は、本発明の実施の形態1におけるWebサーバ状態記憶手段1に記憶されるWebサーバ状態テーブル11の形式を示す図である。
Webサーバ状態テーブル11は、Webサーバ毎にWebサーバ名12、Webサーバ状態13、ダウンロード開始時刻14、およびWebサーバ負荷指標15を含むデータ構造を有し、Webサーバ状態記憶手段1に記憶されている。
Webサーバ名は、図1におけるWebサーバ10a〜10cに相当する名称である。次に、Webサーバ状態13は、「休止」、「ダウンロード待ち」、および「ダウンロード中」の3つの状態のいずれかを取る。「休止」は、当該Webサーバに対応する収集対象Webページがない状態を示している。
また、「ダウンロード待ち」は、収集対象Webページは存在するが、Webページダウンロード手段5、Webページ再アクセススケジューリング手段6、Webサーバアクセススケジューリング手段7がいずれも起動されていない状態を示している。
さらに、「ダウンロード中」は、収集対象Webページに対して、Webページダウンロード手段5、Webページ再アクセススケジューリング手段6、Webサーバアクセススケジューリング手段7のいずれかが起動されている状態を示している。
また、Webサーバ状態13は、通常、「ダウンロード待ち」と「ダウンロード中」の2つの状態間を遷移する。しかしながら、Webページが消失してダウンロードが失敗するようになるなどしたことにより収集対象から除外され、収集対象のWebページがなくなると、「休止」状態に遷移する。「休止」状態のWebサーバや未知のWebサーバに属するWebページへのハイパーリンクが発見されると、当該Webサーバの状態は、「ダウンロード待ち」となる。
また、ダウンロード開始時刻14は、Webサーバ状態13が「ダウンロード待ち」であるWebサーバについてのみ意味を持ち、現在時刻よりダウンロード開始時刻14が前の時刻を示していれば、当該Webサーバは、「ダウンロード中」に遷移する候補となる。
このダウンロード開始時刻14は、現在時刻との比較が可能であれば、必ずしも実世界の日時と対応している必要はなく、コンピュータのタイマ割り込みによるティック値などを用いることもできる。また、精度は、秒またはそれ以下であることが望ましい。
また、Webサーバ負荷指標15は、浮動小数点数であり、時間の逆数の次元(1/秒=Hz)を持つ。このような負荷指標に関しては、詳細を後述する。
次に、Webページ状態記憶手段2は、Webページ状態テーブルを記憶する記憶部である。図3は、本発明の実施の形態1におけるWebページ状態記憶手段2に記憶されるWebページ状態テーブル21の形式を示す図である。
Webページ状態テーブル21は、Webページ毎にURI22、次回アクセス時刻23、アクセス回数24、最終ハッシュ値25、最終アクセス時刻26、最終アクセス状態27、および第2アクセス時刻28(2)、第2アクセス状態29(2)〜第Nアクセス時刻28(N)、第Nアクセス状態29(N)までのN−1個のアクセス時刻とアクセス状態の対からなる履歴データのそれぞれを含むデータ構造を有し、Webページ状態記憶手段2に記憶されている。
URI22は、それぞれのWebページの名前に相当する。また、次回アクセス時刻23は、対応するWebページを次回アクセスする時刻であり、後述するWebページ再アクセススケジューリング手段6により計算され書き込まれる値である。また、アクセス回数24は、対応するWebページを現時点までにアクセスした回数を示しており、Webページ再アクセススケジューリング手段6により書き込まれる値である。
また、最終ハッシュ値25は、前回ダウンロードしたWebページの内容にハッシュ関数を適用して得られる固定長のビット列を表す。ここで用いるハッシュ関数としては、公知のMD5(128ビット)やSHA256(256ビット)などが挙げられる。
これらのハッシュ関数は、異なるWebページ内容に対して高い確率で異なるハッシュ値を生成すると期待できる。従って、前回ダウンロード時のハッシュ値である最終ハッシュ値25と、最新のダウンロード時のハッシュ値とを比較することにより、最新のWebページの内容が前回ダウンロード時のWebページの内容と同一であるか否かを判断することができる。
このようなハッシュ値は、Webページの内容の一致度を判断するための内容情報に相当する。なお、この最終ハッシュ値25は、後述する最終アクセス状態27が「エラー」以外の場合に意味を持つ値である。
また、最終アクセス時刻26は、当該Webページをアクセスした最近の時刻、すなわち前回アクセスした際のアクセス時刻を表し、最終アクセス状態27には、その時のダウンロードの結果を「更新検知」、「更新非検知」、および「エラー」の3つの状態のいずれかとして記憶している。
「更新検知」は、Webページのダウンロードが成功し、かつ、内容情報の比較結果により、直前の取得内容と異なる内容が得られた際(または初回ダウンロード)に用いる。また、「更新非検知」は、Webページのダウンロードが成功し、かつ、内容情報の比較結果により、直前の取得内容と同一の内容が得られた際に用いる。さらに、「エラー」は、Webページのダウンロードが失敗し、内容が取得できなかったことを表す。
また、第2アクセス時刻28(2)および第2アクセス状態29(2)は、当該Webページに対する最近のアクセスの直前のアクセス(すなわち、2回前のアクセス)におけるアクセス時刻とアクセス状態をそれぞれ表す。以降、第3アクセス〜第Nアクセスまで順次遡ってアクセス時刻とアクセス状態を保持する。これらの履歴データは、当該Webページの更新傾向を判断するのに用いられ、次回アクセス時刻23を決定する手掛かりとなる。
また、先に説明したアクセス回数24の値mがNより小さい場合には、第m+1アクセス〜第Nアクセスに対応するアクセス時刻およびアクセス状態は、無効であることを表す。
次に、Webページ内容記憶手段3は、ダウンロードしたWebページの内容をWebページのURIと対応付けて記憶する記憶部である。
次に、ディスパッチ手段4は、Webサーバ状態記憶手段1に記憶された情報に基づいて適切なタイミングでWebサーバからのダウンロードを起動する。
次に、Webページダウンロード手段5は、インターネット9を介してWebサーバ10a〜10cのいずれかのWebサーバから当該Webページをダウンロードして、その内容をWebページ内容記憶手段3に格納する。
次に、Webページ再アクセススケジューリング手段6は、Webページダウンロード手段5により起動され、Webページダウンロードの結果に基づいてWebページ状態記憶手段2に記憶されたWebページ状態テーブル21を更新し、当該Webページの再収集時期を決定する。
次に、Webサーバアクセススケジューリング手段7は、Webページ再アクセススケジューリング手段6により起動され、Webサーバ状態記憶手段1に記憶されたWebサーバ状態テーブル11とWebページ状態記憶手段2に記憶されたWebページ状態テーブル21に基づき、当該Webサーバの負荷に応じて次回アクセスまでの間隔を決定する。
なお、Webページダウンロード手段5、Webページ再アクセススケジューリング手段6、およびWebサーバアクセススケジューリング手段7の組は、Webサーバ毎に複数存在してもよい。複数存在することにより、Webサーバ10a〜10cから並行してダウンロードを行うことができ、単位時間当たりのダウンロードページ数を向上させることができる。
次に、ハイパーリンク抽出手段8は、Webページ内容記憶手段3に追加された新たなWebページからハイパーリンクを抽出し、その内容に応じてWebサーバ状態記憶手段1に記憶されたWebサーバ状態テーブル11とWebページ状態記憶手段2に記憶されたWebページ状態テーブル21を更新する。
なお、上述したWebサーバ状態記憶手段1〜ハイパーリンク抽出手段8の8つの構成要素は、プロセッサ、バス、メモリ、固定ディスクインタフェース、固定ディスク装置、およびネットワークインタフェースを備えた一般的なコンピュータを用いることができる。より具体的には、Webサーバ状態記憶手段1〜Webページ内容記憶手段3の記憶部を固定ディスク装置で実現し、ディスパッチ手段4〜ハイパーリンク抽出手段8の各手段をメモリに格納されプロセッサで実行されるプログラムとして実現することができる。
次に、ディスパッチ手段4〜ハイパーリンク抽出手段8の各手段の具体的な動作を、フローチャートを用いて説明する。図4は、本発明の実施の形態1におけるディスパッチ手段4の動作を示すフローチャートである。ディスパッチ手段4は、ステップS401において、Webサーバ状態記憶手段1に記憶されたWebサーバ状態テーブル11の内容を読み出し、全てのWebサーバについてWebサーバ状態13が「休止」であるかどうかを判断する。
条件が成り立つ場合は、収集対象のWebページが全く存在しない(全て消失した)ことを表しているので、停止する。条件が成り立たない場合は、ステップS402において、Webサーバ状態13が「ダウンロード待ち」であり、かつダウンロード開始時刻14が現在時刻より前の時刻を示しているWebサーバが存在するかどうかを判定する。このようなWebサーバが存在しない場合は、ステップS401に戻り、存在する場合は、ステップS403に進む。
ステップS403において、Webサーバ状態13が「ダウンロード待ち」であり、かつダウンロード開始時刻14が現在時刻より前の時刻を示しているWebサーバを1つ選択する。続くステップS404において、Webサーバ状態テーブル11における当該WebサーバのWebサーバ状態13を「ダウンロード中」に変更する。さらに、ステップS405において、当該Webサーバに対するWebページダウンロード手段5の処理を起動し、最初のステップS401に戻って処理を繰り返す。
ここでは、単純化のため、Webサーバ状態テーブル11から条件を満たすWebサーバを検索するものとして説明した。しかしながら、効率的な実現のため、Webサーバ状態テーブル11とは別に優先順位キューを用意し、「ダウンロード待ち」のWebサーバをダウンロード開始時刻の順に格納しておくこともできる。このような実現方式については、例えば、特開2003−271670の図2に述べられている。
また、ステップS402において、条件が不成立の場合に直ちにステップS401に戻ると、間断なく条件判定を繰り返すことになる。そこで、セマフォや条件変数などの並行処理同期プリミティブを用いて、Webサーバ状態テーブル11の内容が変化するまで待機するようにしてもよい。
なお、図1の説明において図示しているように、Webページダウンロード手段5〜Webサーバアクセススケジューリング手段7は、Webサーバ毎に複数並行的に動作することも可能である。このような並列駆動を行う場合、ステップS405の処理は、マルチスレッドプログラミング環境において、Webサーバ毎に実行スレッドを生成する、あるいは、イベント駆動型プログラミング環境においてWebサーバ毎にイベントを生成することによって実現される。
次に、図5は、本発明の実施の形態1におけるWebページダウンロード手段5の動作を示すフローチャートである。ステップS501において、Webページ状態テーブル21の内容を読み出し、ダウンロード対象のWebサーバに属するWebページの中で、次回アクセス時刻23が最小のものを1つ選択する。
URI22は、先頭部分にWebサーバ名を含むので、Webページ状態テーブル21をURI22の文字列順に編成することなどにより、容易にWebサーバに対応するWebページを検索することができる。また、例えば、特開2003−271670の図15におけるURLインデックスと同様の補助的なデータ構造を用いて、WebページのURIをWebサーバ名と次回アクセス時刻の順に格納しておいてもよい。
次に、ステップS502において、当該Webサーバにアクセスし、当該Webページのダウンロードを行う。このステップは、DNSプロトコルによるWebサーバ名からIPアドレスへの変換や、HTTPプロトコルによるURIの指定および内容の取得を含む。続いて、ステップS503において、ダウンロードしたWebページの内容をURIと対応付けて、Webページ内容記憶手段3に格納する。
ステップS502のDNSやHTTP通信においてエラーが発生した場合には、当該エラーを記録する。さらに、ステップS504において、当該Webページに対するWebページ再アクセススケジューリング手段6の処理を起動する。
図6は、本発明の実施の形態1におけるWebページ再アクセススケジューリング手段6の動作を示すフローチャートである。Webページ再アクセススケジューリング手段6は、ステップS601において、処理対象Webページに対応するWebページ状態テーブル21の項目の内、アクセス時刻およびアクセス状態の対からなるアクセスの履歴データを1段シフトし、アクセス回数24に1を加える。
アクセス履歴のシフトは、アクセス回数24の元の値mがNより小さい場合は、第m+1アクセス時刻と第m+1アクセス状態にそれぞれ第mアクセス時刻と第mアクセス状態を、第mアクセス時刻と第mアクセス状態にそれぞれ第m−1アクセス時刻と第m−1アクセス状態を、・・・、第2アクセス時刻28(2)と第2アクセス状態29(2)にそれぞれ最終アクセス時刻26と最終アクセス状態27を設定することにより実現される。
ただし、mが0の場合は、何もしない。また、アクセス回数24の元の値mがNに等しいか、それより大きい場合は、第Nアクセス時刻28(N)と第Nアクセス状態29(N)にそれぞれ第N−1アクセス時刻28(N−1)と第N−1アクセス状態29(N−1)を、・・・、第2アクセス時刻28(2)と第2アクセス状態29(2)にそれぞれ最終アクセス時刻26と最終アクセス状態27を設定する。
次に、ステップS602において、最終アクセス時刻26に現在時刻を設定する。さらにステップS603において、ダウンロードしたWebページの内容にハッシュ関数を適用して求めたハッシュ値と最終ハッシュ値25を比較し、両者が一致しなければ「更新検知」を、一致すれば「更新非検知」を最終アクセス状態27に設定し、求めたハッシュ値を最終ハッシュ値25に設定する。
ただし、初回アクセス後は(エラーが発生しなかった場合は)、最終アクセス状態27を「更新検知」とし、ダウンロードがエラーとなった場合は、最終アクセス状態27を「エラー」に設定する。
続くステップS604では、新たなアクセス履歴による予測に基づいて、次回アクセス時刻23を設定する。一般に、Webページの更新は、ポアソン過程などの確率事象としてモデル化できることが知られている(例えば、文献“Estimating frequency of change”、ACM Transactions on Internet Technology、vol.3、no.3、256−290頁など)。
ポアソン過程に基づく最も単純なWebページ更新間隔の推定法は、期間をその間に発生したWebページ更新回数で割るというものである。具体的には、アクセス回数24がNに等しいか、それより大きい場合は、最終アクセス時刻26と第Nアクセス時刻28(N)の差を最終アクセス状態27から第Nアクセス状態29(N)の内、「更新検知」となっているものの数で割ったものとなる。
アクセス回数24の値mがNより小さい場合は、第mアクセス時刻および第mアクセス状態までを用いればよい。また、これ以外にも、前掲文献の付録Cに述べられているような最尤法に基づく推定を用いることもできる。次回アクセス時刻23は、当該Webページの更新間隔推定値を現在時刻に加えた値などとして設定する。
なお、最近のアクセス状態において「エラー」が一定回数以上続いた場合は、当該Webページが消失するなどしてアクセスできなくなったものと判断し、以降、アクセス対象から除外するために、次回アクセス時刻23に∞(無限大)を設定する。
最後に、ステップS605において、Webページ再アクセススケジューリング手段6は、処理対象Webページが属するWebサーバに対してWebサーバアクセススケジューリング手段7の処理を起動する。
次に、図7は、本発明の実施の形態1におけるWebサーバアクセススケジューリング手段7の動作を示すフローチャートである。はじめに、ステップS701において、処理対象Webサーバに属する全てのWebページについて(ただし、アクセス回数24が0のものは除く)Webページ状態テーブル21から次回アクセス時刻23と最終アクセス時刻26を読み出す。さらに、次回アクセス時刻23と最終アクセス時刻26との差であるアクセス間隔の逆数の総和を計算し、その値をWebサーバ状態テーブル11の当該Webサーバに対応するWebサーバ負荷指標15に設定する。
毎回全てのWebページに関する総和を計算する代わりに、Webページ再アクセススケジューリング手段6の起動前後における次回アクセス時刻23と最終アクセス時刻26の差を用い、Webサーバ負荷指標15から次回アクセス時刻23と最終アクセス時刻26の差の古い値の逆数を引き、次回アクセス時刻23と最終アクセス時刻26の差の新しい値の逆数を加えることで、Webサーバ負荷指標15を更新しても良い。また、次回アクセス時刻23に∞が設定されているWebページに関しては、次回アクセス時刻23と最終アクセス時刻26の差の逆数は、0に設定することとする。
続いて、ステップS702において、更新後のWebサーバ負荷指標15の値を0と比較し、0に等しければステップS703に進み、そうでなければステップS704に進む。ステップS703に進む場合は、当該Webサーバに属する全てのWebページについて、次回アクセス時刻23が∞であり、収集対象のWebページが残っていないことを意味する。従って、この場合は、Webサーバ状態テーブル11の当該Webサーバに対するダウンロード開始時刻14を∞に、Webサーバ状態13を「休止」に設定し、停止する。
一方、ステップS704に進んだ場合においては、当該Webサーバに属する全てのWebページについて、次回アクセス時刻23の最小値を求め、現在時刻にあらかじめ決められた所定の定数であるWebサーバアクセス間隔下限値を加えた値と比較する。前者が小さければステップS706に進み、そうでなければステップS705に進む。
Webサーバアクセス間隔下限値は、アクセス負荷への配慮の観点から設定するルールであり、例えば、10秒に設定すると、同一Webサーバに対する異なるWebページのアクセスは、10秒以上間隔を空けるということを意味する。この値は、全てのWebサーバに対して共通の値を用いてもよく、また、Webサーバに属するWebページの数に応じて、いくつかの値を切り替えて用いてもよい。
ステップS705に進む場合には、Webページ再アクセススケジューリングに従うことでWebサーバアクセス間隔への配慮が自動的になされることを意味している。従って、当該Webサーバに関する次回アクセス時刻23の最小値をWebサーバ状態テーブル11のダウンロード開始時刻14に設定し、ステップS709に進む。
一方、ステップS706に進んだ場合には、さらに、Webサーバ負荷指標15の逆数とWebサーバアクセス間隔下限値との比較を行い、前者が小さければステップS708に、そうでなければステップS707に進む。
ステップS707に進む場合は、個々のWebページの次回アクセス時刻は、正確に守られないものの、個々のWebページの最適なアクセス間隔に従うことは可能であり、次第にWebページ再アクセススケジューリングとの乖離を小さくできることを示している。ここでは、現在時刻にWebサーバ負荷指標15の逆数を加えたものを、Webサーバ状態テーブル11のダウンロード開始時刻14に設定し、ステップS709に進む。
一方、ステップS708に進む場合は、当該Webサーバが過負荷状態であり、Webサーバのアクセス間隔への配慮と個々のWebページの最適なアクセス間隔の実現が両立しないことを表している。ここでは、アクセス間隔への配慮を優先し、現在時刻にWebサーバアクセス間隔下限値を加えたものを、Webサーバ状態テーブル11のダウンロード開始時刻14に設定し、ステップS709に進む。
そして、最終的に、ステップS709では、当該Webサーバに対応するWebサーバ状態テーブル11のWebサーバ状態13を「ダウンロード待ち」に設定し、停止する。
次に、本願発明の技術的特徴の1つであるWebサーバ負荷指標について具体的に説明する。図8は、本発明の実施の形態1におけるWebサーバ負荷指標15の意味付けを説明するための概念図である。説明を簡略化するために、図8においては、あるWebサーバiに4つのWebページi1〜i4が属している場合を示しており、各Webページの推定更新間隔をTi1〜Ti4として示している。
ある長い期間Tを考えると、この期間にWebサーバアクセス間隔下限値cでWebサーバiにアクセスした時にダウンロード可能な延べWebページ数Mは、下式(1)で与えられる。
Figure 0004795258
一方、この期間の各Webページij(図8においてはj=1〜4に相当)の更新回数をmijとすると、全てのWebページの更新内容をダウンロードするには、下式(2)で示される回数のダウンロードが必要である。
Figure 0004795258
上式(2)で、過負荷状態においては、上式(2)の右辺として求まる値がダウンロード可能な延べWebページ数Mを上回るので、下式(3)の関係となる。
Figure 0004795258
上式(3)における( )内の値は、Webサーバiに含まれる全てのWebページのアクセス間隔の逆数の総和を示している。従って、上述したWebサーバiのWebサーバ負荷指標15を表していることとなり、先のステップS706に示す判定により過負荷状態を検出できることとなる。ここで、上式(1)あるいは(3)におけるWebサーバアクセス間隔下限値cの逆数1/cは、Webサーバに対するアクセス間隔の過負荷状態を判断するための所定許容値に相当する。
次に、図9は、本発明の実施の形態1におけるハイパーリンク抽出手段8の動作を示すフローチャートである。はじめに、ステップS901で、Webページ内容記憶手段3に新たなWebページ内容が追加されるのを待つ。
新たなWebページ内容が追加されると、ステップS902において、当該Webページ内容からHTMLのA(アンカー)タグなどで記述されたハイパーリンクを抽出する。次に、ステップS903では、当該Webページ内容から抽出された全てのハイパーリンクが処理されたかどうか判定し、全て処理済みであれば、ステップS901に戻り、未処理のものがあれば、ステップS904以下の処理を適用する。
ステップS904において、ハイパーリンクが指すURIに対応するWebページが既にWebページ状態テーブル21に存在しているかどうかを判断する。存在している場合は、ステップS903に戻って残りのハイパーリンクの処理を行う。
Webページ状態テーブル21に存在していない新規URIについては、ステップS905で、新たなエントリをWebページ状態テーブル21に追加する。追加するエントリにおいては、URI22を当該URIに、次回アクセス時刻23を現在時刻に、アクセス回数24を0に、それぞれ設定する。
続いて、ステップS906で、当該URIが属するWebサーバが既にWebサーバ状態テーブル11に存在しているかどうかを判断する。存在している場合は、ステップS908に進む。
一方、存在していない場合は、ステップS907において、新たなエントリをWebサーバ状態テーブル11に追加してステップS908に進む。追加するエントリにおいては、Webサーバ名12を当該Webサーバの名前に、Webサーバ状態13を「休止」に、Webサーバ負荷指標15を0に、それぞれ設定する。
次に、ステップS908においては、当該WebサーバのWebサーバ状態13が「休止」であるかどうか判定する。Webサーバ状態13が「休止」でなければ、ステップS903に戻って、残りのハイパーリンクの処理を続ける。一方、Webサーバ状態13が「休止」であれば、ステップS909に進み、Webサーバ状態13を「ダウンロード待ち」に、ダウンロード開始時刻14を現在時刻に設定して、ステップS903に戻る。
以上のように、実施の形態1によれば、同一のWebサーバに含まれる複数のWebページのそれぞれのアクセス間隔に基づいて、Webサーバ毎の負荷指標を計算するので、クローラ側の性能に余裕がある場合でも、個々のWebサーバに過大なアクセス負荷を及ぼさないようにすることができる。
さらに、過負荷状態を防ぐために、Webサーバアクセス間隔の下限値を増加させる場合と比べると、過負荷状態にないWebサーバには影響が及ばないので、適切な間隔でWebページの再収集を行うことができる。
実施の形態2.
本実施の形態2では、先の実施の形態1における図7のステップS708に先立ち、新たな処理を追加する場合について説明する。図10は、本発明の実施の形態2におけるWebサーバアクセススケジューリング手段7の新たな処理動作を示すフローチャートである。
図10のステップS1001は、図7のステップS706の条件が真となった場合、すなわち、当該Webサーバが過負荷状態と判定された場合に、Webサーバアクセススケジューリング手段7により実行される。ここでは、当該Webサーバに属する全てのWebページについて、Webページ状態テーブル21の次回アクセス時刻23を修正する。
より具体的には、Webページアクセス間隔、すなわち、次回アクセス時刻23と最終アクセス時刻26との差に対して、一律の定数をかけて修正を施す。ここでは、一例として、この一律の定数を、Webサーバアクセス間隔下限値とWebサーバ負荷指標との積である下式(4)とする。
Figure 0004795258
続いて、ステップS1002において、修正された次回アクセス時刻23を用いてWebサーバ負荷指標15を再度計算し、設定する。その後の処理は、図7のステップS708以降と同様である。再度計算された新たなWebサーバ負荷指標15は、Webサーバアクセス間隔下限値の逆数と等しくなる。
すなわち、ステップS1001で一律の定数を掛けて、Webページアクセス間隔を一様に広げることにより、Webサーバ負荷指標の逆数がWebサーバアクセス間隔下限値と等しくなるようにし、過負荷状態の解消を図っている。ただし、上記の定数に上限を設けても良い。この場合は、Webサーバ負荷指標15は、Webサーバアクセス間隔下限値の逆数より大きくなり、過負荷状態はこの時点では解消されていないこととなる。
以上のように、実施の形態2によれば、過負荷状態のWebサーバに対して、それぞれのWebページのアクセス間隔を、一律の定数を掛けて一様に修正し、過負荷状態を解消する手段を備える。この結果、例えば、各Webページの更新を1回置きに収集するなど、各Webページのアクセス間隔を一様に定数倍して長くすることにより過負荷状態の解消を図ることができ、過負荷状態にあるWebサーバからのWebページ再収集が無秩序になるのを防ぐことができる。
実施の形態3.
本実施の形態3では、先の実施の形態1における図7のステップS708に先立ち、上述の実施の形態2とは異なる新たな処理を追加する場合について説明する。図11は、本発明の実施の形態3におけるWebサーバアクセススケジューリング手段7の新たな処理動作を示すフローチャートである。
図11のステップS1101は、図7のステップS706の条件が真となった場合、すなわち、当該Webサーバが過負荷状態と判定された場合に、Webサーバアクセススケジューリング手段7により実行される。ここでは、当該Webサーバに属する全てのWebページについて、Webページ状態テーブル21の次回アクセス時刻23に一定値を加える修正を行う。
加える値としては、例えば、1日などを用いる。先の実施の形態2のステップS1001においては、各Webページのアクセス間隔を定数倍して一様に修正したが、本実施の形態3では、各Webページの次回アクセスを一律の一定時間だけそれぞれ延期する。
これにより、Webサーバ負荷指標への影響が大きい小アクセス間隔のWebページには大きな修正が働く一方で、大きなアクセス間隔を持つWebページへの影響を抑えることができる。このような修正は、例えば、更新された状態がより長く存続するWebページにおいては、1回の更新を見逃すことの影響が大きいと考えられる場合があるために施される。
続いて、ステップS1102において、修正された次回アクセス時刻23を用いてWebサーバ負荷指標15を再度計算し、設定する。先の実施の形態2と異なり、修正後のWebサーバ負荷指標を特定の値にすることは困難である。このため、続くステップS1103で、Webサーバ負荷指標が十分小さな値になり、過負荷状態が解消されたかどうかを判断する。
Webサーバ負荷指標の目標値としては、例えば、Webサーバアクセス間隔下限値の逆数やそれに近い値を用いることができる。過負荷状態が解消された場合は、図7のステップS708以降の処理に進む。一方、過負荷状態が解消されていない場合は、ステップS1101に戻り、さらに、次回アクセスを延期した後に、ステップS1102、S1103の処理を再度行う。
以上のように、実施の形態3によれば、過負荷状態のWebサーバに対して、それぞれのWebページの次回アクセス時刻を、アクセス間隔に一律の一定時間を加算することにより一様に修正し、過負荷状態を解消する手段を備える。この結果、例えば、1日毎に更新されるWebページを1日延ばして2日毎に収集しつつ、1月毎に更新されるWebページは、2月ごとに収集するのではなく、1月+1日のアクセス間隔として漏れなく収集するなど、過負荷状態にあるWebサーバからのWebページ再収集が無秩序になり収集結果の質が低下するのを防ぐことができる。
実施の形態4.
本実施の形態4では、先の実施の形態1における図7のステップS708に先立ち、上述の実施の形態2、3とは異なる新たな処理を追加する場合について説明する。図12は、本発明の実施の形態4におけるWebサーバアクセススケジューリング手段7の新たな処理動作を示すフローチャートである。
図12のステップS1201は、図7のステップS706の条件が真となった場合、すなわち、当該Webサーバが過負荷状態と判定された場合に、Webサーバアクセススケジューリング手段7により実行される。ここでは、当該Webサーバに属する全てのアクセス対象Webページについて、Webページ状態テーブル21のURI22から部分文字列を取り出し、出現頻度が高いものを上位から抽出する。
ここで、アクセス対象Webページとは、次回アクセス時刻23が∞でないものを指す。また、URIの部分文字列とは、例えば、http://Webサーバ名/ディレクトリ名1/ディレクトリ名2/ファイル名で与えられるURIに対して、http://Webサーバ名/ディレクトリ名1/やhttp://Webサーバ名/ディレクトリ名1/ディレクトリ名2/など、末尾文字列をディレクトリ単位で除去したものを指す。
あるディレクトリ下に多数のファイルやサブディレクトリがある場合、それらに対応するURIは、共通の部分文字列を持つため、当該共通部分文字列の出現頻度は高くなる。ただし、ディレクトリ名2までが高い頻度で出現する場合、その上位のディレクトリ名1も、それ以上の頻度で出現することになるため、なるべく長い共通部分文字列を抽出するようにする。
この処理は、Webページ状態テーブル21をURI22の文字列順に編成しておくことで、Webページ状態テーブル21の順次スキャンにより容易に実現することができる。また、アクセス間隔の短い順に編成されたWebページの順番に基づいて除外対象となるWebページを選択することにより、Webサーバ負荷への影響が大きいWebページに対し、優先的にアクセス対象からの除外を実施することができる。
続いて、ステップS1202において、上位の高頻度部分文字列として抽出された部分文字列がURI22に含まれるWebページについて、一部を除いて次回アクセス時刻23に∞を設定し、アクセス対象から除外する。これにより、形式が類似するファイルが多数置かれたディレクトリ等に対し、その全てを収集するのではなく、一部を代表例として収集するようにすることができる。この結果、収集対象Webページ数自体を低減し、Webサーバ負荷指標の抑制を図ることができる。
例えば、newsディレクトリ下に日付をファイル名に含む多数のファイルが置かれている場合は、過去の全てのニュースを収集する代わりに、最近のニュース、すなわち、文字列順で後方に位置するURIだけを残すことで、Webサーバ負荷の抑制と収集情報の有用性を両立することができる。
次に、ステップS1203において、修正された次回アクセス時刻23を用いてWebサーバ負荷指標15を再度計算し、設定する。修正後のWebサーバ負荷指標を特定の値にすることは困難であるため、先の実施の形態3と同様に、続くステップS1204で、Webサーバ負荷指標が十分小さな値になり、過負荷状態が解消されたかどうかを判断する。
過負荷状態が解消された場合は、図7のステップS708以降の処理に進む。一方、過負荷状態が解消されていない場合は、ステップS1201に戻り、ステップS1202〜S1204の処理を再度行う。
以上のように、実施の形態4によれば、過負荷状態のWebサーバに対して類似のURIを持つ多数のWebページを出現頻度の高い代表例に絞り、残りを収集対象から除外することで過負荷状態を解消する手段を備える。この結果、過負荷状態を起こさない規模で最適なアクセス間隔でのWebページ再収集を実施することができ、収集結果の有用性を高めることができる。
なお、以上の実施の形態4では、URIの部分文字列としてディレクトリ単位での分割を説明したが、符号?に続き、符号&で区切られた「パラメータ名=値」の形式のパラメータを含むURIに対しては、パラメータ名毎の出現頻度を用いることも有効である。これにより、例えば、製品番号などがパラメータ値に対応している場合に、その一部をサンプルとして収集するという効果が得られる。
また、こうしたパラメータの一部には、Webサイト側で利用者の状態を管理するためにWebサーバへの接続毎に付与されるセッションIDなども含まれる。クローラは、アクセス間隔を空けてWebサーバに接続するため、毎回異なるセッションIDが付与され、内容が同一であるにも関わらず異なるURIが生成されることがあり得る。
セッションIDは、URIの形式上、容易に判別できるものもあるが、そうでないものも多い。このような場合には、セッションIDの一部のみをサンプルとして残すことで、同様の内容を多数収集することを避けることができる。
また、図12では、URI文字列の情報のみを用いたが、部分文字列の出現頻度を、対応するWebページのアクセス間隔で重み付けしてもよい。これにより、アクセス間隔が短いWebページを多く含み、Webサーバ負荷への影響が大きいWebページ群に対し、優先的にアクセス対象からの除外を実施することができる。
また、共通部分文字列以外のURI文字列が数字のみ、または同一文字数などの特徴を有するWebページ群に対し、優先的にアクセス対象からの除外を実施することもできる。
また、内容またはそのハッシュ値が共通するものが多いWebページ群に対し、優先的にアクセス対象からの除外を実施することもできる。あるいは、内容またはそのハッシュ値が重複するWebページをダウンロード対象から除外することもできる。
また、上述の実施の形態2〜4は、組み合わせて実現することも可能である。例えば、実施の形態3と実施の形態4との組み合わせでは、図11のステップS1103において、Webサーバ負荷指標がWebサーバアクセス間隔下限値の逆数に達する前にループを打ち切り、図12のステップS1201に進むことが考えられる。これにより、小さな範囲で次回アクセス時刻の遅延を適用し、それでも過負荷状態が解消しなかった場合には、Webページの除外を実施することで、Webページ再収集間隔とWeb再収集範囲への影響を制御することが可能となる。
本発明の実施の形態1におけるWebページ再収集方式の構成図である。 本発明の実施の形態1におけるWebサーバ状態記憶手段に記憶されるWebサーバ状態テーブルの形式を示す図である。 本発明の実施の形態1におけるWebページ状態記憶手段に記憶されるWebページ状態テーブルの形式を示す図である。 本発明の実施の形態1におけるディスパッチ手段の動作を示すフローチャートである。 本発明の実施の形態1におけるWebページダウンロード手段の動作を示すフローチャートである。 本発明の実施の形態1におけるWebページ再スケジューリング手段の動作を示すフローチャートである。 本発明の実施の形態1におけるWebサーバアクセススケジューリング手段の動作を示すフローチャートである。 本発明の実施の形態1におけるWebサーバ負荷指標の意味付けを説明するための概念図である。 本発明の実施の形態1におけるハイパーリンク抽出手段の動作を示すフローチャートである。 本発明の実施の形態2におけるWebサーバアクセススケジューリング手段の新たな処理動作を示すフローチャートである。 本発明の実施の形態3におけるWebサーバアクセススケジューリング手段の新たな処理動作を示すフローチャートである。 本発明の実施の形態4におけるWebサーバアクセススケジューリング手段の新たな処理動作を示すフローチャートである。
符号の説明
1 Webサーバ状態記憶手段、2 Webページ状態記憶手段、3 Webページ内容記憶手段、4 ディスパッチ手段、5 Webページダウンロード手段、6 Webページ再アクセススケジューリング手段、7 Webサーバアクセススケジューリング手段、8 ハイパーリンク抽出手段。

Claims (16)

  1. Webサーバから前回ダウンロードしたWebページの内容またはWebページのハッシュ値を前回内容情報として記憶部に記憶させ、当該Webページを再度ダウンロードした際のWebページの内容情報と、前記記憶部に記憶された前記前回内容情報とを比較して当該Webページの更新の有無を検知し、ダウンロード時刻と前記更新の有無を対応付けたデータを履歴データとしてダウンロードを行うごとに前記記憶部にさらに記憶させ、前記履歴データに基づいて当該Webページが次に更新されると期待される時刻を次回ダウンロード時刻として設定して前記記憶部に記憶させるWebページ再アクセススケジューリング手段と、
    同一Webサーバに属する複数のWebページについて、前記Webページ再アクセススケジューリング手段の有する前記記憶部に記憶された前記前回ダウンロード時刻と前記次回ダウンロード時刻との差分から求まるそれぞれのアクセス間隔を用いて、当該Webサーバに及ぼすアクセス負荷指標を計算し、前記アクセス負荷指標が所定許容値を超えない場合に前記アクセス負荷指標に基づいて当該Webサーバに対するアクセス間隔を設定するWebサーバアクセススケジューリング手段と
    を備えることを特徴とするWebページ再収集方式。
  2. 請求項1に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、前記所定許容値をWebサーバに属するWebページの数に応じて切り替えることを特徴とするWebページ再収集方式。
  3. 請求項1または2に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、前記アクセス負荷指標が前記所定許容値を超えた場合には、Webサーバに属するそれぞれのWebページの前記アクセス間隔に対して一律の定数を乗算して次回ダウンロード時刻を再設定することを特徴とするWebページ再収集方式。
  4. 請求項1ないし3のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、前記アクセス負荷指標が前記所定許容値を超えた場合には、Webサーバに属するそれぞれのWebページの前記アクセス間隔に対して一律の定数を加算して次回ダウンロード時刻を再設定することを特徴とするWebページ再収集方式。
  5. 請求項1ないし4のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、前記アクセス負荷指標が前記所定許容値を超えた場合には、当該Webサーバに属するWebページのうち、共通する部分文字列をURIに含むWebページ群の一部を次回以降のダウンロード対象から除外し、除外されていないWebページに対して次回ダウンロード時刻を再設定することを特徴とするWebページ再収集方式。
  6. 請求項5に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、URI文字列をディレクトリ単位で末尾から削除したものを前記部分文字列として用いることを特徴とするWebページ再収集方式。
  7. 請求項5に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、パラメータとして符号?とそれに続く1つ以上のパラメータ名およびパラメータ値を含むURIに対して符号?以前の文字列とパラメータ名の組を前記部分文字列として用いることを特徴とするWebページ再収集方式。
  8. 請求項5に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、URI文字列をディレクトリ単位で末尾から削除するとともに、パラメータとして符号?とそれに続く1つ以上のパラメータ名およびパラメータ値を含むURIに対しては符号?以前の文字列とパラメータ名の組を前記部分文字列として用いることを特徴とするWebページ再収集方式。
  9. 請求項5ないし8のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、共通部分文字列が長いWebページ群を優先的に除外対象とすることを特徴とするWebページ再収集方式。
  10. 請求項5ないし8のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、前記アクセス間隔が短いWebページを多く含むWebページ群を優先的に除外対象とすることを特徴とするWebページ再収集方式。
  11. 請求項5ないし8のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、共通部分文字列以外のURI文字列が数字のみ、または同一文字数の特徴を有するWebページ群を優先的に除外対象とすることを特徴とするWebページ再収集方式。
  12. 請求項5ないし8のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、内容またはそのハッシュ値が共通するものが多いWebページ群を優先的に除外対象とすることを特徴とするWebページ再収集方式。
  13. 請求項5ないし12のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、内容またはそのハッシュ値が重複するWebページをダウンロード対象から除外することを特徴とするWebページ再収集方式。
  14. 請求項5ないし13のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、URIの文字列順に編成されたWebページの順番に基づいて除外対象となるWebページを選択することを特徴とするWebページ再収集方式。
  15. 請求項5ないし13のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、前記アクセス間隔の短い順に編成されたWebページの順番に基づいて除外対象となるWebページを選択することを特徴とするWebページ再収集方式。
  16. 請求項1ないし15のいずれか1項に記載のWebページ再収集方式において、
    前記Webサーバアクセススケジューリング手段は、同一Webサーバに属する複数のWebページのアクセス間隔の逆数の総和を当該Webサーバの前記アクセス負荷指標として用いることを特徴とするWebページ再収集方式。
JP2007018012A 2007-01-29 2007-01-29 Webページ再収集方式 Active JP4795258B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007018012A JP4795258B2 (ja) 2007-01-29 2007-01-29 Webページ再収集方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007018012A JP4795258B2 (ja) 2007-01-29 2007-01-29 Webページ再収集方式

Publications (2)

Publication Number Publication Date
JP2008186157A JP2008186157A (ja) 2008-08-14
JP4795258B2 true JP4795258B2 (ja) 2011-10-19

Family

ID=39729174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007018012A Active JP4795258B2 (ja) 2007-01-29 2007-01-29 Webページ再収集方式

Country Status (1)

Country Link
JP (1) JP4795258B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5448428B2 (ja) * 2008-11-27 2014-03-19 三菱電機株式会社 データ管理システム及びデータ管理方法及びデータ管理プログラム
JP5063729B2 (ja) * 2010-03-31 2012-10-31 ヤフー株式会社 クローラ管理システム及び方法
CN102347912B (zh) * 2010-08-02 2014-11-05 腾讯科技(深圳)有限公司 即时通讯软件中获取动态更新的方法及***
US8943023B2 (en) 2010-12-29 2015-01-27 Amazon Technologies, Inc. Receiver-side data deduplication in data systems
US9116909B2 (en) 2010-12-29 2015-08-25 Amazon Technologies, Inc. Reduced bandwidth data uploading in data systems
SG191378A1 (en) * 2010-12-29 2013-08-30 Amazon Tech Inc Receiver-side data deduplication in data systems
JP5634644B2 (ja) 2012-08-03 2014-12-03 三菱電機株式会社 シャーシ組付構造
KR101425816B1 (ko) * 2013-10-29 2014-08-05 네이버 주식회사 실시간 검색 구현 방법 및 그 시스템
JP6417806B2 (ja) * 2014-09-12 2018-11-07 富士ゼロックス株式会社 画像形成装置及びプログラム
KR101949945B1 (ko) * 2016-04-26 2019-02-19 주식회사 팬소프트 전자책 단말 장치 및 상기 전자책 단말 장치의 전자책 데이터 다운로드 방법
JP7269747B2 (ja) * 2019-02-05 2023-05-09 株式会社日立製作所 検出装置、検出方法、および検出プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3618917B2 (ja) * 1996-08-05 2005-02-09 株式会社東芝 情報収集方法
JP4380375B2 (ja) * 2003-03-19 2009-12-09 富士ゼロックス株式会社 文書収集装置および文書収集用コンピュータプログラム
JP4342961B2 (ja) * 2004-01-16 2009-10-14 パイオニア株式会社 情報配信表示システムおよび情報配信方法

Also Published As

Publication number Publication date
JP2008186157A (ja) 2008-08-14

Similar Documents

Publication Publication Date Title
JP4795258B2 (ja) Webページ再収集方式
CN102341800B (zh) 检索处理方法以及装置
US8849775B2 (en) Caching web documents in two or more caches
JP5147947B2 (ja) クエリ別検索コレクション生成方法およびシステム
US8250065B1 (en) System and method for ranking information based on clickthroughs
WO2015054664A1 (en) Hierarchical data archiving
US7865821B2 (en) Electronic document update notification device and electronic document update notifying method
JP2007148885A (ja) コンテンツ収集装置およびコンテンツ収集システム
JP2008003721A (ja) 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体
JP2009289077A (ja) 操作履歴送信方法、操作履歴送信装置、及び記録媒体
JP4718205B2 (ja) 選択的Web情報収集装置
JP2009245179A (ja) 文書検索支援装置
JP2003271670A (ja) 情報収集装置、情報収集方法及びプログラム
JP2008158589A (ja) 更新情報通知装置及び更新情報通知プログラム
JP2009145953A (ja) データ検索装置、データ検索方法、コンピュータプログラム、及び記録媒体
CN108108381B (zh) 页面的监测方法及装置
JP5186880B2 (ja) ファイル管理システム、ファイル管理方法、及び、ファイル管理プログラム
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2011215912A (ja) クローラ管理システム及び方法
KR100953491B1 (ko) 최신정보 제공 방법 및 시스템
JP3916219B2 (ja) リンク先圧縮システム
WO2013106423A1 (en) Method and apparatus for animating transitions between search results
JP2003271494A (ja) 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体
JP4222166B2 (ja) 文書収集装置、文書検索装置及び文書収集検索システム
JP2004178070A (ja) 情報検索方法及び情報検索装置並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110727

R150 Certificate of patent or registration of utility model

Ref document number: 4795258

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250