JP2003271494A - 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体 - Google Patents

情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体

Info

Publication number
JP2003271494A
JP2003271494A JP2002068922A JP2002068922A JP2003271494A JP 2003271494 A JP2003271494 A JP 2003271494A JP 2002068922 A JP2002068922 A JP 2002068922A JP 2002068922 A JP2002068922 A JP 2002068922A JP 2003271494 A JP2003271494 A JP 2003271494A
Authority
JP
Japan
Prior art keywords
information
update
time
group
information collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002068922A
Other languages
English (en)
Inventor
Kenji Takada
賢次 高田
Haruo Komano
晴雄 駒野
Naomi Toda
直美 戸田
Yukinari Nishikawa
幸成 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Comware Corp
Original Assignee
NTT Comware Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Comware Corp filed Critical NTT Comware Corp
Priority to JP2002068922A priority Critical patent/JP2003271494A/ja
Publication of JP2003271494A publication Critical patent/JP2003271494A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 Webサイト毎に最適な観測周期で自動的に
最新情報を収集する。 【解決手段】 サンプリング処理部2−3は、所定の期
間に渡って、所定の固定周期で、情報取得部2−2によ
り取得されたWebページが最新情報に更新される更新
間隔を取得する。次いで、自動観測処理部2−4は、グ
ループ分け処理部2−5により、Webページの更新間
隔の分布から作成されるグループに従って、上記登録さ
れたURL毎にWebページの更新時刻を推測する。そ
して、情報取得部2−2は、自動観測処理部2−4によ
り推測された更新時刻に、上記登録されたURL毎に提
供されるWebページによる最新情報を取得する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、Webサイトから
最新情報を取得する情報収集システム、情報収集方法、
情報収集プログラムおよび記録媒体に関する。
【0002】
【従来の技術】インターネット上には、様々な情報を提
供する膨大なWebサイトが存在する。それぞれのWe
bサイトでは、情報の種類、管理者の都合などに応じ
て、独自の更新周期(定期的、ランダム)で情報が更新
されている。このようなWebサイトから目的の最新情
報をタイムリに収集しようとする場合、Webサイトで
提供される情報の更新に合わせて収集できるのが理想で
ある。しかしながら、一般的にWebサイトの更新周期
を知る方法がない。そこで、このようにいつ更新される
か分からないWebサイトから最新情報を収集する場
合、観測周期を大きくすると最新情報を取得することが
できなくなる可能性があるため、観測周期を短くして常
時観測するしかない。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来技術では、観測対象となるWebサイトの数が数
十〜数百以上と多い場合には、トラヒック、観測対象の
Webサーバ、情報取得システムに多大な負荷を強いる
という問題がある。
【0004】この発明は上述した事情に鑑みてなされた
もので、トラヒック、観測対象のWebサーバ、本情報
取得システムの負荷を大きくすることなく、Webサイ
ト毎に最適な観測周期で自動的に最新情報を収集するこ
とができる情報収集システム、情報収集方法、情報収集
プログラムおよび記録媒体を提供することを目的とす
る。
【0005】
【課題を解決するための手段】上述した問題点を解決す
るために、請求項1記載の発明では、ネットワーク上で
提供される情報を収集する情報収集システムにおいて、
観測対象となる情報のネットワーク上のアドレスを登録
する登録手段と、所定の情報収集タイミングで、前記登
録手段により登録されたアドレスに基づいて、前記情報
を収集する収集手段と、前記収集手段により収集された
情報が更新されているか否かを判別する判別手段と、前
記判別手段により更新されていると判別された場合、前
記収集手段により収集された情報の更新間隔を算出する
更新間隔算出手段と、前記更新間隔算出手段により算出
された更新間隔に基づいて、次回の情報収集時刻を推測
する収集時刻推測手段と、前記情報収集手段による情報
収集タイミングを、前記収集時刻推測手段により推測さ
れた次回の情報収集時刻に設定する収集制御手段とを具
備することを特徴とする。
【0006】また、請求項2記載の発明では、請求項1
記載の情報収集システムにおいて、前記更新間隔算出手
段は、情報に最終更新日付が記されている場合、今回の
情報に記された最終更新日付から前回の最終更新日付を
減算することで、情報の更新間隔を算出する一方、情報
に最終更新日付が記されていない場合、情報を取得した
時点の日時を最終更新日付として情報の更新間隔を算出
することを特徴とする。
【0007】また、請求項3記載の発明では、請求項2
記載の情報収集システムにおいて、前記収集時刻推測手
段は、前記更新間隔算出手段により算出された更新間隔
の分布を作成する分布作成手段と、前記分布作成手段に
より作成された更新間隔の分布に基づいて、情報の更新
間隔を、所定の範囲を有するグループに分けるグループ
分け手段とを具備し、前記グループ分け手段により作成
されたグループ内の更新間隔およびグループ範囲に基づ
いて、次回の情報収集時刻を推測することを特徴とす
る。
【0008】また、請求項4記載の発明では、請求項3
記載の情報収集システムにおいて、前記収集時刻推測手
段は、情報に最終更新日付が記されている場合、前記グ
ループ分け手段により作成されたグループ毎に、今回の
最終更新日付+グループ内の最小更新間隔+グループ範
囲を、次回の情報収集時刻として推測することを特徴と
する。
【0009】また、請求項5記載の発明では、請求項3
記載の情報収集システムにおいて、前記収集時刻推測手
段は、情報に最終更新日付が記されていない場合、前記
グループ分け手段により作成されたグループ毎に、今回
の最終更新日付+グループ内の最小更新間隔を次回の最
小情報収集時刻、今回の最終更新日付+グループ内の最
小更新間隔+グループ範囲を次回の最大情報収集時刻、
およびその中間を次回の中間情報収集時刻として推測す
ることを特徴とする。
【0010】また、請求項6記載の発明では、請求項4
または5記載の情報収集システムにおいて、前記収集時
刻推測手段は、前記判別手段により情報が更新されてい
ないと判別された場合、前記グループ毎に算出された次
回の情報収集時刻のうち、次に遅い情報収集時刻を、次
回の情報収集時刻とすることを特徴とする。
【0011】また、上述した問題点を解決するために、
請求項7記載の発明では、ネットワーク上で提供される
情報を収集する情報収集方法において、所定期間に渡っ
て、所定の情報収集タイミングで、観測対象となる情報
のネットワーク上のアドレスに基づいて情報を収集し、
前記収集された情報の更新間隔を算出し、所定期間に渡
る情報の更新間隔の分布に基づいて、次回の情報収集時
刻を推測し、前記次回の情報収集時刻で観測対象となる
情報のネットワーク上のアドレスに基づいて情報を収集
することを特徴とする。
【0012】また、請求項8記載の発明では、請求項7
記載の情報収集方法において、前記更新間隔は、情報に
最終更新日付が記されている場合、今回の情報に記され
た最終更新日付から前回の最終更新日付を減算すること
で算出される一方、情報に最終更新日付が記されていな
い場合、情報を取得した時点の日時を最終更新日付とし
て算出されることを特徴とする。
【0013】また、請求項9記載の発明では、請求項8
記載の情報収集方法において、前記情報の更新間隔の分
布を作成し、前記更新間隔の分布に基づいて、情報の更
新間隔を、所定の範囲を有するグループに分けて、グル
ープ毎に、グループ内の更新間隔およびグループ範囲に
基づいて、次回の情報収集時刻を推測することを特徴と
する。
【0014】また、請求項10記載の発明では、請求項
9記載の情報収集方法において、前記情報に最終更新日
付が記されている場合、前記グループ毎に、今回の最終
更新日付+グループ内の最小更新間隔+グループ範囲
を、次回の情報収集時刻として推測することを特徴とす
る。
【0015】また、請求項11記載の発明では、請求項
9記載の情報収集方法において、前記情報に最終更新日
付が記されていない場合、前記グループ毎に、今回の最
終更新日付+グループ内の最小更新間隔を次回の最小情
報収集時刻、今回の最終更新日付+グループ内の最小更
新間隔+グループ範囲を次回の最大情報収集時刻、およ
びその中間を次回の中間情報収集時刻として推測するこ
とを特徴とする。
【0016】また、請求項12記載の発明では、請求項
10または11記載の情報収集方法において、前記次回
の情報収集時刻で収集した情報が更新されていない場
合、前記グループ毎に算出された次回の情報収集時刻の
うち、次に遅い情報収集時刻を、次回の情報収集時刻と
することを特徴とする。
【0017】また、上述した問題点を解決するために、
請求項13記載の発明では、所定期間に渡って、所定の
情報収集タイミングで、観測対象となる情報のネットワ
ーク上のアドレスに基づいて情報を収集するステップ
と、前記収集された情報の更新間隔を算出するステップ
と、所定期間に渡る情報の更新間隔の分布に基づいて、
次回の情報収集時刻を推測するステップと、前記次回の
情報収集時刻で観測対象となる情報のネットワーク上の
アドレスに基づいて情報を収集するステップとをコンピ
ュータに実行させることを特徴とする。
【0018】また、請求項14記載の発明では、請求項
13記載の情報収集プログラムにおいて、前記更新間隔
の分布に基づいて、情報の更新間隔を、所定の範囲を有
するグループに分けるステップと、前記グループ毎に、
グループ内の更新間隔およびグループ範囲に基づいて、
次回の情報収集時刻を推測するステップとをコンピュー
タに実行させることを特徴とする。
【0019】また、請求項15記載の発明では、請求1
4記載の情報収集プログラムにおいて、前記次回の情報
収集時刻で収集した情報が更新されていない場合、前記
グループ毎に算出された次回の情報収集時刻のうち、次
に遅い情報収集時刻を、次回の情報収集時刻とするステ
ップをコンピュータに実行させることを特徴とする。
【0020】また、上述した問題点を解決するために、
請求項16記載の発明では、所定期間に渡って、所定の
情報収集タイミングで、観測対象となる情報のネットワ
ーク上のアドレスに基づいて情報を収集するステップ
と、前記収集された情報の更新間隔を算出するステップ
と、所定期間に渡る情報の更新間隔の分布に基づいて、
次回の情報収集時刻を推測するステップと、前記次回の
情報収集時刻で観測対象となる情報のネットワーク上の
アドレスに基づいて情報を収集するステップとをコンピ
ュータに実行させる情報収集プログラムを記録すること
を特徴とする。
【0021】また、請求項17記載の発明では、請求項
16記載の記録媒体において、前記更新間隔の分布に基
づいて、情報の更新間隔を、所定の範囲を有するグルー
プに分けるステップと、前記グループ毎に、グループ内
の更新間隔およびグループ範囲に基づいて、次回の情報
収集時刻を推測するステップとをコンピュータに実行さ
せる情報収集プログラムを記録することを特徴とする。
【0022】また、請求項18記載の発明では、請求項
16記載の記録媒体において、前記次回の情報収集時刻
で収集した情報が更新されていない場合、前記グループ
毎に算出された次回の情報収集時刻のうち、次に遅い情
報収集時刻を、次回の情報収集時刻とするステップをコ
ンピュータに実行させる情報収集プログラムを記録する
ことを特徴とする。
【0023】この発明では、観測対象となる情報のネッ
トワーク上のアドレスを登録する登録手段と、収集手段
により、所定の情報収集タイミングで、前記登録手段に
より登録されたアドレスに基づいて、前記情報を収集す
る際、判別手段により、収集された情報が更新されてい
るか否かを判別し、更新されていると判別された場合、
更新間隔算出手段により、前記収集手段により収集され
た情報の更新間隔を算出し、収集時刻推測手段により、
前記更新間隔に基づいて、次回の情報収集時刻を推測
し、収集制御手段により、前記情報収集手段による情報
収集タイミングを、前記次回の情報収集時刻に設定す
る。したがって、トラヒック、観測対象のWebサー
バ、本情報収集システムの負荷を大きくすることなく、
Webサイト毎に最適な観測周期で自動的に最新情報を
収集することが可能となる。
【0024】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。 A.実施形態の構成 図1は、本発明の実施形態によるシステムの全体構成を
示すブロック図である。図1において、WWWサーバ1
は、HTML、XMLなどのマークアップ言語により記
述されたWebページによる情報を、インターネット4
を介してアクセスしてきた情報収集システム2やユーザ
端末3に提供する。
【0025】情報収集システム2は、インターネット4
を介してWWWサーバ1にアクセスし、該WWWサーバ
1が提供するWebページによる最新情報を取得する。
より具体的には、情報収集システム2は、後述するユー
ザ端末3に対して観測対象となるURL(Webページ
のアドレス)を登録するための登録画面を提示する。
【0026】また、情報収集システム2は、第1段階と
して、所定の固定周期で、上記登録されたURLに従っ
て、WWWサーバ1にアクセスし、登録されたURL毎
に、Webページが更新される更新間隔を取得する(サ
ンプリングモード)。また、情報収集システム2は、第
2段階として、上記登録されたURL毎に取得した更新
間隔に基づいて、登録されたURL毎に自動的に更新時
刻を推測し(自動観測モード)、該更新時刻にWWWサ
ーバ1にアクセスし、Webページによる最新情報を取
得する。上記更新時刻は、Webページの更新有無に応
じて、その都度、更新される。
【0027】ユーザ端末3は、パーソナルコンピュータ
やPDAなどの情報処理装置からなり、少なくとも、イ
ンターネット4への接続機能や、WWWサーバ1や情報
収集システム2が提供するWebページを閲覧するため
の閲覧機能(ブラウザ)を備えている。
【0028】次に、図2は、図1に示す情報収集システ
ム2の構成を示すブロック図である。情報収集システム
2は、登録画面提示部2−1、情報取得部2−2、サン
プリング処理部2−3、自動観測処理部2−4、グルー
プ分け処理部2−5、データベース2−6、およびメイ
ン処理部2−7から構成されている。登録画面提示部2
−1は、インターネット4を介してアクセスしてきたユ
ーザ端末3に観測対象となるURL(複数)を登録する
ための登録画面(Webページ)を提示する。
【0029】情報取得部2−2は、メイン処理部2−7
の制御の下、後述するサンプリング処理部2−3により
取得された更新間隔、あるいは後述する自動観測処理部
2−4により推測された更新時刻に、上記登録されたU
RL毎に提供されるWebページによる最新情報を取得
する。サンプリング処理部2−3は、所定の固定周期
で、情報取得部2−2により取得されたWebページが
最新情報に更新される更新間隔を取得する。
【0030】自動観測処理部2−4は、後述するグルー
プ分け処理部2−5により、Webページの更新間隔の
分布から作成されるグループに従って、上記登録された
URL毎にWebページの更新時刻を推測する。グルー
プ分け処理部2−5は、上記自動観測処理部2−4によ
り推測された更新時刻に、情報取得部2−2により取得
されたWebページの最終更新日付に従って、過去から
現在に至るWebページの更新間隔の分布を作成し、該
分布から統計的に有意となるように、更新間隔のグルー
プ分けを行なう。
【0031】データベース2−6は、登録画面提示部2
−1により提供される登録画面から登録されたURL
や、情報取得部2−2により取得されたWebページ
(過去から現在に至るまで)などを蓄積する。メイン処
理部2−7は、サンプリング処理部2−3により取得さ
れた更新間隔、自動観測処理部2−4で推測された更新
時刻に従って、情報取得部2−2によるWebページの
取得、サンプリング処理部2−3の動作、自動観測処理
部2−4の動作などを制御する。
【0032】B.実施形態の動作 次に、本実施形態の動作について詳細に説明する。ここ
で、図3は、本実施形態のメイン動作を説明するための
フローチャートである。なお、ユーザ端末3は、予め情
報収集システム2にアクセスし、登録画面提示部2−1
が提供する登録画面から観測対象となる1つ以上のUR
Lを登録しているものとする。
【0033】情報収集システム2は、観測対象となるU
RLが登録され、観測開始指示があると、まず、データ
ベース2−6に登録されているURLに従って、情報取
得部2−2によりインターネット4を介してWWWサー
バ1へアクセスし、上記URLのWebページを取得す
る(ステップS1)。次いで、メイン処理部2−7は、
動作モードを判定する(ステップS2)。観測開始時に
は、サンプリングモードになっており、サンプリングモ
ード処理を実行する(ステップS3)。
【0034】サンプリング処理モードでは、サンプリン
グ処理部2−3により、情報取得部2−2により取得さ
れたWebページの最終更新日付に従って、最新情報に
更新される更新間隔を取得する。該更新間隔は、データ
ベース2−6に保存される。なお、サンプリング処理の
詳細は後述する。
【0035】次いで、サンプリングモードが完了したか
否かを判断する(ステップS4)。サンプリングモード
は、自動観測モードによる更新時刻を得るために必要と
される十分な数の更新間隔が得られるまで完了しない。
そして、サンプルモードが完了していない場合には、サ
ンプリングモードのタイマを起動し(ステップS5)、
当該処理を終了する。
【0036】サンプリングモードのタイマが起動したこ
とで、以後、サンプリングモードが完了するまで、当該
フローが所定の時間間隔(一定)で実行される。すなわ
ち、サンプリングモード処理が実行される。この結果、
自動観測モードによる更新時刻を得るために必要とされ
る十分な数の更新間隔が得られることになる。
【0037】そして、十分な数の更新間隔が得られる
と、サンプリングモードが完了する。これにより、ステ
ップS2におけるモード判定、もしくはステップS4に
おいて、サンプリングモードが完了したと判断され、自
動モード処理を実行する(ステップS6)。上述したサ
ンプリングモード処理により取得されたWebページの
更新間隔は、Webページの実際の更新間隔であるた
め、定期的に更新されるWebページ以外では、ばらつ
きが生じる。更新間隔は、完全なランダムでない限り、
何かしらの傾向があるものである。自動観測モードで
は、該更新間隔の統計的な分布に基づいて、次の更新時
刻を推測する。なお、自動観測モード処理の詳細につい
ては後述する。
【0038】次いで、自動観測モード処理で取得したW
ebページの更新時刻で、自動観測モードのタイマを起
動し(ステップS7)、当該処理を終了する。
【0039】自動観測モードのタイマが起動したこと
で、以後、更新時刻に達すると当該フローが実行され
る。この場合、更新時刻は、自動観測モード処理が実行
される度に、実際のWebページの更新間隔に応じて更
新される。ゆえに、自動観測モードのタイマが起動する
度に、ステップS1で、Webページの最新情報が取得
されることになる。
【0040】次に、図4は、サンプリングモード処理の
動作を説明するためのフローチャートである。サンプリ
ング処理部2−3は、まず、上記情報取得部2−2によ
り取得されたWebページが観測最初の画面であるか否
かを判断する(ステップS10)。そして、観測最初の
画面である場合には、該Webページをデータベース2
−6に格納する(ステップS13)。
【0041】次いで、該Webページの最終更新日付の
有無を確認する(ステップS14)。Webページに
は、最終更新日付が記述されている場合と、記述されて
いない場合がある。最終更新日付が記述されている場合
には、Webページに記述されている最終更新日付を取
得する(ステップS15)。次いで、前回の更新日付と
今回の更新日付とから該Webページの更新間隔を算出
する(ステップS17)。Webページが観測最初の画
面である場合には、前回の更新日付はないので、更新間
隔は、当該サンプリングモード処理の実行間隔、すなわ
ちサンプリング間隔となる。
【0042】一方、Webページに最終更新日付が記述
されていない場合には、現在の日時を最終更新日付とし
(ステップS16)、前回の更新日付と今回の更新日付
とから該Webページの更新間隔を算出する(ステップ
S17)。Webページが観測最初の画面である場合に
は、前回の更新日付はないので、更新間隔は、当該サン
プリングモード処理の実行間隔、すなわちサンプリング
間隔となる。
【0043】一方、取得したWebページが観測最初の
画面でない場合には、前回の画面と今回の画面とを比較
する(ステップS11)。画面の比較は、簡単に行なう
場合には、ファイル容量を比較してもよいし、厳密に行
なう場合には、HTMLによるテキスト文を完全比較し
てもよい。次に、比較結果に基づいて、Webページが
更新されたか否かを判断する(ステップS12)。前述
したように、サンプリングモード処理は、一定の時間間
隔で、Webページを取得しているため、必ずしも更新
された最新のWebページを取得しているとは限らな
い。ゆえに、前回取得したWebページと同じであるこ
ともあり得る。そして、Webページが更新されていな
い場合には、画面を格納することなく、当該処理を終了
する。
【0044】一方、Webページが更新されている場合
には、該Webページをデータベース2−6に格納する
(ステップS13)。次いで、該Webページの最終更
新日付の有無を確認し(ステップS14)、最終更新日
付が記述されている場合には、Webページに記述され
ている最終更新日付を取得する(ステップS15)。次
いで、該Webページの更新間隔を算出する(ステップ
S17)。この場合、該Webページの更新間隔は、図
5(a)に示すように、(今回の更新日付)−(前回の
更新日付)となる。
【0045】一方、Webページに最終更新日付が記述
されていない場合には、現在の日時を最終更新日付とし
(ステップS16)、該Webページの更新間隔を算出
する(ステップS17)。この場合、該Webページの
更新間隔は、図5(b)に示すように、(今回の更新検
出日付)−(前回の更新検出日付)となる。
【0046】このように、サンプリングモード処理が何
度か繰り返し実行されることにより、前述したように、
自動観測モードによる更新時刻を得るために必要とされ
る十分な数の更新間隔が得られることになる。
【0047】次に、図6は、自動観測モード処理の動作
を説明するためのフローチャートである。自動観測処理
部2−4は、まず、上記情報取得部2−2により取得さ
れた前回の画面と今回の画面とを比較する(ステップS
20)。画面の比較は、簡単に行なう場合には、ファイ
ル容量を比較してもよいし、厳密に行なう場合には、H
TMLによるテキスト文を完全比較してもよい。次に、
比較結果に基づいて、Webページが更新されたか否か
を判断する(ステップS21)。そして、Webページ
が更新されていない場合には、画面を格納することな
く、次回の予測更新時刻を決定する(ステップS2
4)。詳細については後述する。
【0048】一方、Webページが更新されていた場合
には、該Webページをデータベース2−6に格納する
(ステップS22)。次いで、該Webページの最終更
新日付の有無を確認し(ステップS23)、最終更新日
付が記述されている場合には、Webページに記述され
ている最終更新日付を取得する(ステップS25)。次
いで、前述したグループ分け処理部2−5によるグルー
プ分け処理を行ない(ステップS26)、各グループの
予測更新時刻を決定する(ステップS27)。詳細につ
いては後述する。
【0049】一方、Webページに最終更新日付が記述
されていない場合には、現在の日時を最終更新日付とし
(ステップS28)、前述したグループ分け処理部2−
5によるグループ分け処理を行ない(ステップS2
9)、グループ毎に予測更新時刻の最小値、中間点、最
大点を決定する(ステップS30)。詳細については後
述する。
【0050】次に、図7は、グループ分け処理の動作を
説明するためのフローチャートである。グループ分け処
理部2−5は、まず、上述した自動観測モードで取得さ
れた最終更新日付を用いて、(今回の更新日付)−(前
回の更新日付)から更新間隔を算出する(ステップS4
0)。次いで、該更新間隔を更新間隔分布に追加する
(ステップS41)。次いで、更新間隔分布を昇順にソ
ートする(ステップS42)。
【0051】ここで、図8は、更新間隔分布を示す概念
図である。前述したサンプリング処理部2−3および自
動観測処理部2−4に算出された、Webページの更新
間隔は、図8(a)に示すように、更新間隔分布に随時
追加されていく。前述したように、Webページの更新
間隔は、定期的に更新されるWebページ以外では、ば
らつきが生じる。しかしながら、更新間隔は、完全なラ
ンダムでない限り、何かしらの傾向があるものである。
そこで、本実施形態では、以下のようにして更新間隔を
グループ分けする。
【0052】図7に戻り、Webページの画面をデータ
ベース2−6に格納する(ステップS43)。次いで、
下限をある更新間隔、上限をある更新間隔+更新間隔の
平均値(σt0)の1/Xの範囲内(図8(a)を参照、
X=グループの範囲を決定する定数)に収まる更新間隔
数が2個以上であるか否かを判断する(ステップS4
4)。そして、範囲(σt0/X)に更新間隔が2個以上
ない場合には、グループとしない(ステップS45)。
一方、2個以上ある場合には、グループとして登録する
(ステップS46)。
【0053】図8(a)に示す例では、ソート後の更新
間隔のうち、第1〜第4番目の更新間隔は、グループA
に分類される。第5番目の更新間隔は、2個以上存在し
ないので、グループに分類されない。第6番目〜第8番
目の更新間隔は、グループBに分類される。図8(b)
は、上記グループ分けの状態を更新間隔(σt)上に表
記したものである。
【0054】次に、上述したグループ分けから次回の更
新時刻を推測する方法について説明する。まず、自動観
測モードで、画面更新がなかった場合において、次回の
予測更新時刻の決定(図6のS24)について説明す
る。ここで、図9は、画面更新がなかった場合における
次回の予測更新時刻の決定方法を説明するための概念図
である。この場合、第1の予測更新時刻t1は、前回の
最終更新日付+の更新間隔+(σt0/X)であり、第
2の予測更新時刻t2は、前回の最終更新日付+の更
新間隔+(σt0/X)となる。
【0055】次に、自動観測モードで、Webページか
ら最終更新日付を取得した場合において、次回の予測更
新時刻の決定(図6のS27)について説明する。ここ
で、図10は、Webページから最終更新日付を取得し
た場合における次回の予測更新時刻の決定方法を説明す
るための概念図である。この場合、第1の予測更新時刻
t1は、今回の最終更新日付+グループAの最小更新間
隔+(σt0/X)であり、第2の予測更新時刻t2は、
今回の最終更新日付+グループBの最小更新間隔+(σ
t0/X)となる。
【0056】次に、自動観測モードで、現在の日時を最
終更新日付とした場合において、次回の予測更新時刻の
決定(図6のS30)について説明する。ここで、図1
1は、現在の日時を最終更新日付とした場合における次
回の予測更新時刻の決定方法を説明するための概念図で
ある。この場合、図11に示すように、グループA,B
毎に、最小値(今回の最終更新日付+グループA,Bの
最小更新間隔)、中間点、最大点(今回の最終更新日付
+グループA,Bの最小更新間隔+(σt0/X))を、
次回の予測更新時刻とする。
【0057】いずれの場合においても、自動観測モード
処理は、次回、最も小さい予測更新時刻で起動される。
このとき、Webページが更新されていれば、データベ
ース2−6に保存される。そして、新たに最終更新日付
が取得され、更新間隔が更新間隔分布に追加され、新た
な予測更新時刻が算出される。一方、上記予測更新時刻
で起動されたものの、Webページが更新されていなけ
れば、次の予測更新時刻で起動され、Webページを取
得する。いずれにしても、更新される可能性が最も高い
タイミングで、Webページを取得することができる。
ゆえに、トラヒック、観測対象のWebサーバ、本情報
取得システムの負荷を大きくすることなく、Webサイ
ト毎に最適な観測周期で自動的に最新情報を取得するこ
とができる。
【0058】なお、上述した実施形態において、情報収
集システム2の機能は、図示しない記憶部に記憶された
プログラムを実行することで実現するようになってい
る。記憶部は、ハードディスク装置や光磁気ディスク装
置、フラッシュメモリ等の不揮発性メモリやRAM(Ra
ndom Access Memory)のような揮発性のメモリ、あるい
はこれらの組み合わせにより構成されるものとする。ま
た、上記記憶部とは、インターネット等のネットワーク
や電話回線等の通信回線を介してプログラムが送信され
た場合のサーバやクライアントとなるコンピュータシス
テム内部の揮発性メモリ(RAM)のように、一定時間
プログラムを保持しているものも含む。
【0059】また、上記プログラムは、このプログラム
を記憶装置等に格納したコンピュータシステムから、伝
送媒体を介して、あるいは、伝送媒体中の伝送波により
他のコンピュータシステムに伝送されてもよい。ここ
で、プログラムを伝送する「伝送媒体」は、インターネ
ット等のネットワークや電話回線等の通信回線のように
情報を伝送する機能を有する媒体のことをいう。また、
上記プログラムは、上述した処理の一部を実現するため
のものであってもよい。さらに、上述した処理を情報収
集システム2に既に記録されているプログラムとの組み
合わせで実現できるもの、いわゆる差分ファイル(差分
プログラム)であってもよい。
【0060】以上、この発明の実施形態を図面を参照し
て詳述してきたが、具体的な構成は、上記実施形態に限
られるものではなく、この発明の要旨を逸脱しない範囲
の設計等も含まれる。
【0061】
【発明の効果】以上説明したように、本発明によれば、
観測対象となる情報のネットワーク上のアドレスを登録
する登録手段と、収集手段により、所定の情報収集タイ
ミングで、前記登録手段により登録されたアドレスに基
づいて、前記情報を収集する際、判別手段により、収集
された情報が更新されているか否かを判別し、更新され
ていると判別された場合、更新間隔算出手段により、前
記収集手段により収集された情報の更新間隔を算出し、
収集時刻推測手段により、前記更新間隔に基づいて、次
回の情報収集時刻を推測し、収集制御手段により、前記
情報集手段による情報収集タイミングを、前記次回の情
報収集時刻に設定するようにしたので、トラヒック、観
測対象のWebサーバ、本情報収集システムの負荷を大
きくすることなく、Webサイト毎に最適な観測周期で
自動的に最新情報を収集することができるという利点が
得られる。
【図面の簡単な説明】
【図1】 本発明の実施形態によるシステムの全体構成
を示すブロック図である。
【図2】 図2は、図1に示す情報収集システム2の構
成を示すブロック図である。
【図3】 本実施形態のメイン動作を説明するためのフ
ローチャートである。
【図4】 サンプリングモード処理の動作を説明するた
めのフローチャートである。
【図5】 Webページの更新間隔を算出する方法を説
明するための概念図である。
【図6】 自動観測モード処理の動作を説明するための
フローチャートである。
【図7】 グループ分け処理の動作を説明するためのフ
ローチャートである。
【図8】 更新間隔分布を示す概念図である。
【図9】 画面更新がなかった場合における次回の予測
更新時刻の決定方法を説明するための概念図である。
【図10】 Webページから最終更新日付を取得した
場合における次回の予測更新時刻の決定方法を説明する
ための概念図である。
【図11】 現在の日時を最終更新日付とした場合にお
ける次回の予測更新時刻の決定方法を説明するための概
念図である。
【符号の説明】
1 WWWサーバ 2 情報収集システム 3 ユーザ端末 4 インターネット 2−1 登録画面提示部(登録手段) 2−2 情報取得部(収集手段) 2−3 サンプリング処理部(更新間隔算出手段、分布
作成手段) 2−4自動観測処理部(更新間隔算出手段、収集時刻推
測手段) 2−5 グループ分け処理部(分布作成手段、グループ
分け手段) 2−6 データベース 2−7 メイン処理部(判別手段、収集制御手段)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 戸田 直美 東京都港区港南一丁目9番1号 エヌ・テ ィ・ティ・コムウェア株式会社内 (72)発明者 西川 幸成 東京都港区港南一丁目9番1号 エヌ・テ ィ・ティ・コムウェア株式会社内 Fターム(参考) 5B075 PQ29 PQ44 5B082 GB02 GB06

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 ネットワーク上で提供される情報を収集
    する情報収集システムにおいて、 観測対象となる情報のネットワーク上のアドレスを登録
    する登録手段と、 所定の情報収集タイミングで、前記登録手段により登録
    されたアドレスに基づいて、前記情報を収集する収集手
    段と、 前記収集手段により収集された情報が更新されているか
    否かを判別する判別手段と、 前記判別手段により更新されていると判別された場合、
    前記収集手段により収集された情報の更新間隔を算出す
    る更新間隔算出手段と、 前記更新間隔算出手段により算出された更新間隔に基づ
    いて、次回の情報収集時刻を推測する収集時刻推測手段
    と、 前記情報収集手段による情報収集タイミングを、前記収
    集時刻推測手段により推測された次回の情報収集時刻に
    設定する収集制御手段とを具備することを特徴とする情
    報収集システム。
  2. 【請求項2】 前記更新間隔算出手段は、 情報に最終更新日付が記されている場合、今回の情報に
    記された最終更新日付から前回の最終更新日付を減算す
    ることで、情報の更新間隔を算出する一方、情報に最終
    更新日付が記されていない場合、情報を取得した時点の
    日時を最終更新日付として情報の更新間隔を算出するこ
    とを特徴とする請求項1記載の情報収集システム。
  3. 【請求項3】 前記収集時刻推測手段は、 前記更新間隔算出手段により算出された更新間隔の分布
    を作成する分布作成手段と、 前記分布作成手段により作成された更新間隔の分布に基
    づいて、情報の更新間隔を、所定の範囲を有するグルー
    プに分けるグループ分け手段とを具備し、 前記グループ分け手段により作成されたグループ内の更
    新間隔およびグループ範囲に基づいて、次回の情報収集
    時刻を推測することを特徴とする請求項2記載の情報収
    集システム。
  4. 【請求項4】 前記収集時刻推測手段は、情報に最終更
    新日付が記されている場合、前記グループ分け手段によ
    り作成されたグループ毎に、今回の最終更新日付+グル
    ープ内の最小更新間隔+グループ範囲を、次回の情報収
    集時刻として推測することを特徴とする請求項3記載の
    情報収集システム。
  5. 【請求項5】 前記収集時刻推測手段は、情報に最終更
    新日付が記されていない場合、前記グループ分け手段に
    より作成されたグループ毎に、今回の最終更新日付+グ
    ループ内の最小更新間隔を次回の最小情報収集時刻、今
    回の最終更新日付+グループ内の最小更新間隔+グルー
    プ範囲を次回の最大情報収集時刻、およびその中間を次
    回の中間情報収集時刻として推測することを特徴とする
    請求項3記載の情報収集システム。
  6. 【請求項6】 前記収集時刻推測手段は、前記判別手段
    により情報が更新されていないと判別された場合、前記
    グループ毎に算出された次回の情報収集時刻のうち、次
    に遅い情報収集時刻を、次回の情報収集時刻とすること
    を特徴とする請求項4または5記載の情報収集システ
    ム。
  7. 【請求項7】 ネットワーク上で提供される情報を収集
    する情報収集方法において、 所定期間に渡って、所定の情報収集タイミングで、観測
    対象となる情報のネットワーク上のアドレスに基づいて
    情報を収集し、前記収集された情報の更新間隔を算出
    し、所定期間に渡る情報の更新間隔の分布に基づいて、
    次回の情報収集時刻を推測し、前記次回の情報収集時刻
    で観測対象となる情報のネットワーク上のアドレスに基
    づいて情報を収集することを特徴とする情報収集方法。
  8. 【請求項8】 前記更新間隔は、 情報に最終更新日付が記されている場合、今回の情報に
    記された最終更新日付から前回の最終更新日付を減算す
    ることで算出される一方、情報に最終更新日付が記され
    ていない場合、情報を取得した時点の日時を最終更新日
    付として算出されることを特徴とする請求項7記載の情
    報収集方法。
  9. 【請求項9】 前記情報の更新間隔の分布を作成し、前
    記更新間隔の分布に基づいて、情報の更新間隔を、所定
    の範囲を有するグループに分けて、グループ毎に、グル
    ープ内の更新間隔およびグループ範囲に基づいて、次回
    の情報収集時刻を推測することを特徴とする請求項8記
    載の情報収集方法。
  10. 【請求項10】 前記情報に最終更新日付が記されてい
    る場合、前記グループ毎に、今回の最終更新日付+グル
    ープ内の最小更新間隔+グループ範囲を、次回の情報収
    集時刻として推測することを特徴とする請求項9記載の
    情報収集方法。
  11. 【請求項11】 前記情報に最終更新日付が記されてい
    ない場合、前記グループ毎に、今回の最終更新日付+グ
    ループ内の最小更新間隔を次回の最小情報収集時刻、今
    回の最終更新日付+グループ内の最小更新間隔+グルー
    プ範囲を次回の最大情報収集時刻、およびその中間を次
    回の中間情報収集時刻として推測することを特徴とする
    請求項9記載の情報収集方法。
  12. 【請求項12】 前記次回の情報収集時刻で収集した情
    報が更新されていない場合、前記グループ毎に算出され
    た次回の情報収集時刻のうち、次に遅い情報収集時刻
    を、次回の情報収集時刻とすることを特徴とする請求項
    10または11記載の情報収集方法。
  13. 【請求項13】 所定期間に渡って、所定の情報収集タ
    イミングで、観測対象となる情報のネットワーク上のア
    ドレスに基づいて情報を収集するステップと、 前記収集された情報の更新間隔を算出するステップと、 所定期間に渡る情報の更新間隔の分布に基づいて、次回
    の情報収集時刻を推測するステップと、 前記次回の情報収集時刻で観測対象となる情報のネット
    ワーク上のアドレスに基づいて情報を収集するステップ
    とをコンピュータに実行させることを特徴とする情報収
    集プログラム。
  14. 【請求項14】 前記更新間隔の分布に基づいて、情報
    の更新間隔を、所定の範囲を有するグループに分けるス
    テップと、 前記グループ毎に、グループ内の更新間隔およびグルー
    プ範囲に基づいて、次回の情報収集時刻を推測するステ
    ップとをコンピュータに実行させることを特徴とする請
    求項13記載の情報収集プログラム。
  15. 【請求項15】 前記次回の情報収集時刻で収集した情
    報が更新されていない場合、前記グループ毎に算出され
    た次回の情報収集時刻のうち、次に遅い情報収集時刻
    を、次回の情報収集時刻とするステップをコンピュータ
    に実行させることを特徴とする請求14記載の情報収集
    プログラム。
  16. 【請求項16】 所定期間に渡って、所定の情報収集タ
    イミングで、観測対象となる情報のネットワーク上のア
    ドレスに基づいて情報を収集するステップと、 前記収集された情報の更新間隔を算出するステップと、 所定期間に渡る情報の更新間隔の分布に基づいて、次回
    の情報収集時刻を推測するステップと、 前記次回の情報収集時刻で観測対象となる情報のネット
    ワーク上のアドレスに基づいて情報を収集するステップ
    とをコンピュータに実行させる情報収集プログラムを記
    録することを特徴とする記録媒体。
  17. 【請求項17】 前記更新間隔の分布に基づいて、情報
    の更新間隔を、所定の範囲を有するグループに分けるス
    テップと、 前記グループ毎に、グループ内の更新間隔およびグルー
    プ範囲に基づいて、次回の情報収集時刻を推測するステ
    ップとをコンピュータに実行させる情報収集プログラム
    を記録することを特徴とする請求項16記載の記録媒
    体。
  18. 【請求項18】 前記次回の情報収集時刻で収集した情
    報が更新されていない場合、前記グループ毎に算出され
    た次回の情報収集時刻のうち、次に遅い情報収集時刻
    を、次回の情報収集時刻とするステップをコンピュータ
    に実行させる情報収集プログラムを記録することを特徴
    とする請求項16記載の記録媒体。
JP2002068922A 2002-03-13 2002-03-13 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体 Pending JP2003271494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002068922A JP2003271494A (ja) 2002-03-13 2002-03-13 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002068922A JP2003271494A (ja) 2002-03-13 2002-03-13 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2003271494A true JP2003271494A (ja) 2003-09-26

Family

ID=29199908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002068922A Pending JP2003271494A (ja) 2002-03-13 2002-03-13 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2003271494A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090369A (ja) * 2006-09-29 2008-04-17 Sharp Corp コンテンツ受信装置およびコンテンツ受信方法
JP2008108007A (ja) * 2006-10-24 2008-05-08 Sony Computer Entertainment Inc 通信端末装置、通信システムおよびコンテンツファイルのダウンロード方法
JP2008257695A (ja) * 2007-03-15 2008-10-23 Yahoo Japan Corp 情報収集方法及び情報収集装置
WO2009019784A1 (ja) * 2007-08-09 2009-02-12 Fujitsu Limited 情報処理装置,更新情報取得方法,更新情報取得プログラム及び同プログラムを記録したコンピュータ読取可能な記録媒体
JP2011081710A (ja) * 2009-10-09 2011-04-21 Konica Minolta Business Technologies Inc 管理システム及び被管理装置並びに管理方法
JP2011142424A (ja) * 2010-01-06 2011-07-21 Kddi R & D Laboratories Inc ホームネットワークにおけるコンテンツ再生方法及びシステム
CN104503966A (zh) * 2014-10-16 2015-04-08 杭州斯凯网络科技有限公司 PostgreSQL大数据高效免维护自动分区方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049553A (ja) * 1996-08-05 1998-02-20 Toshiba Corp 情報収集方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049553A (ja) * 1996-08-05 1998-02-20 Toshiba Corp 情報収集方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090369A (ja) * 2006-09-29 2008-04-17 Sharp Corp コンテンツ受信装置およびコンテンツ受信方法
JP2008108007A (ja) * 2006-10-24 2008-05-08 Sony Computer Entertainment Inc 通信端末装置、通信システムおよびコンテンツファイルのダウンロード方法
JP2008257695A (ja) * 2007-03-15 2008-10-23 Yahoo Japan Corp 情報収集方法及び情報収集装置
WO2009019784A1 (ja) * 2007-08-09 2009-02-12 Fujitsu Limited 情報処理装置,更新情報取得方法,更新情報取得プログラム及び同プログラムを記録したコンピュータ読取可能な記録媒体
US20100138371A1 (en) * 2007-08-09 2010-06-03 Fujitsu Limited Information processing apparatus and update information obtainment method
JP5163648B2 (ja) * 2007-08-09 2013-03-13 富士通株式会社 情報処理装置,更新情報取得方法及び更新情報取得プログラム
US8712928B2 (en) 2007-08-09 2014-04-29 Fujitsu Limited Information processing apparatus and update information obtainment method
JP2011081710A (ja) * 2009-10-09 2011-04-21 Konica Minolta Business Technologies Inc 管理システム及び被管理装置並びに管理方法
JP2011142424A (ja) * 2010-01-06 2011-07-21 Kddi R & D Laboratories Inc ホームネットワークにおけるコンテンツ再生方法及びシステム
CN104503966A (zh) * 2014-10-16 2015-04-08 杭州斯凯网络科技有限公司 PostgreSQL大数据高效免维护自动分区方法
CN104503966B (zh) * 2014-10-16 2017-12-12 杭州斯凯网络科技有限公司 PostgreSQL大数据高效免维护自动分区方法

Similar Documents

Publication Publication Date Title
KR102151457B1 (ko) 통신 시스템에서 페이지 로딩 시간 단축 방법 및 장치
JP4832061B2 (ja) コンテンツ収集装置およびコンテンツ収集システム
CN107797894B (zh) App用户行为分析方法和装置
CN106339398A (zh) 一种网页页面的预读取方法、装置及智能终端设备
CN108011752A (zh) 故障定位分析方法及装置、计算机可读存储介质
CN104572777B (zh) 基于UIWebView组件的网页加载方法及装置
JP4795258B2 (ja) Webページ再収集方式
CN105183873A (zh) 恶意点击行为检测方法及装置
US20160019310A1 (en) Method and apparatus for rendering statistics on web page visits by a browser
TW201329890A (zh) 店鋪訪問資料處理方法及系統
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN106649313B (zh) 用于处理缓存数据的方法和设备
CN106033428A (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
CN107526748B (zh) 一种识别用户点击行为的方法和设备
JP2003271494A (ja) 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体
CN110955855B (zh) 一种信息拦截的方法、装置及终端
CN107888388B (zh) 一种网络加速服务的计费方法和***
CN107807993B (zh) 一种网页历史记录功能的实现方法及装置
CN110677270B (zh) 一种域名的可缓存性分析方法及***
CN104392000B (zh) 确定移动站点抓取配额的方法和装置
CN112486796B (zh) 一种采集车载智能终端信息的方法和装置
JP5462713B2 (ja) Webページ収集装置、方法及びプログラム
JP5538459B2 (ja) 情報処理装置及び方法
JP6510452B2 (ja) 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム
Jyoti et al. A Novel Approach for clustering web user sessions using RST

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050412