JP2005135381A - クライアントベースのウェブクローリングのためのシステムおよび方法 - Google Patents
クライアントベースのウェブクローリングのためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2005135381A JP2005135381A JP2004239997A JP2004239997A JP2005135381A JP 2005135381 A JP2005135381 A JP 2005135381A JP 2004239997 A JP2004239997 A JP 2004239997A JP 2004239997 A JP2004239997 A JP 2004239997A JP 2005135381 A JP2005135381 A JP 2005135381A
- Authority
- JP
- Japan
- Prior art keywords
- data set
- data
- web page
- information
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
Abstract
【解決手段】 サーバのクライアントの、分散される性質は、高速かつ正確なウェブクローリングデータを提供するのに利用される。サーバのウェブクローラによって集められた情報は、サーバのクライアントによって検索されたデータと比較され、クローラのデータをアップデートする。本発明の一例では、データの比較は、検索エンジンの結果ページを介して配布される情報を使うことによって遂行される。本発明の別の例では、データの妥当性確認は、サーバから生じる、ウェブクローラのデータを要約する、クライアントの辞書によって遂行される。本発明は、データの正確さを改善ためにウェブクローラがなりすましを受けないよう阻止する手段を提供することによって、データ分析も容易にする。
【選択図】 図7
Description
弱インジケータ関数は、Dに対して以下のようにランダムに構成することができる。
(2)「i番目の文字が集合Sのメンバーである(Sは、Sの部分集合である)」という様式の1つまたは複数の項の結合からなる弱インジケータ関数I’を、D’に対してランダムに選ぶ。
(3)同じようにして、D”用の弱インジケータ関数I”をランダムに選ぶ。
(4)I’(x)=1またはI”(x)=1である場合、かつその場合に限り、関数I(x)=1を作成する。
102〜106 クライアント
110 検索サーバ
112 ウェブページサーバ
200 データ分析システム
202 クライアント
204 サーバ
300 データ分析システム
400 データ分析システム
500 データ分析システム
502 クライアント
504 サーバ
508 サーバへ送信
510 サーバから受信
600 なりすまし処理
700 なりすまし防止処理
706 ウェブサーバ
800 クライアントベースのウェブクローリングの方法
900 クライアントベースのウェブクローリングの方法
1000 クライアントベースのウェブクローリングの方法
1100 クライアントベースのウェブクローリングの方法
1200 弱インジケータ関数の適切な集合を生成する方法
1300 例示的なシステム環境
1302 従来のコンピュータ
1312 RAM
1316 ハードディスクドライブ
1318 磁気ディスクドライブ
1320 取外し可能ディスク
1322 光ディスクドライブ
1324 CD−ROMディスク
1340 キーボード
1342 マウス
1362 メモリ記憶装置
1400 計算機環境
Claims (116)
- 通信システムを介して取得されるウェブページ情報に関連する第1のデータセットの生成を容易にする第1のコンポーネントと、
前記通信システムと対話する少なくとも1つの分散資源からのウェブページ情報に関連する第2のデータセットを調整する第2のコンポーネントとを備え、前記第2のデータセットは、前記第1のデータセットを洗練するために使用されることを特徴とするデータ分析システム。 - 前記第1のコンポーネントは、インターネットウェブクローラを含むことを特徴とする請求項1に記載のシステム。
- 前記第1のコンポーネントは、イントラネットウェブクローラを含むことを特徴とする請求項1に記載のシステム。
- 前記第2のコンポーネントは、前記分散資源からのデータの受信を最適化するためにさらに使用されることを特徴とする請求項1に記載のシステム。
- 前記第2のコンポーネントは、前記少なくとも1つの分散資源からの前記第2のデータセットの受信を制御するためのスケジューリング機能を提供することを特徴とする請求項1に記載のシステム。
- 前記第2のコンポーネントは、前記第1のデータセットを表す弱インジケータ関数の適切な集合を利用することによって、前記通信システムを介した通信トラフィックの削減を容易にするのに使用されることを特徴とする請求項1に記載のシステム。
- 前記第2のコンポーネントは、弱インジケータ関数の前記適切な集合から弱インジケータ関数をランダムに選択し、前記分散資源の少なくとも1つに送信するのにさらに使用されることを特徴とする請求項6に記載のシステム。
- 前記第2のコンポーネントは、前記第1のデータセットと前記第2のデータセットを比較して、前記第1のコンポーネントによって検索されたなりすましデータを検出するのにさらに使用されることを特徴とする請求項1に記載のシステム。
- 前記第2のコンポーネントは、前記第1のデータセットに関連するデータについての状況情報を生成するのにさらに使用され、前記状況情報は、少なくとも1つの分散資源に送信されることを特徴とする請求項1に記載のシステム。
- 前記状況情報は、前記第1のデータセットに関連する情報の鮮度を示す鮮度フラグを少なくとも一部は含むことを特徴とする請求項9に記載のシステム。
- 前記状況情報は、前記第1のデータセットに関連する情報のコンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項9に記載のシステム。
- 前記状況情報は、前記第1のデータセットに関連する情報のコピーを少なくとも一部は含むことを特徴とする請求項9に記載のシステム。
- 前記通信システムは、インターネットを含むことを特徴とする請求項1に記載のシステム。
- 前記通信システムは、ワールドワイドウェブを含むことを特徴とする請求項1に記載のシステム。
- 前記通信システムは、イントラネットを含むことを特徴とする請求項1に記載のシステム。
- 前記イントラネットは、ローカルエリアネットワークを含むことを特徴とする請求項15に記載のシステム。
- 前記イントラネットは、ワイドエリアネットワークを含むことを特徴とする請求項15に記載のシステム。
- 前記分散資源は、サーバのクライアントを含むことを特徴とする請求項1に記載のシステム。
- 前記分散資源は、前記通信システムおよび前記第2のコンポーネントと対話する信用できるエンティティを含むことを特徴とする請求項1に記載のシステム。
- 前記第1のデータセットは、インターネットのウェブページデータを含むことを特徴とする請求項1に記載のシステム。
- 前記第1のデータセットは、イントラネットのウェブページデータを含むことを特徴とする請求項1に記載のシステム。
- 前記第2のデータセットは、前記第1のデータセットに、前記第1のコンポーネントにとって未知のデータを含む付加データを追加するのに使用されることを特徴とする請求項1に記載のシステム。
- 前記第2のデータセットは、少なくとも1つのウェブページのコンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項1に記載のシステム。
- 前記第2のデータセットは、少なくとも1つのウェブページのURL(Uniform Resource Locator)を少なくとも一部は含むことを特徴とする請求項1に記載のシステム。
- 前記第2のデータセットは、少なくとも1つのウェブページについての情報を取得した時刻に関連するタイムスタンプを少なくとも一部は含むことを特徴とする請求項1に記載のシステム。
- 前記第2のデータセットは、少なくとも1つのウェブページのコンテンツへの変更の差分標識を少なくとも一部は含むことを特徴とする請求項1に記載のシステム。
- 前記差分標識は、ウェブページの以前のコンテンツのハッシュ、および前記ウェブページの最新コンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項26に記載のシステム。
- 前記第2のデータセットは、少なくとも1つのウェブページのコンテンツへの変更の状況標識を少なくとも一部は含むことを特徴とする請求項1に記載のシステム。
- 前記状況標識は、ウェブページのコンテンツの変化量に関する割合を少なくとも一部は含むことを特徴とする請求項28に記載のシステム。
- 前記状況標識は、ウェブページのコンテンツにおける変化の重要性を表す重要度インジケータを少なくとも一部は含むことを特徴とする請求項28に記載のシステム。
- 前記第2のデータセットは、インターネットのウェブページデータを含むことを特徴とする請求項1に記載のシステム。
- 前記第2のデータセットは、イントラネットのウェブページデータを含むことを特徴とする請求項1に記載のシステム。
- 前記第2のデータセットは、弱インジケータ関数の集合からランダムに選択された少なくとも1つの弱インジケータ関数を使って編集されたデータを含み、弱インジケータ関数の前記集合は、前記第1のデータセットを表すことを特徴とする請求項1に記載のシステム。
- 少なくとも1つの検索クエリを受け入れ、前記検索応答に埋め込まれた情報によって表される前記第1のデータセットの少なくとも一部分を有する少なくとも1つの検索応答を生成するための検索コンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
- 少なくとも1つの構成されたウェブページ上にある、少なくとも1つのリンクに埋め込まれた情報によって表される前記第1のデータセットの少なくとも一部分を有するウェブページを構成するウェブページサーバコンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
- 前記第1のデータセットを格納するための記憶コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
- 通信システムと対話するウェブページから取得される第2のデータセットに関連する第1のデータセットを生成するステップと、
前記通信システムと対話する少なくとも1つの分散資源から第3のデータセットを受信するステップであって、前記第3のデータセットは、前記分散資源によって生成されるウェブページ関連情報を含むステップと、
前記第3のデータセットから取得された情報を反映するように、前記第2のデータセットを洗練するステップとを備えたことを特徴とする、データ分析を容易にする方法。 - 前記第1のデータセットは、前記第2のデータセットの表現を含むことを特徴とする請求項37に記載の方法。
- 前記第2のデータセットの表現は、前記第2のデータセットに含まれる少なくとも1つのウェブページのコンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項38に記載の方法。
- 前記第2のデータセットの表現は、前記第2のデータセットに含まれる少なくとも1つのウェブページの状況標識を少なくとも一部は含むことを特徴とする請求項38に記載の方法。
- 前記状況標識は、前記ウェブページ情報が現在のものであるかどうかを示す鮮度フラグを含むことを特徴とする請求項40に記載の方法。
- 前記第1のデータセットは、前記第2のデータセットのコピーを含むことを特徴とする請求項37に記載の方法。
- 前記第2のデータセットは、ウェブクローラによって編集されるウェブページ情報を含むことを特徴とする請求項37に記載の方法。
- 前記第3のデータセットは、前記通信システムにおいて、クライアントがアクセスしたウェブページの情報に基づくウェブページ情報を含むことを特徴とする請求項37に記載の方法。
- 前記分散資源は、分散クローラシステムのクライアントを含むことを特徴とする請求項37に記載の方法。
- 前記通信システムは、インターネットを含むことを特徴とする請求項37に記載の方法。
- 前記通信システムは、イントラネットを含むことを特徴とする請求項37に記載の方法。
- 前記第2のデータセットを洗練するステップは、
新しい情報が前記第3のデータセットを介して前記分散資源から受信されるとき、前記第2のデータセットに未知の情報を追加するステップと、
前記第3のデータセットによって示されるように変更が起こるとき、前記第2のデータセット中の既存の情報をアップデートするステップと、
前記第3のデータセットからの情報が分析された後、前記分散資源に状況情報を渡すのに使用されるどのインジケータもリセットするステップとを含むことを特徴とする請求項37に記載の方法。 - 前記通信システムと対話する少なくとも1つの分散資源に前記第1のデータセットを送信し、前記第3のデータセットを生成するために、前記第1のデータセットが、前記分散資源によって使用されることを可能にするステップをさらに備えたことを特徴とする請求項37に記載の方法。
- 前記第2のデータセットを表すための弱インジケータ関数の集合を生成するステップと、
前記第1のデータセットとして前記分散資源へ送信するために、弱インジケータ関数の前記集合からランダムに弱インジケータ関数を選択するステップとをさらに備えたことを特徴とする請求項38に記載の方法。 - ランダムに選択された弱インジケータ関数が新しいウェブページを識別することができる確率がゼロでないように、弱インジケータ関数の前記集合が弱インジケータ関数の適切な集合を備えたことを特徴とする請求項50に記載の方法。
- 弱インジケータ関数の集合を生成するステップは、
前記第2のデータセットを表す辞書を提供するステップと、
前記辞書を重なりのない部分辞書にランダムに分割するステップと、
少なくとも1つの部分辞書の弱インジケータ関数が1に等しい場合、かつその場合に限り、I(x)=1である関数を作成するステップとを含むことを特徴とする請求項50に記載の方法。 - 前記第3のデータセットを前記第2のデータセットと比較して、前記第2のデータセットに含まれるなりすましデータを明らかにするステップをさらに備えたことを特徴とする請求項37に記載の方法。
- 前記分散資源のスケジューリングを介して、少なくとも1つの第3のデータセットの受信を最適化するステップをさらに備えたことを特徴とする請求項37に記載の方法。
- 少なくとも1つの分散資源からウェブページの検索クエリを受信するステップと、
前記分散資源からの前記ウェブページの検索クエリに応答して、ウェブの検索結果ページを生成するステップと、
前記第1のデータセット部分を、前記ウェブ検索結果ページ上にあるリンクに埋め込むステップと、
前記第2のデータセットの少なくとも一部分の表現として、前記ウェブ検索結果ページを前記分散資源に送信するステップとをさらに備えたことを特徴とする請求項37に記載の方法。 - 前記第1のデータセットの少なくとも一部分を使用してウェブページを構成して、リンクについての情報を前記ウェブページに埋め込むステップと、
前記ウェブページを送信して、前記第1のデータセットを少なくとも1つの分散資源に配布するステップとをさらに備えたことを特徴とする請求項37に記載の方法。 - 通信システムから少なくとも1つの第1のデータセットを生成する手段と、
前記通信システムと対話する少なくとも1つの分散資源から、少なくとも1つの第2のデータセットを受信し、および調整する手段と、
少なくとも1つの第2のデータセットを使用して、前記第1のデータセットを洗練する手段とを備えたことを特徴とするデータ分析システム。 - 少なくとも1つの第1のデータセットを生成する前記手段は、ウェブクローラを含むことを特徴とする請求項57に記載のシステム。
- 前記第1のデータセットは、前記ウェブクローラによって取得されるウェブページに関連するデータを含むことを特徴とする請求項58に記載のシステム。
- 前記第2のデータセットは、少なくとも1つの分散資源によって、および前記第1のデータセットを表すデータに少なくとも部分的に基づいて編集されたウェブページ比較データを含むことを特徴とする請求項57に記載のシステム。
- 分散ウェブクローリングシステムにおいて使用するために、少なくとも1つの訪問先ウェブサイトからウェブページ情報を生成する第1のコンポーネントを含むデータ分析システムであって、前記ウェブページ情報は、前記第1のコンポーネントによって、通信システムを介して第2のコンポーネントに送信されることを特徴とするデータ分析システム。
- 前記第1のコンポーネントは、前記ウェブページ情報の生成において使用されるデータを獲得した時刻に関連する少なくとも1つのタイムスタンプを提供することを特徴とする請求項61に記載のシステム。
- 前記第1のコンポーネントは、前記ウェブページ情報の生成において使用するために、少なくとも1つの検索結果ページから埋込みウェブクローラの集合のデータを受信することを特徴とする請求項61に記載のシステム。
- 前記第1のコンポーネントは、前記ウェブページ情報の生成において使用するために、少なくとも1つのウェブページから埋込みウェブクローラデータの集合を受信することを特徴とする請求項61に記載のシステム。
- 前記第1のコンポーネントは、前記分散クローラシステムの少なくとも1つの他のクライアントを介して間接的にウェブページのデータを取得し、第2のコンポーネントへのゲートウェイを提供して、前記第2のコンポーネントへのトラフィックフローを実質的に削減するようにさらに動作することを特徴とする請求項61に記載のシステム。
- 前記第1のコンポーネントは、前記分散ウェブクローリングシステムの少なくとも1つのクライアントおよび少なくとも1つのサーバから、ウェブページ関連データを受信することを特徴とする請求項61に記載のシステム。
- 前記生成されたウェブページ情報は、少なくとも1つのウェブページのコンテンツに対する変更の状況標識を少なくとも一部は含むことを特徴とする請求項61に記載のシステム。
- 前記状況標識は、ウェブページのコンテンツの変化量に関する割合を少なくとも一部は含むことを特徴とする請求項67に記載のシステム。
- 前記状況標識は、ウェブページのコンテンツにおける変化の重要性を表す重要度インジケータを少なくとも一部は含むことを特徴とする請求項67に記載のシステム。
- 前記生成されたウェブページ情報の少なくとも一部分は、前記通信システムを介して、ピアツーピアのクライアント伝送に対して利用可能になることを特徴とする請求項61に記載のシステム。
- 前記生成されたウェブページ情報は、ウェブクローラによって編集された、ウェブページのデータを表す弱インジケータ関数の適切な集合からランダムに選択された弱インジケータ関数を使って編集されることを特徴とする請求項61に記載のシステム。
- 前記通信システムは、インターネットを含むことを特徴とする請求項61に記載のシステム。
- 前記通信システムは、イントラネットを含むことを特徴とする請求項61に記載のシステム。
- 前記ウェブページ情報を格納するための記憶コンポーネントをさらに備えたことを特徴とする請求項61に記載のシステム。
- 前記生成されたウェブページ情報は、前記通信システムを介していつ伝達されるか、および伝達されるか否かを決定する通知コンポーネントをさらに備えたことを特徴とする請求項61に記載のシステム。
- 前記通知コンポーネントは、第2のコンポーネントからスケジューリング情報を受信し、前記スケジューリング情報は、前記生成されたウェブページ情報を取得し送信することを特徴とする請求項75に記載のシステム。
- 前記第1のコンポーネントは、前記ウェブページ情報の前記生成において使用するために、第2のコンポーネントからデータの集合を受信することを特徴とする請求項61に記載のシステム。
- 前記第1のコンポーネントは、前記分散ウェブクローリングシステムの外部のウェブ検索サーバを使用して、前記第2のコンポーネントにとって未知のデータを検索することを特徴とする請求項77に記載のシステム。
- 前記第1のコンポーネントは、前記ウェブページ情報および前記受信したデータの集合に基づいて比較データを生成し、前記第1のコンポーネントは、前記比較データを、前記通信システムを介して前記第2のコンポーネントに対して自由に使用可能とすることを特徴とする請求項77に記載のシステム。
- 前記比較データは、少なくとも1つのウェブページの少なくとも1つのURL(Uniform Resource Locator)を少なくとも一部は含むことを特徴とする請求項79に記載のシステム。
- 前記比較データは、最新のウェブサイト訪問を表す少なくとも1つのウェブページのコンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項79に記載のシステム。
- 前記比較データは、少なくとも1つのウェブページのコンテンツの差分標識を少なくとも一部は含むことを特徴とする請求項79に記載のシステム。
- 前記差分標識は、ウェブページの以前のコンテンツのハッシュ、および前記ウェブページの最新コンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項82に記載のシステム。
- 前記第2のコンポーネントは、前記分散クローリングシステムのサーバを含むことを特徴とする請求項77に記載のシステム。
- 前記第2のコンポーネントは、前記分散クローリングシステムのクライアントを含むことを特徴とする請求項77に記載のシステム。
- 前記生成されたウェブページ情報は、前記第2のコンポーネントにとって未知のデータを含むことを特徴とする請求項77に記載のシステム。
- 前記受信したデータの集合の少なくとも一部分は、前記通信システムを介してピアツーピアのクライアント伝送に利用可能になることを特徴とする請求項77に記載のシステム。
- 前記受信したデータの集合は、ウェブクローラによって編集されたデータ用の辞書を含むことを特徴とする請求項77に記載のシステム。
- 前記受信したデータの集合は、ウェブクローラによって編集されたデータの表現を含み、データの前記表現は、弱インジケータ関数を使って生成されることを特徴とする請求項77に記載のシステム。
- 前記受信したデータの集合は、ウェブクローラによって編集されたデータのコピーを含むことを特徴とする請求項77に記載のシステム。
- 前記第2のコンポーネントから受信したデータの前記集合を格納するための記憶コンポーネントをさらに備えたことを特徴とする請求項77に記載のシステム。
- 通信システムを介してウェブページにアクセスすることによって導出される第1のデータセットを編集するステップと、
前記通信システムと対話する分散クローリングシステムのエンティティに、前記第1のデータセットを選択的に送信するステップとを備えたことを特徴とするデータ分析を容易にする方法。 - 前記エンティティは、前記分散クローリングシステムのサーバを含むことを特徴とする請求項92に記載の方法。
- 前記エンティティは、前記分散クローリングシステムの少なくとも1つのクライアントを含むことを特徴とする請求項92に記載の方法。
- 前記第1のデータセットは、少なくとも1つのウェブページのURL(Uniform Resource Locator)を少なくとも一部は含むことを特徴とする請求項92に記載の方法。
- 前記第1のデータセットは、少なくとも1つのウェブページのコンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項92に記載の方法。
- 時刻に基づいて選択的に送信を行うことを特徴とする請求項92に記載の方法。
- 少なくとも1つのウェブページの優先順位に基づいて選択的に送信を行うことを特徴とする請求項92に記載の方法。
- 少なくとも1つのウェブページのコンテンツの変更の割合に基づいて選択的に送信を行うことを特徴とする請求項92に記載の方法。
- 少なくとも1つの新しいウェブページの識別に基づいて選択的に送信を行うことを特徴とする請求項92に記載の方法。
- ウェブクローラによって編集された第2のデータセットの表現を受信するステップであって、前記第2のデータセットは、前記通信システムの少なくとも1つのウェブページに関連するステップをさらに備えることを特徴とする請求項92に記載の方法。
- 前記第2のデータセットの前記表現を受信するステップは、前記第2のデータセットから導出され、および前記第2のデータセットへのアクセス権を有するサーバをホスティングするウェブページによって生成される埋込み情報を有するウェブページの受信を介して遂行されることを特徴とする請求項101に記載の方法。
- 前記第2のデータセットの前記表現を受信するステップは、前記第2のデータセットから導出され、および前記第2のデータセットへのアクセス権を有する検索サーバに送信されたクエリに応答して生成される埋込み情報を有する検索結果の受信を介して遂行されることを特徴とする請求項101に記載の方法。
- 前記第1のデータセットを編集するためにどのウェブページを訪れるかを制御するために、前記第2のデータセットを使用するステップをさらに備えたことを特徴とする請求項101に記載の方法。
- 前記第2のデータセットに基づいて、前記通信システムを介し前記第1のデータセットをいつ送信するかを決定するステップをさらに備えたことを特徴とする請求項101に記載の方法。
- 前記第2のデータセットは、そのデータが古くなり、前記第1のデータセットを介したアップデートを必要とするときを示す鮮度インジケータを含むことを特徴とする請求項105に記載の方法。
- 前記第2のデータセットは、いつ前記第1のデータセットが送信されるかに関するスケジュールを含むことを特徴とする請求項105に記載の方法。
- 前記第2のデータセットの少なくとも一部分を、ウェブページにアクセスすることによって取得された情報の少なくとも一部分と比較して、比較データを作成するステップと、
前記比較データの表現を生成して、前記第1のデータセットを導出するステップとをさらに備えたことを特徴とする請求項101に記載の方法。 - 前記第1のデータセットは、前記第2のデータセットにとって未知のデータを含むことを特徴とする請求項108に記載の方法。
- 前記未知のデータは、前記分散クローリングシステムの外部の検索サーバからの少なくとも1つの検索結果ページから導出された未知のデータのみを含むことを特徴とする請求項109に記載の方法。
- 前記第1のデータセットは、前記第2のデータセットによって表されるウェブページに対するコンテンツの変更を含むことを特徴とする請求項108に記載の方法。
- 前記第1のデータセットは、前記第2のデータセットによって表されるウェブページに関する状況情報を含むことを特徴とする請求項108に記載の方法。
- ウェブページについての情報を収集するために、分散システムを少なくとも一部は使用するウェブクローリングに関連する情報を少なくとも一部は備えたことを特徴とする情報収集を容易にする2つまたは3つ以上のコンピュータコンポーネントの間で伝送されるデータパケット。
- 請求項1に記載のシステムのコンピュータ実行可能コンポーネントを格納していることを特徴とするコンピュータ可読媒体。
- コンピュータ、サーバ、およびハンドヘルド電子装置から成るグループから選択される少なくとも1つを備えたことを特徴とする請求項37に記載のシステムを利用する装置。
- コンピュータ、サーバ、およびハンドヘルド電子装置から成るグループから選択される少なくとも1つを備えたことを特徴とする請求項1に記載のシステムを利用する装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/670,681 US7685296B2 (en) | 2003-09-25 | 2003-09-25 | Systems and methods for client-based web crawling |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005135381A true JP2005135381A (ja) | 2005-05-26 |
JP4668567B2 JP4668567B2 (ja) | 2011-04-13 |
Family
ID=34194835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004239997A Expired - Fee Related JP4668567B2 (ja) | 2003-09-25 | 2004-08-19 | クライアントベースのウェブクローリングのためのシステムおよび方法 |
Country Status (12)
Country | Link |
---|---|
US (1) | US7685296B2 (ja) |
EP (1) | EP1519281A3 (ja) |
JP (1) | JP4668567B2 (ja) |
KR (1) | KR101153138B1 (ja) |
CN (1) | CN1601528B (ja) |
AU (1) | AU2004205329B2 (ja) |
BR (1) | BRPI0403803A (ja) |
CA (1) | CA2478358A1 (ja) |
MY (2) | MY143875A (ja) |
RU (1) | RU2383920C2 (ja) |
TW (1) | TWI367428B (ja) |
ZA (1) | ZA200407180B (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116791A (ja) * | 2007-11-09 | 2009-05-28 | Nec Corp | サーバ装置、情報処理装置、情報処理方法およびプログラム |
JP2009527855A (ja) * | 2006-02-23 | 2009-07-30 | マイクロソフト コーポレーション | クライアントサイド攻撃対抗フィッシング検出 |
JP2010186459A (ja) * | 2009-01-15 | 2010-08-26 | Ntt Docomo Inc | コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法 |
JP2015001899A (ja) * | 2013-06-17 | 2015-01-05 | 株式会社Nttドコモ | コンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラム |
JP2022537552A (ja) * | 2020-04-29 | 2022-08-26 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | データ更新方法、装置、検索サーバ、端末及び記憶媒体 |
KR102632300B1 (ko) * | 2023-08-30 | 2024-02-01 | (주)잇츠솔루션 | 뉴럴 네트워크를 기반으로 기업의 환경 분야와 관련된 정보를 관리하는 방법 및 시스템 |
Families Citing this family (168)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7540021B2 (en) | 2000-04-24 | 2009-05-26 | Justin Page | System and methods for an identity theft protection bot |
US8527495B2 (en) * | 2002-02-19 | 2013-09-03 | International Business Machines Corporation | Plug-in parsers for configuring search engine crawler |
US8042112B1 (en) | 2003-07-03 | 2011-10-18 | Google Inc. | Scheduler for search engine crawler |
US7725452B1 (en) * | 2003-07-03 | 2010-05-25 | Google Inc. | Scheduler for search engine crawler |
US7346839B2 (en) | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
CA2447961A1 (en) * | 2003-10-31 | 2005-04-30 | Ibm Canada Limited - Ibm Canada Limitee | Research data repository system and method |
US7873724B2 (en) * | 2003-12-05 | 2011-01-18 | Microsoft Corporation | Systems and methods for guiding allocation of computational resources in automated perceptual systems |
US20050149615A1 (en) * | 2003-12-17 | 2005-07-07 | Nedimyer Joseph P. | System and method for processing resource registry updates without regard to chronological order |
US8452880B2 (en) * | 2003-12-22 | 2013-05-28 | Oracle International Corporation | System and method for verifying intended contents of an electronic message |
US7299222B1 (en) * | 2003-12-30 | 2007-11-20 | Aol Llc | Enhanced search results |
US20050192948A1 (en) * | 2004-02-02 | 2005-09-01 | Miller Joshua J. | Data harvesting method apparatus and system |
US8131702B1 (en) | 2004-03-31 | 2012-03-06 | Google Inc. | Systems and methods for browsing historical content |
US8041769B2 (en) * | 2004-05-02 | 2011-10-18 | Markmonitor Inc. | Generating phish messages |
US7457823B2 (en) | 2004-05-02 | 2008-11-25 | Markmonitor Inc. | Methods and systems for analyzing data related to possible online fraud |
US20070107053A1 (en) * | 2004-05-02 | 2007-05-10 | Markmonitor, Inc. | Enhanced responses to online fraud |
US8769671B2 (en) * | 2004-05-02 | 2014-07-01 | Markmonitor Inc. | Online fraud solution |
US7913302B2 (en) * | 2004-05-02 | 2011-03-22 | Markmonitor, Inc. | Advanced responses to online fraud |
US9203648B2 (en) | 2004-05-02 | 2015-12-01 | Thomson Reuters Global Resources | Online fraud solution |
US7870608B2 (en) * | 2004-05-02 | 2011-01-11 | Markmonitor, Inc. | Early detection and monitoring of online fraud |
US7992204B2 (en) | 2004-05-02 | 2011-08-02 | Markmonitor, Inc. | Enhanced responses to online fraud |
US7987172B1 (en) | 2004-08-30 | 2011-07-26 | Google Inc. | Minimizing visibility of stale content in web searching including revising web crawl intervals of documents |
US8386459B1 (en) * | 2005-04-25 | 2013-02-26 | Google Inc. | Scheduling a recrawl |
US8666964B1 (en) | 2005-04-25 | 2014-03-04 | Google Inc. | Managing items in crawl schedule |
US8856279B2 (en) * | 2005-05-26 | 2014-10-07 | Citrix Systems Inc. | Method and system for object prediction |
US7509315B1 (en) | 2005-06-24 | 2009-03-24 | Google Inc. | Managing URLs |
US20070028301A1 (en) * | 2005-07-01 | 2007-02-01 | Markmonitor Inc. | Enhanced fraud monitoring systems |
KR100705413B1 (ko) * | 2005-08-19 | 2007-04-10 | 엔에이치엔(주) | 웹 페이지 지정 크롤링 가능한 웹 서버 기반의 데스크톱검색 시스템 및 방법 |
US8321198B2 (en) * | 2005-09-06 | 2012-11-27 | Kabushiki Kaisha Square Enix | Data extraction system, terminal, server, programs, and media for extracting data via a morphological analysis |
US8503995B2 (en) | 2005-09-14 | 2013-08-06 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US8666376B2 (en) * | 2005-09-14 | 2014-03-04 | Millennial Media | Location based mobile shopping affinity program |
US20080214154A1 (en) * | 2005-11-01 | 2008-09-04 | Jorey Ramer | Associating mobile and non mobile web content |
US7702318B2 (en) | 2005-09-14 | 2010-04-20 | Jumptap, Inc. | Presentation of sponsored content based on mobile transaction event |
US7676394B2 (en) | 2005-09-14 | 2010-03-09 | Jumptap, Inc. | Dynamic bidding and expected value |
US8812526B2 (en) | 2005-09-14 | 2014-08-19 | Millennial Media, Inc. | Mobile content cross-inventory yield optimization |
US8103545B2 (en) | 2005-09-14 | 2012-01-24 | Jumptap, Inc. | Managing payment for sponsored content presented to mobile communication facilities |
US8515401B2 (en) | 2005-09-14 | 2013-08-20 | Jumptap, Inc. | System for targeting advertising content to a plurality of mobile communication facilities |
US8027879B2 (en) * | 2005-11-05 | 2011-09-27 | Jumptap, Inc. | Exclusivity bidding for mobile sponsored content |
US8311888B2 (en) * | 2005-09-14 | 2012-11-13 | Jumptap, Inc. | Revenue models associated with syndication of a behavioral profile using a monetization platform |
US8131271B2 (en) | 2005-11-05 | 2012-03-06 | Jumptap, Inc. | Categorization of a mobile user profile based on browse behavior |
US9471925B2 (en) | 2005-09-14 | 2016-10-18 | Millennial Media Llc | Increasing mobile interactivity |
US8209344B2 (en) | 2005-09-14 | 2012-06-26 | Jumptap, Inc. | Embedding sponsored content in mobile applications |
US8156128B2 (en) | 2005-09-14 | 2012-04-10 | Jumptap, Inc. | Contextual mobile content placement on a mobile communication facility |
US8805339B2 (en) | 2005-09-14 | 2014-08-12 | Millennial Media, Inc. | Categorization of a mobile user profile based on browse and viewing behavior |
US8615719B2 (en) | 2005-09-14 | 2013-12-24 | Jumptap, Inc. | Managing sponsored content for delivery to mobile communication facilities |
US8832100B2 (en) * | 2005-09-14 | 2014-09-09 | Millennial Media, Inc. | User transaction history influenced search results |
US7912458B2 (en) | 2005-09-14 | 2011-03-22 | Jumptap, Inc. | Interaction analysis and prioritization of mobile content |
US20110313853A1 (en) | 2005-09-14 | 2011-12-22 | Jorey Ramer | System for targeting advertising content to a plurality of mobile communication facilities |
US7577665B2 (en) * | 2005-09-14 | 2009-08-18 | Jumptap, Inc. | User characteristic influenced search results |
US20080214153A1 (en) * | 2005-09-14 | 2008-09-04 | Jorey Ramer | Mobile User Profile Creation based on User Browse Behaviors |
US9058406B2 (en) | 2005-09-14 | 2015-06-16 | Millennial Media, Inc. | Management of multiple advertising inventories using a monetization platform |
US20070100806A1 (en) * | 2005-11-01 | 2007-05-03 | Jorey Ramer | Client libraries for mobile content |
US8290810B2 (en) | 2005-09-14 | 2012-10-16 | Jumptap, Inc. | Realtime surveying within mobile sponsored content |
US8364521B2 (en) * | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Rendering targeted advertisement on mobile communication facilities |
US9076175B2 (en) | 2005-09-14 | 2015-07-07 | Millennial Media, Inc. | Mobile comparison shopping |
US7660581B2 (en) | 2005-09-14 | 2010-02-09 | Jumptap, Inc. | Managing sponsored content based on usage history |
US7752209B2 (en) | 2005-09-14 | 2010-07-06 | Jumptap, Inc. | Presenting sponsored content on a mobile communication facility |
US10592930B2 (en) | 2005-09-14 | 2020-03-17 | Millenial Media, LLC | Syndication of a behavioral profile using a monetization platform |
US20070061246A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Mobile campaign creation |
US20080215557A1 (en) * | 2005-11-05 | 2008-09-04 | Jorey Ramer | Methods and systems of mobile query classification |
US20090240568A1 (en) * | 2005-09-14 | 2009-09-24 | Jorey Ramer | Aggregation and enrichment of behavioral profile data using a monetization platform |
US9703892B2 (en) | 2005-09-14 | 2017-07-11 | Millennial Media Llc | Predictive text completion for a mobile communication facility |
US20080214204A1 (en) * | 2005-11-01 | 2008-09-04 | Jorey Ramer | Similarity based location mapping of mobile comm facility users |
US8364540B2 (en) | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Contextual targeting of content using a monetization platform |
US8302030B2 (en) | 2005-09-14 | 2012-10-30 | Jumptap, Inc. | Management of multiple advertising inventories using a monetization platform |
US10911894B2 (en) | 2005-09-14 | 2021-02-02 | Verizon Media Inc. | Use of dynamic content generation parameters based on previous performance of those parameters |
US8229914B2 (en) * | 2005-09-14 | 2012-07-24 | Jumptap, Inc. | Mobile content spidering and compatibility determination |
US8819659B2 (en) | 2005-09-14 | 2014-08-26 | Millennial Media, Inc. | Mobile search service instant activation |
US20080214151A1 (en) * | 2005-09-14 | 2008-09-04 | Jorey Ramer | Methods and systems for mobile coupon placement |
US20080270220A1 (en) * | 2005-11-05 | 2008-10-30 | Jorey Ramer | Embedding a nonsponsored mobile content within a sponsored mobile content |
US8688671B2 (en) | 2005-09-14 | 2014-04-01 | Millennial Media | Managing sponsored content based on geographic region |
US10038756B2 (en) | 2005-09-14 | 2018-07-31 | Millenial Media LLC | Managing sponsored content based on device characteristics |
US20080214148A1 (en) * | 2005-11-05 | 2008-09-04 | Jorey Ramer | Targeting mobile sponsored content within a social network |
US8989718B2 (en) | 2005-09-14 | 2015-03-24 | Millennial Media, Inc. | Idle screen advertising |
US8660891B2 (en) | 2005-11-01 | 2014-02-25 | Millennial Media | Interactive mobile advertisement banners |
US9201979B2 (en) * | 2005-09-14 | 2015-12-01 | Millennial Media, Inc. | Syndication of a behavioral profile associated with an availability condition using a monetization platform |
US8195133B2 (en) | 2005-09-14 | 2012-06-05 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US7769764B2 (en) | 2005-09-14 | 2010-08-03 | Jumptap, Inc. | Mobile advertisement syndication |
US20070060173A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Managing sponsored content based on transaction history |
US8238888B2 (en) | 2006-09-13 | 2012-08-07 | Jumptap, Inc. | Methods and systems for mobile coupon placement |
US8175585B2 (en) | 2005-11-05 | 2012-05-08 | Jumptap, Inc. | System for targeting advertising content to a plurality of mobile communication facilities |
US8868540B2 (en) * | 2006-03-01 | 2014-10-21 | Oracle International Corporation | Method for suggesting web links and alternate terms for matching search queries |
US7941419B2 (en) * | 2006-03-01 | 2011-05-10 | Oracle International Corporation | Suggested content with attribute parameterization |
US20070214129A1 (en) * | 2006-03-01 | 2007-09-13 | Oracle International Corporation | Flexible Authorization Model for Secure Search |
US9177124B2 (en) | 2006-03-01 | 2015-11-03 | Oracle International Corporation | Flexible authentication framework |
US8214394B2 (en) | 2006-03-01 | 2012-07-03 | Oracle International Corporation | Propagating user identities in a secure federated search system |
US8875249B2 (en) * | 2006-03-01 | 2014-10-28 | Oracle International Corporation | Minimum lifespan credentials for crawling data repositories |
US8332430B2 (en) | 2006-03-01 | 2012-12-11 | Oracle International Corporation | Secure search performance improvement |
US8707451B2 (en) * | 2006-03-01 | 2014-04-22 | Oracle International Corporation | Search hit URL modification for secure application integration |
US11062267B1 (en) | 2006-03-30 | 2021-07-13 | Geographic Solutions, Inc. | Automated reactive talent matching |
US7941525B1 (en) | 2006-04-01 | 2011-05-10 | ClickTale, Ltd. | Method and system for monitoring an activity of a user |
US20080155409A1 (en) * | 2006-06-19 | 2008-06-26 | Andy Santana | Internet search engine |
US10223671B1 (en) * | 2006-06-30 | 2019-03-05 | Geographic Solutions, Inc. | System, method and computer program products for direct applying to job applications |
US7660787B2 (en) * | 2006-07-19 | 2010-02-09 | International Business Machines Corporation | Customized, personalized, integrated client-side search indexing of the web |
US7634458B2 (en) * | 2006-07-20 | 2009-12-15 | Microsoft Corporation | Protecting non-adult privacy in content page search |
US7620634B2 (en) * | 2006-07-31 | 2009-11-17 | Microsoft Corporation | Ranking functions using an incrementally-updatable, modified naïve bayesian query classifier |
US7996487B2 (en) * | 2006-08-23 | 2011-08-09 | Oracle International Corporation | Managing searches on mobile devices |
US8359278B2 (en) | 2006-10-25 | 2013-01-22 | IndentityTruth, Inc. | Identity protection |
US8225192B2 (en) * | 2006-10-31 | 2012-07-17 | Microsoft Corporation | Extensible cache-safe links to files in a web page |
CN101187925B (zh) * | 2006-11-17 | 2010-11-03 | 北京酷讯科技有限公司 | 自动优化爬虫的抓取方法 |
EP2140380A2 (en) * | 2006-12-19 | 2010-01-06 | Koninklijke KPN N.V. | Data network service based on profiling ip-addresses |
US8099386B2 (en) * | 2006-12-27 | 2012-01-17 | Research In Motion Limited | Method and apparatus for synchronizing databases connected by wireless interface |
US10156953B2 (en) * | 2006-12-27 | 2018-12-18 | Blackberry Limited | Method for presenting data on a small screen |
US8275741B2 (en) * | 2006-12-27 | 2012-09-25 | Research In Motion Limited | Method and apparatus for memory management in an electronic device |
US20080162486A1 (en) * | 2006-12-27 | 2008-07-03 | Research In Motion Limited | Method and apparatus for storing data from a network address |
US7979458B2 (en) | 2007-01-16 | 2011-07-12 | Microsoft Corporation | Associating security trimmers with documents in an enterprise search system |
US7953868B2 (en) | 2007-01-31 | 2011-05-31 | International Business Machines Corporation | Method and system for preventing web crawling detection |
US9665543B2 (en) * | 2007-03-21 | 2017-05-30 | International Business Machines Corporation | System and method for reference validation in word processor documents |
US20080235163A1 (en) * | 2007-03-22 | 2008-09-25 | Srinivasan Balasubramanian | System and method for online duplicate detection and elimination in a web crawler |
AU2008235263A1 (en) * | 2007-04-10 | 2008-10-16 | Accenture Global Services Limited | System and method of search validation |
JP4867799B2 (ja) * | 2007-06-05 | 2012-02-01 | 沖電気工業株式会社 | クローリング方法、そのプログラムおよび装置、エージェント装置、ネットワークシステム |
US8843471B2 (en) * | 2007-08-14 | 2014-09-23 | At&T Intellectual Property I, L.P. | Method and apparatus for providing traffic-based content acquisition and indexing |
US8954867B2 (en) * | 2008-02-26 | 2015-02-10 | Biz360 Inc. | System and method for gathering product, service, entity and/or feature opinions |
US8359651B1 (en) * | 2008-05-15 | 2013-01-22 | Trend Micro Incorporated | Discovering malicious locations in a public computer network |
US8078974B2 (en) * | 2008-06-27 | 2011-12-13 | Microsoft Corporation | Relating web page change with revisitation patterns |
US8775465B2 (en) * | 2008-07-30 | 2014-07-08 | Yahoo! Inc. | Automatic updating of content included in research documents |
CN101650715B (zh) * | 2008-08-12 | 2011-06-29 | 厦门市美亚柏科信息股份有限公司 | 一种筛选网页上链接的方法和装置 |
EP2409251A4 (en) * | 2009-03-20 | 2015-03-18 | Ad Vantage Networks Llc | METHOD AND SYSTEMS FOR SCANNING, SELECTION AND DISPLAY OF CONTENT |
US8712992B2 (en) * | 2009-03-28 | 2014-04-29 | Microsoft Corporation | Method and apparatus for web crawling |
CN101515300B (zh) | 2009-04-02 | 2011-07-20 | 阿里巴巴集团控股有限公司 | 一种Ajax网页内容的抓取方法及*** |
US10108432B1 (en) * | 2009-04-16 | 2018-10-23 | Intuit Inc. | Generating a script based on user actions |
US20110088100A1 (en) * | 2009-10-14 | 2011-04-14 | Serge Rutman | Disabling electronic display devices |
JP2011107557A (ja) * | 2009-11-20 | 2011-06-02 | Fuji Xerox Co Ltd | 画像形成装置 |
US8666996B2 (en) * | 2009-12-23 | 2014-03-04 | Mastercard International Incorporated | Methods and systems for detecting broken links within a file |
US8600979B2 (en) * | 2010-06-28 | 2013-12-03 | Yahoo! Inc. | Infinite browse |
US9043306B2 (en) | 2010-08-23 | 2015-05-26 | Microsoft Technology Licensing, Llc | Content signature notification |
CN102480524B (zh) * | 2010-11-26 | 2014-09-10 | 中国科学院声学研究所 | 一种网页爬虫协作方法 |
WO2012167149A1 (en) * | 2011-06-01 | 2012-12-06 | Mycomingle, Llc | System and method for internet services aggregation |
US8671108B2 (en) | 2011-09-02 | 2014-03-11 | Mastercard International Incorporated | Methods and systems for detecting website orphan content |
US20130159051A1 (en) * | 2011-12-15 | 2013-06-20 | Sybase 365, Inc. | System and Method for Enhanced Information Gathering |
US8577610B2 (en) | 2011-12-21 | 2013-11-05 | Telenav Inc. | Navigation system with point of interest harvesting mechanism and method of operation thereof |
CN102594934B (zh) * | 2011-12-30 | 2015-03-25 | 奇智软件(北京)有限公司 | 一种识别被劫持网址的方法及装置 |
US20140380477A1 (en) * | 2011-12-30 | 2014-12-25 | Beijing Qihoo Technology Company Limited | Methods and devices for identifying tampered webpage and inentifying hijacked web address |
US20130283097A1 (en) * | 2012-04-23 | 2013-10-24 | Yahoo! Inc. | Dynamic network task distribution |
FR2994296B1 (fr) * | 2012-08-01 | 2015-06-19 | Netwave | Procede de traitement de donnees pour analyse situationnelle |
FR2994358B1 (fr) * | 2012-08-01 | 2015-06-19 | Netwave | Systeme de traitement de donnees de connexion a une plateforme d'un site internet |
FR2994297B1 (fr) * | 2012-08-01 | 2015-06-19 | Netwave | Procede de traitement de donnees de connexion d'une plateforme d'un site internet |
CN102917053B (zh) * | 2012-10-18 | 2016-03-30 | 北京奇虎科技有限公司 | 一种用于判断网页网址重写的方法、设备和*** |
CN102932435B (zh) * | 2012-10-18 | 2016-06-15 | 北京奇虎科技有限公司 | 网络检测*** |
ES2709074T3 (es) * | 2013-03-15 | 2019-04-15 | Onective Ag | Comparación de una lista de contactos automatizada con una mejora de la privacidad |
US9805018B1 (en) * | 2013-03-15 | 2017-10-31 | Steven E. Richfield | Natural language processing for analyzing internet content and finding solutions to needs expressed in text |
US20150074101A1 (en) * | 2013-09-10 | 2015-03-12 | Microsoft Corporation | Smart search refinement |
WO2015047222A1 (en) * | 2013-09-24 | 2015-04-02 | Mcafee, Inc. | Adaptive and recursive filtering for sample submission |
US9614869B2 (en) * | 2013-11-23 | 2017-04-04 | Universidade da Coruña—OTRI | System and server for detecting web page changes |
KR101560716B1 (ko) * | 2014-02-14 | 2015-10-16 | (주)엠더블유스토리 | 디지털콘텐츠의 무결성 보장을 위한 디지털 콘텐츠 모니터링 시스템 |
RU2634218C2 (ru) | 2014-07-24 | 2017-10-24 | Общество С Ограниченной Ответственностью "Яндекс" | Способ определения последовательности просмотра веб-страниц и сервер, используемый в нем |
CN104750804A (zh) * | 2015-03-24 | 2015-07-01 | 南京途牛科技有限公司 | 一种插件式可配置的垂直领域网络爬虫实现方法 |
US10210255B2 (en) * | 2015-12-31 | 2019-02-19 | Fractal Industries, Inc. | Distributed system for large volume deep web data extraction |
KR20180090180A (ko) | 2015-12-28 | 2018-08-10 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 웹사이트 액세스 방법, 장치, 및 웹사이트 시스템 |
US10681182B1 (en) * | 2016-04-06 | 2020-06-09 | Uipco, Llc | Multi-device work flow management method and system for managing work flow data collection for users across a diverse set of devices and processes by unifying the work process to be data and device agnostic |
CN106156291A (zh) * | 2016-06-29 | 2016-11-23 | 深圳市彬讯科技有限公司 | 基于Localstroage的静态资源的缓存方法及其*** |
CN106326447B (zh) * | 2016-08-26 | 2019-06-21 | 北京量科邦信息技术有限公司 | 一种众包网络爬虫抓取数据的检测方法及*** |
US10491622B2 (en) * | 2017-01-04 | 2019-11-26 | Synack, Inc. | Automatic webpage change detection |
US10970354B2 (en) * | 2017-07-17 | 2021-04-06 | Songtradr, Inc. | Method for processing code and increasing website and client interaction speed |
CN108170843B (zh) * | 2018-01-17 | 2019-07-12 | 百度在线网络技术(北京)有限公司 | 用于获取数据的方法和装置 |
KR102222287B1 (ko) | 2018-05-17 | 2021-03-02 | 동서대학교 산학협력단 | 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템 |
KR102221045B1 (ko) * | 2018-08-08 | 2021-02-25 | 동명대학교산학협력단 | 다중 스레드 방식의 웹 크롤링 시스템 |
CN109284430A (zh) * | 2018-09-07 | 2019-01-29 | 杭州艾塔科技有限公司 | 基于分布式架构的可视化主题网页内容爬取***及方法 |
US11361076B2 (en) * | 2018-10-26 | 2022-06-14 | ThreatWatch Inc. | Vulnerability-detection crawler |
CN109740038A (zh) * | 2019-01-02 | 2019-05-10 | 安徽芃睿科技有限公司 | 网络数据分布式采集***及方法 |
US11366862B2 (en) * | 2019-11-08 | 2022-06-21 | Gap Intelligence, Inc. | Automated web page accessing |
CN111368164B (zh) * | 2020-02-24 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 一种爬虫识别模型训练、爬虫识别方法、装置、***、设备及介质 |
CN111506787B (zh) * | 2020-03-06 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 网页更新的方法、装置、电子设备和计算机可读存储介质 |
CN111506786B (zh) * | 2020-03-06 | 2023-10-27 | 百度在线网络技术(北京)有限公司 | 网页更新的方法、装置、电子设备和计算机可读存储介质 |
CN111767442B (zh) * | 2020-04-29 | 2023-12-26 | 百度在线网络技术(北京)有限公司 | 数据更新方法、装置、搜索服务器、终端及存储介质 |
KR102550868B1 (ko) | 2021-01-22 | 2023-07-04 | 인하대학교 산학협력단 | 교원 업적 검증 시스템 |
CN114090935A (zh) * | 2021-11-25 | 2022-02-25 | 马上消费金融股份有限公司 | 数据采集方法及装置 |
US20230216913A1 (en) * | 2021-12-31 | 2023-07-06 | Tangoe Us, Inc. | Robotic Process Automation For Telecom Expense Management Information Change Detection And Notification |
CN114579864A (zh) * | 2022-03-10 | 2022-06-03 | 海南希沃科技有限公司 | 一种互联网产品推销用数据通讯服务机 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140257A (ja) * | 2000-10-31 | 2002-05-17 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ判定方法 |
JP2002312284A (ja) * | 2001-04-10 | 2002-10-25 | Clover Network Com:Kk | ホームページ改竄検知装置及び改竄検知プログラム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5185040A (en) * | 1988-12-19 | 1993-02-09 | Murata Manufacturing Co., Ltd. | Apparatus for forming electrode on electronic component |
GB2257386B (en) * | 1991-06-24 | 1995-07-05 | Tani Denki Kogyo Kk | Screen printing apparatus |
US5786701A (en) * | 1993-07-02 | 1998-07-28 | Mitel Semiconductor Limited | Bare die testing |
NL9301820A (nl) * | 1993-10-20 | 1995-05-16 | Stork Screens Bv | Rakelsamenstel. |
US5492266A (en) * | 1994-08-31 | 1996-02-20 | International Business Machines Corporation | Fine pitch solder deposits on printed circuit board process and product |
US6286422B1 (en) * | 1994-12-27 | 2001-09-11 | Visteon Global Tech., Inc. | Method and apparatus for dispensing viscous material |
US5868302A (en) * | 1995-09-06 | 1999-02-09 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for mounting electronic component |
US5925187A (en) * | 1996-02-08 | 1999-07-20 | Speedline Technologies, Inc. | Apparatus for dispensing flowable material |
US5935210A (en) * | 1996-11-27 | 1999-08-10 | Microsoft Corporation | Mapping the structure of a collection of computer resources |
EP0918413B1 (en) | 1996-12-16 | 2004-02-25 | Samsung Electronics Co., Ltd. | Method for sending e-mail messages in a local area network, and device for applying same |
US5909634A (en) * | 1996-12-20 | 1999-06-01 | Texas Instruments | Method and apparatus for forming solder on a substrate |
US6587836B1 (en) * | 1997-09-26 | 2003-07-01 | Worldcom, Inc. | Authentication and entitlement for users of web based data management programs |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6638314B1 (en) * | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
US6199081B1 (en) * | 1998-06-30 | 2001-03-06 | Microsoft Corporation | Automatic tagging of documents and exclusion by content |
JP2000168045A (ja) * | 1998-12-02 | 2000-06-20 | Fuji Mach Mfg Co Ltd | スクリーン印刷用スキージおよびスクリーン印刷方法 |
US6547829B1 (en) * | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
US6434548B1 (en) | 1999-12-07 | 2002-08-13 | International Business Machines Corporation | Distributed metadata searching system and method |
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
EP1240605A4 (en) * | 1999-12-08 | 2006-09-27 | Amazon Com Inc | SYSTEM AND METHOD FOR LOCATING AND PRESENTING OFFERS OF ACCESSIBLE PRODUCTS ON THE INTERNET |
US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US7028039B2 (en) | 2001-01-18 | 2006-04-11 | Hewlett-Packard Development Company, L.P. | System and method for storing connectivity information in a web database |
US6950821B2 (en) | 2001-05-04 | 2005-09-27 | Sun Microsystems, Inc. | System and method for resolving distributed network search queries to information providers |
US20040240388A1 (en) * | 2003-05-28 | 2004-12-02 | Lee Albion | System and method for dynamic assignment of timers in a network transport engine |
US20050027670A1 (en) * | 2003-07-30 | 2005-02-03 | Petropoulos Jack G. | Ranking search results using conversion data |
-
2003
- 2003-09-25 US US10/670,681 patent/US7685296B2/en not_active Expired - Fee Related
-
2004
- 2004-08-17 RU RU2004125187/09A patent/RU2383920C2/ru not_active IP Right Cessation
- 2004-08-18 TW TW093124862A patent/TWI367428B/zh not_active IP Right Cessation
- 2004-08-19 JP JP2004239997A patent/JP4668567B2/ja not_active Expired - Fee Related
- 2004-08-20 CA CA002478358A patent/CA2478358A1/en not_active Abandoned
- 2004-08-25 EP EP04020165A patent/EP1519281A3/en not_active Withdrawn
- 2004-08-27 MY MYPI20083804A patent/MY143875A/en unknown
- 2004-08-27 MY MYPI20043519A patent/MY146316A/en unknown
- 2004-08-30 KR KR1020040068727A patent/KR101153138B1/ko not_active IP Right Cessation
- 2004-08-30 BR BR0403803-7A patent/BRPI0403803A/pt not_active IP Right Cessation
- 2004-08-30 AU AU2004205329A patent/AU2004205329B2/en not_active Ceased
- 2004-09-03 CN CN2004100769424A patent/CN1601528B/zh not_active Expired - Fee Related
- 2004-09-08 ZA ZA200407180A patent/ZA200407180B/xx unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140257A (ja) * | 2000-10-31 | 2002-05-17 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ判定方法 |
JP2002312284A (ja) * | 2001-04-10 | 2002-10-25 | Clover Network Com:Kk | ホームページ改竄検知装置及び改竄検知プログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009527855A (ja) * | 2006-02-23 | 2009-07-30 | マイクロソフト コーポレーション | クライアントサイド攻撃対抗フィッシング検出 |
US8640231B2 (en) | 2006-02-23 | 2014-01-28 | Microsoft Corporation | Client side attack resistant phishing detection |
JP2009116791A (ja) * | 2007-11-09 | 2009-05-28 | Nec Corp | サーバ装置、情報処理装置、情報処理方法およびプログラム |
JP2010186459A (ja) * | 2009-01-15 | 2010-08-26 | Ntt Docomo Inc | コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法 |
JP2015001899A (ja) * | 2013-06-17 | 2015-01-05 | 株式会社Nttドコモ | コンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラム |
JP2022537552A (ja) * | 2020-04-29 | 2022-08-26 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | データ更新方法、装置、検索サーバ、端末及び記憶媒体 |
JP7322194B2 (ja) | 2020-04-29 | 2023-08-07 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | データ更新方法、装置、検索サーバ、端末及び記憶媒体 |
US11803597B2 (en) | 2020-04-29 | 2023-10-31 | Baidu Online Network Technology (Beijing) Co., Ltd. | Data updating method, apparatus, search server, terminal and storage medium |
KR102632300B1 (ko) * | 2023-08-30 | 2024-02-01 | (주)잇츠솔루션 | 뉴럴 네트워크를 기반으로 기업의 환경 분야와 관련된 정보를 관리하는 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
JP4668567B2 (ja) | 2011-04-13 |
KR101153138B1 (ko) | 2012-06-04 |
ZA200407180B (en) | 2005-07-29 |
CN1601528B (zh) | 2011-04-13 |
AU2004205329B2 (en) | 2010-08-26 |
CN1601528A (zh) | 2005-03-30 |
MY143875A (en) | 2011-07-15 |
EP1519281A3 (en) | 2005-04-20 |
KR20050030542A (ko) | 2005-03-30 |
TWI367428B (en) | 2012-07-01 |
CA2478358A1 (en) | 2005-03-25 |
US20050071766A1 (en) | 2005-03-31 |
AU2004205329A1 (en) | 2005-04-14 |
BRPI0403803A (pt) | 2005-05-24 |
RU2383920C2 (ru) | 2010-03-10 |
EP1519281A2 (en) | 2005-03-30 |
TW200516466A (en) | 2005-05-16 |
RU2004125187A (ru) | 2006-02-20 |
US7685296B2 (en) | 2010-03-23 |
MY146316A (en) | 2012-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4668567B2 (ja) | クライアントベースのウェブクローリングのためのシステムおよび方法 | |
KR100781725B1 (ko) | 피어 투 피어 인가를 위한 방법 및 시스템 | |
CN109933701B (zh) | 一种基于多策略融合的微博数据获取方法 | |
US8229930B2 (en) | URL reputation system | |
JP2000357176A (ja) | コンテンツ索引付け検索システム及び検索結果提供方法 | |
US11790016B2 (en) | Method, device and computer program for collecting data from multi-domain | |
US20160299971A1 (en) | Identifying Search Engine Crawlers | |
Yuan et al. | Efficient service discovery in decentralized online social networks | |
CN103440454B (zh) | 一种基于搜索引擎关键词的主动式蜜罐检测方法 | |
JP2010537281A (ja) | 分散ネットワーク上の広告を追跡し最適化する方法およびシステム | |
Di Tizio et al. | Pareto-optimal defenses for the web infrastructure: Theory and practice | |
EP3789890A1 (en) | Fully qualified domain name (fqdn) determination | |
Mastorakis et al. | Experimentation with fuzzy interest forwarding in named data networking | |
Ashraf | Avoiding Vulnerabilities and Attacks with a Proactive Strategy for Web Applications | |
KR102190316B1 (ko) | 브라우저 모사를 이용한 딥웹 분석 시스템 및 그 분석 방법 | |
JP2006058948A (ja) | コンテンツ情報収集装置、コンテンツ情報収集方法およびコンテンツ情報収集方法をコンピュータに実行させるコンテンツ情報収集プログラム | |
JP2005339008A (ja) | アクセス制御方法およびプログラムと記録媒体 | |
Liu et al. | WRT: Constructing Users' Web Request Trees from HTTP Header Logs | |
US20110208717A1 (en) | Chaffing search engines to obscure user activity and interests | |
Hsiao et al. | A secure proxy-based cross-domain communication for web mashups | |
RU2708352C1 (ru) | Способ блокирования рекламы на вычислительных устройствах | |
Douglas | Circumvention of censorship of internet access and publication | |
Pereira | Whirlpool: A microservice style scalable continuous topical web crawler | |
Cai et al. | Cyber Attribution from Topological Patterns | |
Tang et al. | An IOTA-Based Service Discovery Framework for Fog Computing. Electronics 2021, 10, 844 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |