JP2005031867A - ウエブ情報収集装置及びウエブ情報収集方法 - Google Patents

ウエブ情報収集装置及びウエブ情報収集方法 Download PDF

Info

Publication number
JP2005031867A
JP2005031867A JP2003194662A JP2003194662A JP2005031867A JP 2005031867 A JP2005031867 A JP 2005031867A JP 2003194662 A JP2003194662 A JP 2003194662A JP 2003194662 A JP2003194662 A JP 2003194662A JP 2005031867 A JP2005031867 A JP 2005031867A
Authority
JP
Japan
Prior art keywords
homepage
keyword
character data
web
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003194662A
Other languages
English (en)
Inventor
Shigehiko Suzuki
茂彦 鈴木
Masaki Uchida
雅規 内田
Taisuke Ushio
泰典 牛尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003194662A priority Critical patent/JP2005031867A/ja
Publication of JP2005031867A publication Critical patent/JP2005031867A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】インターネットを介したウエブページの情報収集において、キーワードが含まれたホームページの効率的な情報収集装置を提供する。
【解決手段】指定されたホームページの複数階層にわたって文字データをダウンロードし、そのダウンロードした文字データファイルについて予め設定されたキーワードによる検索を行い、前記文字データファイルの日付が既登録データと照合して不一致の場合に、キーワード検索でヒットしたホームページ全体をダウンロードし、ダウンロードしたホームページの変更内容について、関係ユーザにメールにて通知する。また、キーワードがヒットしたホームページについて、ヘッドラインを編集しニュースとして配信する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、キーワードが含まれたホームページを情報収集し、キーワード検索の結果、新規、あるいは変更のあったホームページを関係者にメール配信する技術に関する。
【0002】
【従来の技術】
インターネットの普及に伴い、インターネット上にあるWWW(World Wide Web:ワールドワイドウエブ、以下ウエブと表現)サイトから、Googleに代表される検索エンジンを利用することで所望のウエブ情報を収集することが一般に行なわれている( 例えば、非特許文献1参照)。
【0003】
しかしながら、従来、検索エンジンにおいてキーワード検索する場合、参照しきれない程の膨大なホームページがヒットしてしまう。また、条件を追加していくと、参照したいホームページがヒットしないことが多いなどの問題を抱えていた。
さらに、キーワード検索でヒットしたホームページをダウンロードすると、参照したくないホームページもダウンロードされるため、処理時間がかかり、所望の情報の特定が直ぐにできない。また、更新していないホームページも再確認せざるを得ず、欲しい情報がなかなか参照できない。さらには、グループに属し共同作業を行う複数の利用者が、同一のホームページを参照して、同じ内容を確認しているなど大変不効率なことを行っていた。
【0004】
【非特許文献1】
日経BP社「日経パソコン」2001年新春特集号、No.376(92〜115頁)
【0005】
【発明が解決しようとする課題】
そこで、上記した問題を解決するため、本発明では、キーワード指定されたホームページの複数階層にわたってキーワードが含まれているページを参照し、キーワード検索でヒットしたホームページが改版されていればユーザに通知する(キーワードが含まれていても以前にホームページを参照していれば参照範囲外にする)。また、キーワード検索で、改版、新規のホームページが判っても、本当に参照したいホームページは少ない。そのため、一人がホームページを確認して、内容( ヘッドライン) をまとめ、その内容を関係者にメール配信し、ホームページの参照時間を減らすことを目的とする。
【0006】
【課題を解決するための手段】
第一の発明は、インターネットを介したウエブ情報収集装置において、指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回手段と、前記文字データをホームページ毎にファイルとして格納する文字データファイル格納手段と、前記ウエブ巡回手段によってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索手段と、前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロード手段と、ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知手段と、を有することを特徴とするウエブ情報収集装置に関する。
【0007】
すなわち、第一の発明によれば、ウエブ巡回手段によって、予め指定されたホームページの複数層を巡回してテキストデータをダウンロードし、そのダウンロードしたテキスト内をキーワード検索し、検索の結果、キーワードが存在したホームページ全体をダウンロードし、かつ更新日付をチェックすることで、改版、あるいは新規のホームページに対し、ユーザに自動通知するような構成とした。
【0008】
これによって、指定範囲( ダウンロードファイル) 内でキーワード検索が出来るため、必要なホームページを簡単に探すことができ、また、指定したホームページの複数階層で、指定キーワードが含まれたホームページの表示を行い、ホームページが改版された場合、新規登録されたホームページのみ通知するため、変更が無いホームページを参照しなくてもよく、検索の処理時間が大幅に短縮できる。
【0009】
第二の発明は、前記ウエブ巡回手段では、前記キーワード検索手段においてキーワードがヒットしたホームページだけを対象に、次回以降、巡回させることを特徴とする上記第一の発明に記載のウエブ情報収集装置に関する。
すなわち、第二の発明によれば、初回の巡回によるダウンロードファイルでキーワード検索にヒットしたホームページだけを対象に、次回以降、巡回させることになるため、巡回処理時間が大きく短縮され、トータルなウエブ情報収集の管理工数の削減となる。
【0010】
【発明の実施の形態】
以下、図面にもとづいて本発明の実施形態を説明する。
図1は、本発明の基本システム構成を示す。本発明のシステムは、インターネット3を介して、これに接続する複数の情報提供サーバ(図示していない)からホームページの情報を収集するウエブ情報収集装置1と、ホームページの場所を表すURL(Uniform Resource Locators )の設定、キーワード設定、検索結果確認、およびニュース投稿等、前記ウエブ情報端末1とLAN(Local Area Network)で接続され、ウエブ情報巡回及び検索にあたっての環境設定の入力を行う複数のユーザ端末2とで構成され、グループ内で収集したウエブ情報を共有して管理するシステムとなっている。
【0011】
また、ウエブ情報収集装置1は、指定したホームページ巡回のためのURL管理データベース10と、ユーザが入力した巡回条件、キーワード条件等ウエブ情報の巡回、検索のための環境条件を保持しておく環境設定ファイル11と、巡回条件取得手段12と、指定したURLにしたがってインターネットに接続する情報提供サーバにアクセスし、ホームページの複数層にわたって巡回して文字データ(拡張子指定)を自動的にダウンロードするウエブ巡回手段13と、前記文字データをホームページ毎に格納する文字データファイル格納手段14と、そのダウンロードした文字データファイルを格納するダウンロードフォルダ15と、格納したダウンロードファイルを予め設定されたキーワードによって検索するキーワード検索手段16と、キーワード検索の結果、そのヒットした情報を格納するヒット情報データベース17と、ヒットしたホームページ全体をダウンロードするホームページダウンロード手段18と、そのダウンロードしたファイルの内、変更、あるいは新規情報があれば、その更新情報を関係ユーザに通知する情報通知手段19とで構成される。
【0012】
ここで、ウエブ情報収集装置1は、コンピュータであり、予め内蔵されたプログラムがコンピュータ上で実行され、巡回条件取得手段12、ウエブ巡回手段13、文字データファイル格納手段14、キーワード検索手段16、ホームページダウンロード手段18、および情報通知手段19の各手段が実現される。そして、当該プログラムは、フロッピーディスク、コンパクトディスク、CD−ROM等のコンピュータ読取可能な記録媒体に記録され、とくに図には示していないが、内蔵あるいは、外部接続された媒体読取装置にセットしインストールすることによって実行可能な状態としてもよい。
【0013】
以下の実施例では、ウエブ情報収集の一例として、「不具合情報の収集」を例に取り上げて説明する。
図2は、本発明の実施の形態になるURL管理データベースのデータ構成例を示す図である。URL管理データベース10のデータ構成は、インターネットのウエブページの場所を表すURL、会社名、URLの登録日、巡回の収集停止(巡回してヒットしなければ停止)、URLの収集日時、セキュリティ付きサイトアクセス時の認証ID、認証パスワード、URLの巡回すべき階層数、初回収集(1又は0で表現)、および更新日時等の項目からなる。
【0014】
図3は、本発明の実施の形態になるヒット情報データベースのデータ構成例を示す図である。本ヒット情報データベース17には、ダウンロードしたホームページの内、文字データをキーワード検索してヒットした指定拡張子のファイルから、後述する関係ユーザに内容を通知する(ニュース投稿)データとしての加工情報を保持しておく。
【0015】
ヒット情報データベース17のデータ構成は、キーワードヒット有無、キーワードヒット数、総数、習得数、不可数、タイトル、およびヘッドラインの項目からなる。キーワードヒット有無は、1キーワードに対し、ヒットの有無は1又は0で表現する。例えば、キーワード列数が8個であれば、各キーワードに対応して、00100010で表され、合計ヒット数は2件とカウントされる。総数、習得数、不可数は、検索対象としたURL数を示す。タイトルは、<TITLE >の表記であり、表記がなければタイトルなしとなる。また、ヘッドラインは、キーワードがヒットしたテキストの頭からの文字数(例えば、100字等)を抽出して表現したものである。
【0016】
つぎに、本発明になるウエブ情報の収集を実施するにあたり、予めのウエブ巡回の設定項目について、図4〜図7を使って説明する。
図4は、本発明の実施の形態になる初期メニュー画面の例を示す図である。初期メニュー画面は、三つの画面領域101、102、および103で構成されている。
【0017】
画面領域101は、これまで検索されたURLリストについて、会社名、URL、更新日、およびヒット数の項目に対するデータが表示される。□はチェックボックスであり、ブランクは巡回を必要とし、×印は巡回の対象外として処理されたことを表す。これは、画面領域103の各設定ニューでユーザによって選択された結果が反映される。
【0018】
URLは、(プロトコル名)://(ドメイン名)/(ファイル名)で表される。図中、http://www.aaa.com/index.htmは、会社AAAのトップホームページのURLであり、http:// は、ウエブのクライアントが情報提供サーバと通信するHTTP(HyperText Transfer Protocol )というプロトコルを使った送信命令を表し、続くwww.aaa.com は、ホームページが保存してあるインターネット上のWWWサーバの名前を表し、index.htm は、ホームページのトップページを表している。また、(.htm)は、ホームページを記述する言語HTML(HyperText Markup Language)によるファイルの拡張子を表している。
【0019】
http://www.aaa.com/xxx1/index.htm や http:// www.aaa.com/xxx1/pr.htmは、2階層目や3階層目のウエブページを表している。
画面領域101のURLリストにおいて、例えば、URL[http://www.aaa.com/xxx1/index.htm ]のウエブページは、キーワード検索の結果、yyyy年mm月dd日に、5件のヒットがあったことを示している。
【0020】
また、画面領域102には、不具合情報、新製品情報、技術情報等のアイテムが表示される。本実施例では、不具合情報が表示されている。
さらに、画面領域103には、URL追加(URL、階層、識別子の設定)、URL削除(URLリスト、フォルダからのデータ削除)、収集停止・再開(URL毎に収集停止・再開を指示)、収集スケジュール(実行日/曜日/時刻設定)、キーワード設定(ダウンロードデータに対する検索キーワードの設定)、およびニュース投稿等、ユーザが入力すべき検索環境の設定メニューが表示される。各メニューボタンをマウスによってクリックすることで、各設定画面が表示され、該表示画面においてユーザによる入力が行われる。
【0021】
設定メニューの内、まず、URL追加およびURL削除は、AAA、BBBなどの会社のトップホームページ単位でページを追加したり、削除したりする設定機能である。
以下に、他のメニューの機能について説明する。
図5は、本発明の実施の形態になる環境設定の画面例(キーワード設定)を示す。例えば、キーワード列1は、「不具合 and コンデンサ and LSI」の検索式を検索キーワードとして検索することを表している。
【0022】
図6は、本発明の実施の形態になる環境設定の画面例(収集停止・再開設定)を示す。URLリストから、収集停止/再開を指示、収集停止したURLのファイルは、一旦検索対象フォルダの外に移動させ、再開時、検索対象に戻す。前回ヒットの実績が0のものに対し、チェックボックス□に×を入れることで、そのファイルは、巡回収集の対象からはずされる。チェックを全て選択して、最後に収集停止/再開画面の選択画面を表示して、ヒット件数0件のURLを一括して収集停止することができる。
【0023】
図7は、本発明の実施の形態になる環境設定の画面例(収集スケジュール設定)を示す。設定項目としては、全巡回周期、差分巡回周期、巡回時刻、収集対象ファイル、および検索階層が表示される。全巡回周期では、毎回、月、週に収集する回数を設定し、差分巡回では、前回検索との比較において、変更分だけを抽出して巡回する場合の設定を行う。本画面例では、全巡回を選択し、1回/週,曜日指定は月曜日、巡回時刻は、1時00分,収集対象ファイルは、htm/html、txt、doc、xlsの拡張子を指定し、および巡回検索の深さである階層は3階層となるように収集スケジュールを設定している。
【0024】
ここで、htm/htmlはホームページの記述言語HTMLの拡張子、txtはテキスト形式の拡張子である。また、docはマイクロソフト社のワードの登録商標、xlsはマイクロソフト社のエクセルの商標登録、およびpdfはアドビー社の登録商標のそれぞれの拡張子である。
図8は、本発明の実施の形態になる指定条件に基づくウエブ巡回のフローチャートを示す。まず、ステップS11において、ユーザが入力し、保持されている環境設定ファイルから指定されたURLを読み込む。ステップS12において、ウエブ巡回手段13が、インターネットに接続する情報提供サーバのホームページを複数階層にわたって巡回し、ステップS13で、指定拡張子の文字データのファイルをダウンロードし、ステップS14において、ダウンロードフォルダ15に保存する。そして、ステップS15において、環境設定ファイル11から読み込んだ指定URLが全て終了するまで以上の処理を繰り返す。
【0025】
全てのURLが終了した時点で次の処理フロー(▲1▼)に移る。
図9は、本発明の実施の形態になるダウンロードファイルのキーワード検索のフローチャートを示す。図8の処理を受けて、ステップS21において、ダウンロードフォルダ15を参照し、ステップS22で、ダウンロードした文字データファイルが終わるまでダウンロードファイルの参照を続行する。ステップS23において、収集した文字データファイルのキーワード検索を行う。ステップS24で、検索条件が一致すれば、ステップS25に進み、ダウンロードした個々の文字データファイルについて、前回ダウンロ−ドしたファイルとの日付をチェックする。
【0026】
ステップS26において、日付が不一致であれば、キーワード検索においてヒットしたホームページの情報について、ヒット情報データベース17に図3のデータ構成に則って必要情報を保存する。
ステップS24において、キーワ−ド条件が一致しなければ、ヒット情報データベース17の当該ファイルのフラグをOFFとする。また、ステップS26で日付条件が一致しなければ、ステップS25に戻ってダウンロードファイルのチェックを繰り返す。
【0027】
以上の処理フロ−を終了したら、次の▲2▼の処理フローへと移行する。
図10は、本発明の実施の形態になる更新ホームページ内容の自動通知のフローチャートを示す。図9の処理フロ−を受けて、ステップS31において、前記ヒット情報データベース17を参照し、ステップS32で、ヒット情報データベース17のデータがなくなるまで処理を行う。ステップS33において、ヒット情報データベース17においてダウンロードファイルのフラグがONのものについて選定し、ステップS34でフラグのついた指定URLのホームページ全体をダウンロードする。そしてステップS35で、ダウンロードしたURLを保存する。
【0028】
つぎに、ステップS32で、全てのデータ処理が終わったら、ステップS36において、ダウンロードしたURLについて抽出し、ステップS37において、ダウンロードしたURLのホームページの変更内容の情報を編集(ニュース投稿)し、関係ユーザにメールで自動通知する。
図11は、本発明の実施の形態になる自動投稿の作成例を示す。キーワード検索および更新日付をチェックすることで、キーワードが存在したホームページ全体をダウンロードし、更新あるいは新規となったホームページについての情報を関係ユーザに自動通知する。本画面例では、自動投稿と手動投稿が選択できる画面としている。自動投稿では、例えば、キーワード列1に対しヒットしたURL1(yyyy/mm/dd)、URL2(yyyy/mm/dd)・・また、キーワード列2に対しヒットしたURLa(yyyy/mm/dd)、URLb(yyyy/mm/dd)・・のURL群が自動的にリストアップされ、関係ユーザに通知される。また、手動投稿では、フリーなスタイルでのニュース投稿画面が用意される。
【0029】
図12は、本発明の実施の形態になる変更内容のメール通知例を示す。変更のあったウエブページのURL、更新日、ヒットしたキーワード、および内容についてのヘッドラインを抽出して自動的に関係ユーザにメール通知される。
以上の実施例では、主に「不具合情報」という事例を想定して記述してきたが、本発明は、もちろん、これに限定を受けるものではなく、「新製品情報」、「技術情報」、「特許情報」等、広い範囲のジャンルのウエブ情報収集に同様な手法が適用されることは言うまでもない。
【0030】
(付記1) インターネットを介したウエブ情報収集装置において、
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回手段と、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納手段と、
前記ウエブ巡回手段によってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索手段と、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロード手段と、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知手段と
を有することを特徴とするウエブ情報収集装置。
【0031】
(付記2) 前記情報通知手段における通知情報は、ヒットしたキーワードを含む前後の文字列を抽出して自動生成されたヘッドライン情報であることを特徴とする付記1に記載のウエブ情報収集装置。
(付記3) 前記ウエブ巡回装置では、前記キーワード検索ステップにおいてキーワードがヒットしたホームページだけを対象に、次回以降、巡回させることを特徴とする付記1記載のウエブ情報収集装置。
【0032】
(付記4) インターネットを介したウエブ情報収集方法において、
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回ステップと、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納ステップと、
前記ウエブ巡回ステップによってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索ステップと、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロードステップと、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知ステップと、
を有することを特徴とするウエブ情報収集方法。
【0033】
(付記5) インターネットを介したウエブ情報収集プログラムにおいて、
コンピュータに、
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回ステップと、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納ステップと、
前記ウエブ巡回ステップによってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索ステップと、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロードステップと、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知ステップと、
を実行させるウエブ情報収集プログラム。
【0034】
(付記6) インターネットを介したウエブ情報収集プログラムを記録した記録媒体であって、
コンピュータに、
指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回ステップと、
前記文字データをホームページ毎にファイルとして格納する文字データファイル格納ステップと、
前記ウエブ巡回ステップによってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索ステップと、
前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロードステップと、
ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知ステップと、
を実行させるウエブ情報収集プログラム記録したコンピュータ読取可能な記録媒体。
【0035】
【発明の効果】
以上、説明してきたように、本発明によれば、指定したホームページの複数階層で、指定キーワードが含まれたホームページの表示を行い、ホームページが 改版された場合、新規登録されたホームページのみ通知するため、変更が無いホームページを参照しなくてもよく、検索の処理時間が大幅に短縮できる。
【0036】
また、指定範囲( ダウンロードファイル) 内でキーワード検索が出来るため、必要なホームページを簡単に探すことができる。
さらに、本発明によれば、担当者がホームページの内容を確認の上、ヘッドラインを変更して必要者にメールにて配信することになるため、担当者以外は、その内容( ヘッドライン) を確認するだけで、必要がなければホームページを参照しなくて済むため、検索に要する工数の削減が図れる。
【図面の簡単な説明】
【図1】本発明になる基本システム構成を示す図である。
【図2】本発明の実施の形態になるURL管理データベースのデータ構成例を示す図である。
【図3】本発明の実施の形態になるヒット情報データベースのデータ構成例を示す図である。
【図4】本発明の実施の形態になる初期メニュー画面の例を示す図である。
【図5】本発明の実施の形態になる環境設定の画面例(キーワード設定)を示す図である。
【図6】本発明の実施の形態になる環境設定の画面例(収集停止・再開設定)を示す図である。
【図7】本発明の実施の形態になる環境設定の画面例(収集スケジュール設定)を示す図である。
【図8】本発明の実施の形態になる指定条件に基づくウエブ巡回のフローチャートを示す図である。
【図9】本発明の実施の形態になるダウンロードファイルのキーワード検索のフローチャートを示す図である。
【図10】本発明の実施の形態になる更新ホームページ内容の自動通知のフローチャートを示す図である。
【図11】本発明の実施の形態になる自動投稿の作成例を示す図である。
【図12】本発明の実施の形態になる変更内容のメール通知例を示す図である。
【符号の説明】
1 ウエブ情報収集装置
2 ユーザ端末
3 インターネット
10 URL管理データベース
11 環境設定ファイル
12 巡回条件取得手段
13 ウエブ巡回手段
14 文字データファイル格納手段
15 ダウンロードフォルダ
16 キーワード検索手段
17 ヒット情報データベース
18 ホームページダウンロード手段
19 情報通知手段

Claims (3)

  1. インターネットを介したウエブ情報収集装置において、
    指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回手段と、
    前記文字データをホームページ毎にファイルとして格納する文字データファイル格納手段と、
    前記ウエブ巡回手段によってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索手段と、
    前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロード手段と、
    ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知手段と
    を有することを特徴とするウエブ情報収集装置。
  2. 前記ウエブ巡回手段では、前記キーワード検索手段においてキーワードがヒットしたホームページだけを対象に、次回以降、巡回させることを特徴とする請求項1記載のウエブ情報収集装置。
  3. インターネットを介したウエブ情報収集方法において、
    指定されたホームページを複数階層にわたって巡回し、前記ホームページ上の文字データを自動的にダウンロードするウエブ巡回ステップと、
    前記文字データをホームページ毎にファイルとして格納する文字データファイル格納ステップと、
    前記ウエブ巡回ステップによってダウンロードした文字データファイルを予め設定されたキーワードによって検索するキーワード検索ステップと、
    前記文字データファイルの日付が既登録データを参照して不一致の場合に、前記キーワード検索の結果、キーワードがヒットしたホームページ全体をダウンロードするホームページダウンロードステップと、
    ダウンロードした前記ホームページの更新または新規内容の情報を関係ユーザに自動通知する情報通知ステップと、
    を有することを特徴とするウエブ情報収集方法。
JP2003194662A 2003-07-09 2003-07-09 ウエブ情報収集装置及びウエブ情報収集方法 Pending JP2005031867A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003194662A JP2005031867A (ja) 2003-07-09 2003-07-09 ウエブ情報収集装置及びウエブ情報収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003194662A JP2005031867A (ja) 2003-07-09 2003-07-09 ウエブ情報収集装置及びウエブ情報収集方法

Publications (1)

Publication Number Publication Date
JP2005031867A true JP2005031867A (ja) 2005-02-03

Family

ID=34205739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003194662A Pending JP2005031867A (ja) 2003-07-09 2003-07-09 ウエブ情報収集装置及びウエブ情報収集方法

Country Status (1)

Country Link
JP (1) JP2005031867A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007001027A1 (ja) * 2005-06-28 2007-01-04 Matsushita Electric Industrial Co., Ltd. 情報端末装置及び情報端末制御方法
JP2007334476A (ja) * 2006-06-13 2007-12-27 Yafoo Japan Corp 動的rssチャネル変更装置
JP2009535691A (ja) * 2006-04-26 2009-10-01 マイクロソフト コーポレーション 有意な変更検索アラート
JP2010086457A (ja) * 2008-10-02 2010-04-15 Brother Ind Ltd 通信装置
JP2010118972A (ja) * 2008-11-14 2010-05-27 Brother Ind Ltd 通信装置および制御プログラム
JP2011028485A (ja) * 2009-07-24 2011-02-10 Yahoo Japan Corp クローラ調整装置及びクローラ調整方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007001027A1 (ja) * 2005-06-28 2007-01-04 Matsushita Electric Industrial Co., Ltd. 情報端末装置及び情報端末制御方法
JP2009535691A (ja) * 2006-04-26 2009-10-01 マイクロソフト コーポレーション 有意な変更検索アラート
JP2007334476A (ja) * 2006-06-13 2007-12-27 Yafoo Japan Corp 動的rssチャネル変更装置
JP2010086457A (ja) * 2008-10-02 2010-04-15 Brother Ind Ltd 通信装置
JP4725627B2 (ja) * 2008-10-02 2011-07-13 ブラザー工業株式会社 通信装置
US9317618B2 (en) 2008-10-02 2016-04-19 Brother Kogyo Kabushiki Kaisha Communication device and method of displaying content titles
JP2010118972A (ja) * 2008-11-14 2010-05-27 Brother Ind Ltd 通信装置および制御プログラム
JP4702434B2 (ja) * 2008-11-14 2011-06-15 ブラザー工業株式会社 通信装置および制御プログラム
US9092126B2 (en) 2008-11-14 2015-07-28 Brother Kogyo Kabushiki Kaisha Communication apparatus with display section and computer-readable media
JP2011028485A (ja) * 2009-07-24 2011-02-10 Yahoo Japan Corp クローラ調整装置及びクローラ調整方法

Similar Documents

Publication Publication Date Title
US9342609B1 (en) Ranking custom search results
US7653623B2 (en) Information searching apparatus and method with mechanism of refining search results
JP4024426B2 (ja) ネットワーク・ユーザによるウェブ・サイトの使用パターンの特性を記述し視覚化する方法
CN1988536B (zh) 用于管理网站内容的方法、***和设备
KR101273126B1 (ko) 검색 결과들의 재배열을 위한 시스템, 방법 및/또는 장치
US6665658B1 (en) System and method for automatically gathering dynamic content and resources on the world wide web by stimulating user interaction and managing session information
US20100011282A1 (en) Annotation system and method
US20120246139A1 (en) System and method for resume, yearbook and report generation based on webcrawling and specialized data collection
US7346607B2 (en) System, method, and software to automate and assist web research tasks
CN101641695A (zh) 资源接入过滤***及供与资源接入过滤***一起使用的数据库结构
JP2005309998A (ja) コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
Niu Functionalities of web archives
JP2010182340A (ja) コンテンツナビゲーションプログラム
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
Gomes et al. Design and selection criteria for a national web archive
US20060116992A1 (en) Internet search environment number system
JP2005031867A (ja) ウエブ情報収集装置及びウエブ情報収集方法
US20030046276A1 (en) System and method for modular data search with database text extenders
JP2005056371A (ja) Web検索情報の管理方法、管理システム、コンピュータソフトウェアプログラム
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
Feldman 'It was here a minute ago!': archiving on the Net
Reichert et al. Feeding the world: a comprehensive dataset and analysis of a real world snapshot of web feeds
KR20060075798A (ko) 해외 과학기술 전자원문 수집/색인/추출 시스템과 그 방법및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체
JP4028795B2 (ja) 電子メール収集・検索システム
JP3708893B2 (ja) 知識情報収集システムおよび知識情報収集方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090811