JPH10207758A - ホームページ分析表示システム - Google Patents
ホームページ分析表示システムInfo
- Publication number
- JPH10207758A JPH10207758A JP9005942A JP594297A JPH10207758A JP H10207758 A JPH10207758 A JP H10207758A JP 9005942 A JP9005942 A JP 9005942A JP 594297 A JP594297 A JP 594297A JP H10207758 A JPH10207758 A JP H10207758A
- Authority
- JP
- Japan
- Prior art keywords
- data
- anchor
- keyword
- access
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
セスを迅速化する。 【解決手段】 インターネットアクセス手段1が、アン
カー保存手段8内のアンカーにアクセスし、取り込んだ
データをアクセスデータ一時保存手段内に保存する。保
存したデータを、分析手段6がタイトル等必要なデータ
を分析する。アンカー抽出手段7は、該データ内の中か
らHTMLファイルがリンク先であるアンカーを抽出
し、アンカー保存手段内に保存する。採番手段9は該デ
ータを採番する。データ整理手段10は該分析手段6の
分析結果と採番された番号等を整理して表示データ保存
手段11内に保存する。次に、アンカー保存手段内に保
存のアンカーを取出し、インターネットアクセス手段が
アクセスする。これらの動作をアンカー保存手段内アン
カーがなくなるまでくり返す。表示データ保存手段内の
データは、出力手段に表示される。
Description
ット/イントラネット使用時のユーザインタフェース分
野に属し、特にハイパーテキスト構造をとっているイン
ターネット/イントラネット上ホームページを解析しユ
ーザに必要な情報を抽出し表示する技術に関する。
するには、電話をかけてプロバイダに接続してインター
ネットを使用し、インターネットを使用する時間におい
ては電話代や接続先のプロバイダに使用料を支払ってい
るのが一般的である。ここでユーザがインターネット上
のホームページから必要な情報を初めて取出す際には、
まず、関連する新聞情報や雑誌に示してあるユニフォー
ムリソースロケータ(URL)、または一般的な検索エ
ンジン(例えばYahoo,Netplaza等)の結
果として得られたURLをユーザが入力してそのホーム
ページをパソコン等のブラウザによってアクセスしにい
き、自分の欲しい情報がそのホームページ内に含まれて
いるか否かを、該URLホームページからハイパーテキ
ストのリンクをたどりブラウザでアンカー(リンクされ
たURL)等をアクセスしながら確認し、含まれている
場合は自分の環境に取出すという方法をとっていた。
ームページにおいてユーザの欲しい情報が入手してアク
セスしたURLの場所に直接あるという場合は少なく、
欲しい情報が無い場合は他のリンクに移ったり、更に深
い階層に移ったりしながらブラウザで一つ一つアクセス
して確認していくという作業を行うことになり、入手し
たURLのホームページのリンク全てを追っても欲しい
情報が無かった場合は、違うURLを入手して再度同様
の作業をすることになっていた。
するためにリンクをたどりツリー上の階層構造にて表示
する方法(平4−321144)と、ハイパーテキスト
の検索を高速化するためにキーワード検索にてテキスト
を抽出する方法(平4−96152)とを説明する。
おいての関連特許である「ハイパーテキストのブラウジ
ング処理装置」(平4−321144)に関して記す。
この発明は図22に示すように、入力手段(A1)によ
り入力されたデータをハイパーテキスト化手段(A2)
によりハイパー化して、そのハイパーテキスト化された
データをツリー構造変換手段(A3)によってツリー構
造化して、ツリー構造ブラウジング処理手段(A4)に
よって該記ツリー構造変換手段により変換された結果を
ノードの名称として上位ノードから下位ノードになるに
従いインデントを付けて、さらにノード毎にノードに下
位階層がある場合は「−」、無い場合は「+」を添付し
て、出力手段(A5)に表示させる。このことによって
ハイパーテキスト全体の構成を一つ一つ追わなくてもツ
リー構造をみることによって把握することが可能であ
る。
トの検索に関しての関連特許である「ハイパーテキスト
システム」(平4−96152)に関して記す。この発
明は、あらかじめ存在するハイパーテキストデータに対
しキーワードとファイルとの対応表をキーワードテーブ
ルとして作成しておき、そのテーブルを参照することに
よりハイパーテキストの検索を行うことが可能になるも
ので、図23に示すように、入力手段(B1)によりユ
ーザから入力されたキーワードに対し、処理手段(B
2)が、該記キーワードテーブル(B3)内に格納され
ているキーワードと既記入力手段から入力されたキーワ
ードとが一致した場合に該キーワードに対応するファイ
ルの内容を出力手段(B4)に出力させる。
ターネットアクセス時に自分の欲しい情報が含まれてい
るページを探したい時に、特に自分の欲しいキーワード
によって検索をしたくても(例えば「○×美術館」)、
一般の検索エンジンの検索カテゴリーの持つキーワード
と一致しない場合には何も検索結果が得られず、抽象的
な言葉、似たようなキーワード(ここでは「美術館」)
で検索しなくてはならないことである。この場合、得ら
れたURL(美術館関係の複数のURL)のホームペー
ジに対してハイパーテキスト状に広がるリンクを一つ一
つブラウザでアクセスして確認していく作業が必須とな
り、必要な情報を時間をかけて探しても見つけ出せなか
ったり、見つけるまでに不必要なページに何度もアクセ
スしなければならないこととなる。
たURLのホームページに含まれているか否かを確認す
るのに必要な情報が、検索エンジンから得られるURL
の名前や添付される概要等の情報のみでは不十分である
ことが多い為である。
のホームページのハイパーテキスト構造がどうなってい
るかをツリー状に表示してあげる技術だけでは、ユーザ
のどのページに自分の欲しい情報が含まれているかとい
う確実な判断には結びつかないということである。
ージはホームページ作成者が独自のセンスによって作成
しており、ハイパーテキストの構造は自由に決めている
ので、例えばハイパーテキストの構造が綺麗なツリー構
造になっていたとしても、抽象概念がその具象概念の上
位ノードになっている等の決まりがなく実際にはホーム
ページの文字をアクセスしてブラウザで確認する必要が
生じる為である。
検索技術のようなキーワード検索方法が有ったとして
も、その検索方法に合うようにサーバ側にあるホームペ
ージに対し検索できるしくみを作成しなくては使うこと
ができないということである。
の希望する任意の言葉にするためにはサーバ側の方から
ホームページ全てに対して、ホームページに含まれる全
ての言葉に対して検索のしくみを加工することになり現
実的には困難であるということである。
ムページ分析表示システムは、図20に示すとおり、入
力手段3と出力手段12とを有する情報処理システムに
おいて、インターネットアクセス手段1と、アクセスデ
ータ一時保存手段2と、分析手段6と、アンカー抽出手
段7と、アンカー保存手段8と、採番手段9と、データ
整理手段10と、表示データ保存手段11とを持つシス
テムである。
3から入力され、アンカー保存手段8内に保存してある
アンカーに対しアクセスし、取り込んだデータをアクセ
スデータ一時保存手段内に保存する。前記アクセスデー
タ一時保存手段内に保存してあるデータに対し、分析手
段6が分析をかけタイトル等必要なデータを分析する。
アンカー抽出手段7は、該データ内の中からHTMLフ
ァイルがリンク先であるようなアンカーを抽出し、アン
カー保存手段8内に保存しておく。
よう採番する。
分析された結果と該採番手段によって採番された番号等
を整理して表示データ保存手段11内に保存する。
アンカーの先頭を取出し、且、アンカー保存手段内から
消し、該記インターネットアクセス手段がアクセスしに
行き一連の動作を繰り返し、既記アンカー保存手段内に
あるアンカーがなくなるまで作業を継続し、該アンカー
保存手段内のアンカーがなくなれば出力手段に該記表示
データ保存手段内のデータを出力して終了する。
システムは、図21に示すとおり、入力手段3と出力手
段12とを有する情報処理システムにおいて、インター
ネットアクセス手段1と、アクセスデータ一時保存手段
2と、分析手段6と、アンカー抽出手段7と、アンカー
保存手段8と、表示データ保存手段11とを持ち、キー
ワード保存手段4と、マッチング手段5とを持つシステ
ムである。
3から入力しアンカー保存手段内に保存してあるアンカ
ーに対しアクセスしに行き、取り込んだデータをアクセ
スデータ一時保存手段内に保存する。アクセスデータ一
時保存手段内に保存してあるデータに対し、分析手段6
が分析をかけ、アンカー抽出手段が該データ内の中から
HTMLファイルがリンク先であるようなアンカーを抽
出し、該記アンカー保存手段内に保存しておく。さらに
入力手段3により入力されたキーワード保存手段4内に
保存されているキーワードに対し、該分析手段によって
分析されたデータとのマッチングが成立するか否かをマ
ッチング手段5が実行し、結果を表示データ保存手段内
に保存する。
あるアンカーの先頭を取出し、且、既記アンカー保存手
段内から消し、該記インターネットアクセス手段がアク
セスしに行き一連の動作を繰り返し、既記アンカー保存
手段内にあるアンカーがなくなるまで作業を継続する。
該アンカー保存手段内のアンカーがなくなれば出力手段
に該記表示データ保存手段内のデータを出力して終了す
る。
明する。
ある。
クセスデータ一時保存手段、3は入力手段、4はキーワ
ード保存手段、5はマッチング手段、6は分析手段、7
はアンカー抽出手段、8はアンカー保存手段、9は採番
手段、10はデータ整理手段、11は表示データ保存手
段、12は出力手段である。
流れ図である。図1のブロック図を元に、図2の流れ図
に合わせて説明する。
によって入力されたURLは、アンカー保存手段8にア
ンカー(リンクしてあるURL)として保存される。ス
テップ14では、インターネットアクセス手段1は、ア
ンカー保存手段8内にあるアンカーをアクセスし、ステ
ップ15でアクセスデータ一時保存手段2の中に一時的
に保存される。
データ一時保存手段2の中に保存されているデータを取
出し、HTMLの文法に依存するテキストを除いたりし
てタイトル等の必要なデータを分析する。ステップ17
では、アンカー抽出手段7は分析されたデータの中から
次にアクセスするHTMLファイルとするために画像等
の不必要なアンカー以外のアンカーを抽出し、アンカー
保存手段8に保存する。次にステップ18で、マッチン
グ手段5は、キーワード保存手段4に保存されてあるキ
ーワードと分析手段6により分析されたデータとをマッ
チングさせる処理を行う。
段5によりマッチング処理されたデータは、ステップ1
9でデータ整理手段10により表示すべきデータと表示
しないデータとに整理される。ついでステップ20で
は、採番手段9により表示しやすいよう採番された番号
と共に表示データ保存手段11に保存される。
カー保存手段8に保存されているアンカーがあれば、処
理はステップ23に進み保存されているアンカーの中の
先頭の一つをインターネットアクセス手段1がアクセス
できるようにセットする。アンカー保存手段8内にアン
カーが一つも無ければ一連の処理によって保存された表
示データ保存手段11内の表示データを出力手段12に
よって出力させ(ステップ22)、終了処理を行い(ス
テップ24)、終了する。
体的な例を用いて説明する。
図4は本発明の一具体例の入力画面イメージの例、図5
は入力されたキーワードがキーワード保存手段4内に保
存されている際の具体的な例の概念図である。
ページ」というホームページの中からスキーのページを
情報として抽出したいと考えているとする。
力手段3によりユーザがマッチングしたいキーワードを
入力させる(ステップ31)。例として3件のキーワー
ドを入力できるものとする。この時、ユーザは図4の4
1のような初期画面に対してマッチングさせたいキーワ
ードとして具体的に「鈴木」「スキー」と入力し、アク
セスする為のホームページのアドレスとして「WWW.
SUZUKI.COM」という「鈴木のホームページ」
のURLを入力する。入力後の画面イメージは図4の4
2の通りである。この入力されたキーワードはキーワー
ド保存手段4に図5のような概念図の通り「番号:キー
ワード」の組み合わせで「1:鈴木」「2:スキー」
「3: 」というように保存されている。
照して具体的に説明することにする。
図で、図7は「鈴木のホームページ」の構成図で、図8
は構成要素となる一つ一つのファイルをアクセスしてブ
ラウザで見た時のイメージ図で、図9は「鈴木のホーム
ページ」のINDEX.HTMLファイルのソースリス
トの概念図、図10はSHUMI.HTMLファイルの
ソースの概念図、図11はSIGOTO.HTMLファ
イルのソースの概念図、図12はIE.HTMLファイ
ルのソースの概念図、図13はSKI.HTMLファイ
ルのソースの概念図、図14はONGAKU.HTML
ファイルのソースの概念図、図15はKAZOKU.H
TMLファイルのソースの概念図であり、図16はアン
カー保存手段8に保存されているアンカー群の概念図
で、図17、図18は表示データ保存手段10内に保存
されているデータの概念図で、図19は表示結果イメー
ジ図である。
に、ユーザが「鈴木のホームページ」のURLである、
「WWW.SUZUKI.COM」を入力したとき、入
力手段3は該URLをアンカーとしてアンカー保存手段
8に保存する。アンカー保存手段8は現在図16の16
1の通り、アンカー保存手段8内にINDEX.HTM
Lという名前のHTMLファイルへのアンカー一つが保
存されているため、中から該アンカーを取出してアンカ
ー保存手段8の中から消して(図2のステップ13)、
インターネットアクセス手段1は該アンカーに対してア
クセスしてデータを取り込む。この時取り込まれたデー
タはINDEX.HTMLという名前のファイルで図9
のようなソースが記述されており、それをブラウザで見
た場合は図8のイメージ81のようになっている。
の構成図通りであり、INDEX.HTMLのファイル
は「鈴木のホームページ」からたどれるツリー構造の一
番上のファイルとなっており、INDEX.HTMLフ
ァイルの下位にSHUMI.HTMLファイル、SIG
OTO.HTMLファイル、IE.HTMLファイルが
あり、SHUMI.HTMLファイルの下位にSKI.
HTMLファイル、ONGAKU.HTMLファイルが
あり、IE.HTMLファイルの下位にKAZOKU.
HTMLファイルがあるという構造になっている。
セスデータ一時保存手段2内に一時的に保存される(図
2のステップ15)。分析手段6はアクセスデータ一時
保存手段2内に保存されているINDEX.HTMLを
分析し、図9のソース91の中からHTML文法用語等
を取り除き、<TITLE>と</TITLE>で囲ま
れた文字列をタイトルとして抽出する。この時タイトル
は「鈴木」となっている(図2のステップ16) さらにアンカー抽出手段7がリンク先のファイル名が記
述してあるアンカーの中からHTMLファイルへのアン
カーを抽出する。ここでは、“SHUMI.html”
が文字列「趣味のページ」にリンクされているため抽出
され、“SIGOTO.html”が文字列「仕事のペ
ージ」にリンクされているので抽出、“IE.htm
l”が文字列「家のページ」にリンクされているので抽
出され、アンカー保存手段8に保存されるが“SUZU
KI.gif”は画像へリンクするアンカーなので抽出
されない(図2のステップ17)。
162に示す通りSHUMI.HTML、SIGOT
O.HTML、IE.HTMLの3つのアンカーが保存
されている。
って分析されたデータに対し、キーワード保存手段4内
に保存されているキーワードとマッチングを行う。ここ
では図4の42の入力にて入力した「鈴木」「スキー」
というキーワードが図5のイメージ51のようにキーワ
ード保存手段4内に保存されているものとする。
で、まず初めNに1をセットして、ついでステップ62
で、1番目のキーワードがキーワード保存手段4内にあ
るか否かを確かめる。ここでは図5に示した通り、「鈴
木」というキーワードが入っているので、「鈴木」を取
出し、マッチングを行う。ここではタイトル「鈴木」に
マッチしているので1番のキーワードがマッチングした
旨を表す印を付け(ステップ65)、ここではキーワー
ドは3件入力できる例を使用しているため、キーワード
の番号が3かどうか判断し、今の番号は1番なので1に
+1して2として(ステップ67)キーワード保存手段
4の中を見に行く。ここでも2番目のキーワード「スキ
ー」が存在するので、「スキー」を取出し(ステップ6
3)マッチングを行う。
ない為(ステップ64)、ステップ66のNが3かどう
かの判定を行い、まだ2番目なのでNOに進み、2に+
1して3番目のキーワードがあるかどうか見にいく。
ESに進み、ステップ63で3番目のキーワードを取出
し、マッチングを行い(同ステップ64)マッチングし
た場合は、3番目のフラグを付け、マッチングしない場
合はNが3かどうか判断され3であるのでマッチング処
理は終了する。
ワードは保存れていないのでNOに進みキーワードマッ
チング処理を終了させる。
NDEX.HTMLファイルに番号を付ける。ここでは
図7に示すように、一番上位のファイルのため「0」と
いう番号が付けられ、さらに先ほど抽出したタイトル、
キーワードのマッチングした番号のフラグ等を見てデー
タを図17の171のように「番号:0、ファイル名:
INDEX.HTML、タイトル:鈴木、リンク元テキ
スト: 」とデータ整理手段10によって整理され(図
2のステップ19)、ステップ20で表示データ保存手
段11に保存する。
にアンカーがあるかのチェックに行き、図16の162
のようにアンカーがあるので、一番上のSHUMI.H
TMLのアンカーを取出して、ステップ23でアンカー
保存手段8内から消し、ステップ14でインターネット
アクセス手段1がアクセスしに行き、アクセスデータ一
時保存手段2内に保存し(図2のステップ15)、分析
手段6が図10のソース101を分析して(ステップ1
6)、タイトルが「趣味」を抽出し、アンカー抽出手段
7が、“SKI.html”が「スキーのページ」にリ
ンクされ“ONGAKU.html”が「音楽のペー
ジ」というテキストにリンクされているのでアンカーと
して抽出し、アンカー保存手段8内に保存する(図2の
ステップ17)。
163のようになる。
手段4内のキーワードとマッチングを行い、ここでは2
番目のキーワード「スキー」がマッチングしたので2番
目のフラグが添付される(ステップ18)。
て図7に示すように、このホームページの最上位であり
0番と採番されたINDEX.HTMLファイルの次の
ランクであるので0番の下ということで「0−」が添付
され、かつソース92や81で示すように他のアンカー
よりも一番先に出力されるため1番ということで「0−
1」という番号を採番する。
一連の処理を整理し、「番号:0−1、ファイル名:S
HUMI.HTML、タイトル:趣味、リンク元テキス
ト:趣味のページ、マッチング:2」というような17
2の形にまとめられ、このまとめられたデータはステッ
プ20で表示データ保存手段11に保存される。
ようになっているので、先頭にあるSIGOTO.HT
MLファイルをインターネットアクセス手段1がアクセ
スし、図11のソースファイル111を得て(ステップ
14)、アクセスデータ一時保存手段2に保存し(ステ
ップ15)、分析手段6が分析しタイトル「仕事」を抽
出し、アンカーがないのでアンカー抽出手段7は何もア
ンカー保存手段8に入れずに、マッチング手段5がキー
ワードマッチングし、ここでは何もマッチしないためフ
ラグは何も付けずに、採番手段9により図7に示すデー
タ構造の通り「0−2」が採番されデータ整理手段10
によってデータが173のように整理され(ステップ1
9)、ステップ20で表示データ保存手段11に保存さ
れる。
のようになっているので、先頭にあるIE.HTMLが
インターネットアクセス手段1によってアクセスされ1
21のファイルがアクセスデータ一時保存手段2内に保
存され(ステップ15)、分析手段6によってタイトル
「家」が取出され、アンカー抽出手段7によって“KA
ZOKU.html”が文字列「家族のページ」にリン
クされているため抽出し(図2のステップ17)、アン
カー保存手段8に保存される。ここでのアンカー保存手
段8の中味は図16の165のようになっている。さら
にマッチング手段5によりマッチング処理がされるが、
ここでは何もマッチングしない。
「0−3」を採番し、データ整理手段10が図17の1
74のようにデータを整理し(ステップ19)、表示デ
ータ保存手段11に保存する(ステップ20)。アンカ
ー保存手段8の中にアンカーがあるか否かチェックしに
いき(ステップ21)、ここでは図16の165のよう
なアンカーがあるので先頭のSKI.HTMLをアクセ
スしに行く。
れ、アクセスデータ一時保存手段2に保存され、分析手
段6によってタイトル「スキー」が得られ、アンカーは
ないので抽出されず、マッチング手段5がキーワードマ
ッチングに行くと、図5のようにキーワード保存手段内
にあるキーワードの2番「スキー」とマッチするので2
番のフラグが添付され、採番手段9によってSKI.H
TMLには番号「0−1」の下位のランクの一番上に出
現するアンカーなので、番号「0−1−1」が採番され
データ整理手段10によって図17の175のようにデ
ータが整理され(ステップ19)、表示データ保存手段
11に保存される。
うになっているので、先頭のONGAKU.HTMLが
アクセスされ図14のファイル141が一時保存され、
分析されタイトル「音楽」抽出されアンカーがないので
そのまま進み(ステップ17)、キーワードもマッチン
グしないので(ステップ18)そのまま進み、採番手段
9によって番号「0−1−2」が付けられ、データ整理
手段10によってデータが図17の176のように整理
され、表示データ保存手段11内に保存される。
のようにKAZOKU.HTMLが入っており、アクセ
スしに行き、図15のファイル151が一時保存され、
分析手段6により分析され(ステップ16)、アンカー
が画像へのもの以外は無いのでアンカー抽出されず、ア
ンカー保存手段8の中には何も保存しないで、マッチン
グ手段5によってキーワードマッチング処理がされこの
ファイルにはマッチングするキーワードが含まれておら
ず、採番手段9によって番号「0−3−1」が採番さ
れ、データ整理手段10によってデータが整理され、表
示データ保存手段11に図5のようなデータが保存され
る(ステップ20)。アンカー保存手段8にアンカーが
あるか見に行くと、アンカーが無いのでNOに進み(ス
テップ21)、表示データ保存手段11内にあるデータ
を出力手段12により出力させる。
ータを出力する。
ームページ」の構造だけでなく、どんなページなのかを
ユーザに提示するために、タイトルやファイル名、リン
ク元のテキストまでを出力し、さらに、ユーザによって
入力されたキーワードに関してユーザの目でand/o
rが判断つくように並べて表示させている。また、キー
ワードがマッチしたファイルのみ直ぐにみれるようにそ
の部分をソートさせて表示することも可能になってい
る。
る表示データを出力させた後一連の作業が終了する。終
了作業として、ステップ24ではアクセスデータ一時保
存手段2内のデータをクリアさせる等を行う。
請求項1と請求項2とを合わせると、入力システムと出
力システムとを有する情報処理システムにおいて、イン
ターネットアクセス手段と、アクセスデータ一時保存手
段と、分析手段と、アンカー抽出手段と、アンカー保存
手段と、採番手段と、データ整理手段と、表示データ保
存手段と、キーワード保存手段と、マッチング手段とを
有する構成となっている。
ら入力した又はあらかじめ登録してあるアンカー保存手
段内に保存してあるアンカーであるURLに対しアクセ
スしに行く。取り込んだデータはアクセスデータ一時保
存手段内に保存する。このアクセスデータ一時保存手段
内に保存してあるデータを、分析手段は分析し、データ
の中の不必要な文法を取り除いたり、データに付随して
いる不必要なヘッダーをとり除く作業を行う。アンカー
抽出手段は分析手段によって不必要なものが取り除かれ
たデータに対し、中からアンカーを抽出し、アンカー保
存手段内に保存しておく。
予め登録されていたキーワード保存手段内に保存されて
いるキーワードに対し、分析手段によって分析されたデ
ータの中に含まれているか否かをマッチング手段が判定
する。含まれている場合は含まれる旨の印を付ける。こ
こではキーワードとして3件の入力及びマッチングを行
っているが数は必要に応じて変更できる仕組みを入れる
ことも考えられる。
手段によって該分析手段によって分析された結果及び該
マッチング手段によって該キーワードとのマッチング結
果と共に整理され表示データ保存手段内に保存される。
ーを一つ一つ該記インターネットアクセス手段がアクセ
スしに行き一連の動作を繰り返し、既記アンカー保存手
段内にあるアンカーがなくなるまで作業を継続し、該ア
ンカー保存手段内のアンカーがなくなれば出力手段に該
記表示データ保存手段内のデータを出力して終了する。
ここではデータを全て表示しているが、キーワードが含
まれていたようなデータのみ表示する等表示の仕方を変
更できる仕組みをユーザに提供することも考えられる。
スして自分の欲しい情報が含まれているページを探した
い時に、一般の検索エンジンに対して抽象的な言葉、似
たようなキーワードで検索した場合であったり、得られ
た結果が複数のURLであったとしても、それらのUR
Lのホームページに対してハイパーテキスト状に広がる
リンクを一つ一つブラウザでアクセスして確認していく
作業をしなくてすみ、作業工数が節約できることであ
る。また、必要でないページにはアクセスしなくてよい
ため、不必要なページへの画像等へのアクセスを省くこ
とができアクセス時間も節約することができるというこ
とである。
入手したURLのホームページの構造に含まれているか
否かを確認させるために、本発明によって、ユーザの直
接必要な情報のキーワードを入力してもらいそのキーワ
ードが含まれているか否かを全文検索してマッチングさ
せ結果を表示するので、マッチした結果だけをユーザが
選択してアクセスすることができる為である。
ホームページのハイパーテキスト構造がどうなっている
かをツリー状に表示してあげるだけでなく、どのページ
に自分の欲しい情報が含まれているかという判断がツリ
ー構造と共に表示された情報から判断することが可能に
なったということである。
任意に作成したホームページはホームページごとに作成
概念が違うのでホームページのデータのファイル名や中
味のタイトルだけでなく該ファイルへのリンク元が使用
していた該ファイルの説明となるようなテキストをも表
示することによりそのホームページの階層及び内容の概
要が判明できる為である。
索技術のようなキーワード検索方法をサーバ側にあるホ
ームページに対し組み込む作業を何もせずに、どんな形
態のホームページにでもユーザが希望するキーワードに
対し検索できるということである。
てHTMLファイルをアクセスしてユーザが入力したキ
ーワードと全文検索させるふるまいをHTMLの文法に
依存して行い、なおかつハイパーテキスト状のリンク先
もたどりながら行うためである。
に保存されている際の具体的な例の概念図である。
してブラウザで見た時のイメージ図である
Lファイルのソースリストの概念図である。
念図である。
概念図である。
ある。
である。
概念図である。
概念図である。
群の概念図である。
タの概念図である。
タの概念図である。
Claims (2)
- 【請求項1】 入力システムと出力システムとを有する
情報処理システムにおいて、インターネットアクセス手
段と、前記インターネットアクセス手段によってアクセ
スして得られたデータを一時保存するアクセスデータ一
時保存手段と、前記アクセスデータ一時保存手段内に保
存してあるデータを分析する分析手段と、前記分析手段
によって分析されたデータの中からHTML(Hype
r Text Markup Language以下H
TML)ファイルへのアンカー(リンクされたURL
(Uniform Resource Locator
以下URL))を抽出するアンカー抽出手段と、前記ア
ンカー抽出手段によって抽出されたアンカーやユーザに
よって該記入力システムから入力されたアンカーを保存
しておくアンカー保存手段と、該データに対してツリー
状に表示し易いように採番する採番手段と、前記採番手
段によって得られた番号や該記分析手段によって分析さ
れた結果を整理するデータ整理手段と、前記データ整理
手段によって整理されたデータを表示データとして保存
しておく表示データ保存手段とを有することを特徴とす
るホームページ分析表示システム。 - 【請求項2】 さらに、請求項1のシステムに対し、該
入力手段により入力されたキーワードを保存するキーワ
ード保存手段と、前記キーワード保存手段に保存してあ
るキーワードが該記分析手段により分析されたデータ内
に含まれているかを判定するマッチング手段を有し、結
果を該記表示データ保存手段に保存し、該記出力手段に
出力することを特徴とするホームページ分析表示システ
ム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09005942A JP3077615B2 (ja) | 1997-01-17 | 1997-01-17 | ホームページ分析表示システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09005942A JP3077615B2 (ja) | 1997-01-17 | 1997-01-17 | ホームページ分析表示システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10207758A true JPH10207758A (ja) | 1998-08-07 |
JP3077615B2 JP3077615B2 (ja) | 2000-08-14 |
Family
ID=11624965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09005942A Expired - Fee Related JP3077615B2 (ja) | 1997-01-17 | 1997-01-17 | ホームページ分析表示システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3077615B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082923A (ja) * | 2000-09-08 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報収集方法、情報収集装置、情報収集プログラムを記録した記録媒体 |
JP2002358390A (ja) * | 2001-05-31 | 2002-12-13 | Emiko Kashima | 調達情報自動検索システム |
JP2007272742A (ja) * | 2006-03-31 | 2007-10-18 | Ntt Docomo Inc | 通信端末及び通信方法 |
JP2008071212A (ja) * | 2006-09-15 | 2008-03-27 | Hitachi Ltd | コンテンツ提供方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04321144A (ja) * | 1991-04-20 | 1992-11-11 | Fuji Xerox Co Ltd | ハイパーテキストのブラウジング処理装置 |
JPH08305729A (ja) * | 1995-05-10 | 1996-11-22 | Oki Electric Ind Co Ltd | ネットワーク情報フィルタリングシステム |
-
1997
- 1997-01-17 JP JP09005942A patent/JP3077615B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04321144A (ja) * | 1991-04-20 | 1992-11-11 | Fuji Xerox Co Ltd | ハイパーテキストのブラウジング処理装置 |
JPH08305729A (ja) * | 1995-05-10 | 1996-11-22 | Oki Electric Ind Co Ltd | ネットワーク情報フィルタリングシステム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082923A (ja) * | 2000-09-08 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報収集方法、情報収集装置、情報収集プログラムを記録した記録媒体 |
JP2002358390A (ja) * | 2001-05-31 | 2002-12-13 | Emiko Kashima | 調達情報自動検索システム |
JP2007272742A (ja) * | 2006-03-31 | 2007-10-18 | Ntt Docomo Inc | 通信端末及び通信方法 |
JP2008071212A (ja) * | 2006-09-15 | 2008-03-27 | Hitachi Ltd | コンテンツ提供方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3077615B2 (ja) | 2000-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7844594B1 (en) | Information search, retrieval and distillation into knowledge objects | |
KR100505848B1 (ko) | 검색 시스템 | |
US20080071739A1 (en) | Using anchor text to provide context | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
US7783643B2 (en) | Direct navigation for information retrieval | |
WO2001035270A1 (en) | Search dedicated web site and search method on internet | |
JP2003208434A (ja) | 情報検索システム及びそれに用いる情報検索方法 | |
KR100359233B1 (ko) | 웹 정보 추출 방법 및 시스템 | |
JPH1153392A (ja) | 情報フィルタリング装置および同装置に適用される関連情報提供方法 | |
JP5151368B2 (ja) | 情報処理装置および情報処理プログラム | |
JP2007128367A (ja) | 情報検索ノウハウ管理システム | |
JP2003316824A (ja) | 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法 | |
JP3077615B2 (ja) | ホームページ分析表示システム | |
CN101364220A (zh) | 基于用户特性的词频库的生成方法 | |
WO2010110645A2 (en) | A system for automatic semantic-based mining | |
US7386794B2 (en) | Apparatus and method for performing the management of operation history | |
JP4756764B2 (ja) | プログラム及び情報処理装置並びに情報処理方法 | |
JPH11134341A (ja) | ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム | |
Yu et al. | Similarity computation of web pages of focused crawler | |
JP2009098829A (ja) | 漫画のコマ検索装置 | |
KR19990078876A (ko) | 일괄된 자원 위치기 입력을 통한 정보 검색 방법 | |
JP2001075859A (ja) | 情報巡回獲得装置 | |
JP2000322167A (ja) | データ管理システムおよびデータ属性表示方法 | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
KR20010060361A (ko) | 웹 검색사이트의 검색결과 표시방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20000516 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080616 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090616 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110616 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |