JPH11134341A - ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム - Google Patents

ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム

Info

Publication number
JPH11134341A
JPH11134341A JP9292806A JP29280697A JPH11134341A JP H11134341 A JPH11134341 A JP H11134341A JP 9292806 A JP9292806 A JP 9292806A JP 29280697 A JP29280697 A JP 29280697A JP H11134341 A JPH11134341 A JP H11134341A
Authority
JP
Japan
Prior art keywords
tag
information
character string
keyword
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9292806A
Other languages
English (en)
Inventor
Yoshikazu Arai
良和 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9292806A priority Critical patent/JPH11134341A/ja
Publication of JPH11134341A publication Critical patent/JPH11134341A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】HTML記述情報の中から必要な部分を自動的
に抜粋して一つに纏めて表示することができ、本当に必
要な情報の掲載されたページを迅速にかつ、効率的に探
索することができるHTML記述情報抜粋表示システム
の提供。 【解決手段】入力部11から入力されたURLによりH
TML取得部12が取得したHTMLフアイルを文字列
検索部13によりキーワードを含む文字列を検索し、こ
の文字列に含まれている分割タグをタグ解析部14によ
り見つけてこれによりキーワードを含む文字列を情報抽
出部15により抽出して出力部16に表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はハイパーメデイア記
述言語(以下HTMLと略称する:HyperText
Markup Language)による記述情報の
抜粋表示システムに関し、特にWWW(World W
ide Web)におけるHTMLで記述されたホーム
ページ情報の中から与えられたキーワードに関連した部
分を抜粋表示するHTML記述情報抜粋表示システムに
関する。
【0002】
【従来の技術】最近急速に普及してきたインターネット
においては、WWWと呼ばれる情報検索システムが構築
されており、このWWWによれば、種々の情報やサービ
スがHTMLと呼ばれる言語によって記述されたホーム
ページにより提供されるようになされている。
【0003】現在、ホームページの数は、莫大な数とな
っており、その中からユーザが自身によって所望するも
のを見つけ出すのは困難である。そこで、WWWでは、
例えばキーワードなどを入力すると、そのキーワードを
含むホームページを検索するような種々の検索サービス
が提供されている。
【0004】さらには特開平9−171513号公報記
載の技術では、ユーザが、自身が所望するホームページ
が開設されたことを、容易に認識することもできるよう
になっている。
【0005】そしてこのキーワード検索を行なって対応
するホームページのURL(Uniform Reso
urce Locater、一種のアドレス)を得て、
これを用いて、WWWブラウザによりホームページを表
示してユーザは所望の情報を得ている。
【0006】
【発明が解決しようとする課題】上述した従来のホーム
ページの表示システム、すなわち、HTML記述情報表
示システムは、ホームページ、すなわち、HTML記述
情報の全文を表示しており、上記のキーワード検索で多
数のURLが得られた場合にはその全てのホームページ
をWWWブラウザで表示して、本当に必要な情報の掲載
されたページを目視で探さなければならないという欠点
を有している。
【0007】本発明の目的は、ホームページ、すなわ
ち、HTML記述情報の中から必要と考えられる部分を
自動的に抜粋して一つに纏めて表示できるHTML記述
情報抜粋表示システムを提供することにある。
【0008】
【課題を解決するための手段】第1の発明のHTML記
述情報抜粋表示システムは、ハイパーメデイア記述言語
により記述された記述情報から指定されたキーワードを
含むキーワード文字列を検索する文字列検索手段と、前
記記述情報にあるタグを解析し予め指定された分割タグ
を検出するタグ解析手段と、前記検出された分割タグに
基づいて前記キーワード文字列を前記記述情報から抽出
しハイパーメデイア記述言語による抜粋情報に整形する
情報抽出手段と、前記抽出されたキーワード文字列を表
示する表示手段とを含んで構成されている。
【0009】第2の発明のHTML記述情報抜粋表示シ
ステムは、第1の発明のHTML記述情報抜粋表示シス
テムにおいて、文字列検索手段は検索に際しては先ず記
述情報からタグを削除してキーワード文字列を検索し検
索後に前記削除したタグを復元することを特徴としてい
る。
【0010】第3の発明のHTML記述情報抜粋表示シ
ステムは、第1の発明のHTML記述情報抜粋表示シス
テムにおいて、情報抽出手段はキーワードに先行する最
も近い先行指定分割タグとキーワードに後続する最も近
い後続指定分割タグとを検索して前記先行指定分割タグ
と後続指定分割タグとを含むその間の文字列を抽出する
ことを特徴としている。
【0011】第4の発明のHTML記述情報抜粋表示シ
ステムは、第3の発明のHTML記述情報抜粋表示シス
テムにおいて、情報抽出手段は抽出したキーワードを含
む文字列ブロックが複数あるときには文字列区切りタグ
により1つの文字列ブロックにすることを特徴としてい
る。
【0012】第5の発明のHTML記述情報抜粋表示シ
ステムは、第3の発明のHTML記述情報抜粋表示シス
テムにおいて、情報抽出手段は抽出した文字列ブロック
の先頭に終了タグがある場合および前記文字列ブロック
の終端に開始タグがある場合にはこれを削除し、これ以
外で前記文字列ブロック中に先行する開始タグに対応す
る後続する終了タグが存在する場合以外は対応する不足
タグを追加することを特徴としている。
【0013】第6の発明のHTML記述情報抜粋表示シ
ステムは、第3の発明のHTML記述情報抜粋表示シス
テムにおいて、情報抽出手段はハイパーメデイア記述言
語によることを示すタグと、情報のヘッダ部を示すタグ
と、情報の本文を示すタグとにより抜粋情報に整形する
ことを特徴としている。
【0014】第7の発明のHTML記述情報抜粋表示シ
ステムは、第1の発明のHTML記述情報抜粋表示シス
テムにおいて、ハイパーメデイア記述言語による記述情
報であるホームページ情報をネットワークを介して取得
し前記ホームページ情報の指定されたキーワードを含む
抜粋情報を作成して表示するすることを特徴としてい
る。
【0015】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0016】図1は本発明のHTML記述情報抜粋表示
システムの一実施の形態を示すブロック図である。
【0017】本実施の形態のHTML記述情報抜粋表示
システムは、図1に示すように、URLとキーワードと
を入力する入力部11と、入力部11から受け取り対応
するHTMLフアイルをWWWサーバから取得するHT
ML取得部12と、入力部11からキーワードを受け取
りHTML取得部12からHTMLフアイルを受けとり
HTMLフアイルに対しキーワード文字列の検索を行な
う文字列検索部13と、文字列検索部13からキーワー
ド文字列の検索の終了したHTMLフアイルを受けとり
そのタグを検索しキーワード文字周辺で文書構造の区切
りに使用されることが多いタグを探し出すタグ解析部1
4とキーワードを含みタグ解析部14で探し出されたタ
グで囲まれた部分を抜き出し文書ブロックとしさらにそ
の文書ブロックが複数ある場合はこれを一つにまとめ表
示可能なHTMLフアイル形式にする情報抽出部15
と、情報抽出部15で得られるHTMLフアイルを表示
する出力部16とから構成されている。
【0018】これらにより構成される本実施の形態のH
TML記述情報抜粋表示システムは、図2に示すキーボ
ード等の入力装置21と、情報を表示するデイスプレイ
22と、入力部11、HTML取得部12、文字列検索
部13、タグ解析部14、情報抽出部15、出力部16
等の処理を行なうコンピュータ23とにより実現され
る。
【0019】図3は本実施の形態のHTML記述情報抜
粋表示システムの動作を示す流れ図である。図1〜図3
を参照して本実施の形態のHTML記述情報抜粋表示シ
ステムの動作を説明する。
【0020】まず、入力装置21から与えられたURL
とキーワードは、コンピュータ23に実装された入力部
11によってURLはHTML取得部12へ、キーワー
ドは文字列検索部13へ渡される(ステップ302)。
【0021】URLを受け取ったHTML取得部12は
対応するHTMLフアイルをWWWサーバから取得する
(ステップ303)。
【0022】次に、文字列検索部13は入力部11から
キーワード、HTML取得部12からHTMLフアイル
を受け取り、HTMLフアイルに対しキーワード検索を
行なう(ステップ304)。この際HTMLのタグとコ
メント部分は検索を行なう前に一旦取り除き検索を行な
い、検索終了後に元あった場所にタグとコメント部分を
戻すようにした方がよい。これは、タグとコメントはH
TMLフアイルを参照する際、眼には触れない部分であ
り、キーワードの検索の対象にならないし、また、それ
があることにより検索に誤作動を与えるためである。
【0023】キーワードに当てはまる部分がなかった場
合は(ステップ305のN枝)、その旨を出力部16に
伝え表示する(ステップ312)。
【0024】キーワードに当てはまる部分があった場合
は(ステップ305のY枝)、そのキーワードの位置を
記憶して置く(ステップ306)。
【0025】次にタグ解析部14はキーワード検索の終
了したHTMLフアイルを受け取りその文書の区切りに
使われるタグを検索する(ステップ307)。そして見
つけだされたタグを元にして情報抽出部15はキーワー
ドを含む部分を抜き出し文書ブロックにする(ステップ
308)。文書ブロックの作成処理は図4を用いて後述
する(ステップ308)。
【0026】作成した文書ブロックが複数あるかチェッ
クし(ステップ309)、複数あるときには(ステップ
309のY枝)、改行タグ<BR>、水平線タグ<HR
>等の区切り用タグを挟んでつなぎあわせ一つの文書ブ
ロックにする(ステップ310)。この例は図5を用い
て後述する。
【0027】次に、HTMLの必須タグ(図6(b)に
示す)を文書ブロックの前後に追加しHTMLフアイル
を作成する(ステップ311)。
【0028】できたHTMLフアイルは出力部16から
コンピュータ23に表示される(ステップ312)。
【0029】図4はタグを元にしてキーワードを含む文
書ブロックをHTMLフアイルから抜き出す処理を示す
流れ図である。
【0030】あらかじめ設定しておいた文書の構造的な
区切りに使用されることの多いタグがHTMLフアイル
中のキーワードの前にあるかを検索し、キーワードの前
にあって最も近い位置にあるタグを探す(ステップ40
2)。次に同様に設定したタグがキーワードより後ろに
あるかを検索しキーワードの後ろにあって最も近い位置
にあるタグを探す(ステップ403)。
【0031】次に、キーワードの前後で見つかったタグ
を含む部分を抜き出す(ステップ404)。
【0032】通常分割に利用するHTMLのタグは図6
(a)に示すように、開始タグと終了タグが存在する
が、抜き出した結果、開始、終了のいずれかが不足の場
合と過剰の場合とが起るのでこれをチェックする(ステ
ップ405)。文書ブロックの先頭に終了タグがある場
合と、文書ブロックの終端に開始タグがある場合は、そ
のタグは過剰であるので取り去る。その他の場合で開始
タグと終了タグが一致していない場合は、不足と見なし
タグを追加する(ステップ406)。
【0033】図5は文書ブロックをつなぎ併せる処理の
ステップ310の一例を示す流れ図である。文書ブロッ
クが複数ある場合には、これらを一つの文書ブロックに
まとめる。すなわち、ある文書ブロックAにつづく次の
文書ブロックBがあるかを調べ(ステップ502)、な
ければ(ステップ502のN枝)、この動作は終了する
が、あった場合には(ステップ502のY枝)、この文
書ブロックAの最後に<HR>タグを追加して(ステッ
プ503)その後に次の文書ブロックBを追加し(ステ
ップ504)、残余の文書ブロックがなくなるまで<H
R>タグで繋げてゆき、一つの文書ブロックに纏めてゆ
く。
【0034】図7はHTMLフアイルからキーワードを
含む文書ブロックを図4に従って抜き出した結果の例を
示している。
【0035】以上説明したように、本実施の形態のHT
ML記述情報抜粋表示システムは、ホームページの中か
ら必要と考えられる部分を自動的に抜粋して一つに纏め
て表示することができ、本当に必要な情報の掲載された
ページを従来よりも迅速にかつ、効率的に探索すること
ができる。
【0036】本実施の形態の説明ではWWWのホームペ
ージを例にとって行なったが、本発明はこれに限定され
るものではなく、HTML記述言語による記述情報につ
いての抜粋表示についても適用できることは自明であ
る。
【0037】
【発明の効果】以上説明したように、本発明のHTML
記述情報抜粋表示システムは、HTML記述言語による
記述情報の中から必要と考えられる部分を自動的に抜粋
して一つに纏めて表示することができ、本当に必要な情
報の掲載されたページを従来よりも迅速にかつ、効率的
に探索することができるという効果を有している。
【図面の簡単な説明】
【図1】本発明のHTML記述情報抜粋表示システムの
一実施の形態を示すブロック図である。
【図2】本実施の形態のHTML記述情報抜粋表示シス
テムにおける一実施例の構成を示すブロック図である。
【図3】本実施の形態のHTML記述情報抜粋表示シス
テムの動作の一例を示す流れ図である。
【図4】本実施の形態のHTML記述情報抜粋表示シス
テムの情報抽出の動作を示す詳細流れ図である。
【図5】本実施の形態のHTML記述情報抜粋表示シス
テムの文書ブロックつなぎあわせ動作の詳細流れ図であ
る。
【図6】(a)は分割タグの一例を示すタグ図、(b)
は必須タグの一例を示すタグ図である。
【図7】HTMLフアイルからキーワードを含む文書ブ
ロックを抜き出した結果の例を示す図である。
【符号の説明】
11 入力部 12 HTML取得部 13 文字列検索部 14 タグ解析部 15 情報抽出部 16 出力部 21 入力装置 22 デイスプレイ 23 コンピュータ

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 ハイパーメデイア記述言語により記述さ
    れた記述情報から指定されたキーワードを含むキーワー
    ド文字列を検索する文字列検索手段と、前記記述情報に
    あるタグを解析し予め指定された分割タグを検出するタ
    グ解析手段と、前記検出された分割タグに基づいて前記
    キーワード文字列を前記記述情報から抽出しハイパーメ
    デイア記述言語による抜粋情報に整形する情報抽出手段
    と、前記抽出されたキーワード文字列を表示する表示手
    段とを含むことを特徴とするハイパーメデイア記述言語
    による記述情報の抜粋表示システム。
  2. 【請求項2】 文字列検索手段は検索に際しては先ず記
    述情報からタグを削除してキーワード文字列を検索し検
    索後に前記削除したタグを復元することを特徴とする請
    求項1記載のハイパーメデイア記述言語による記述情報
    の抜粋表示システム。
  3. 【請求項3】 情報抽出手段はキーワードに先行する最
    も近い先行指定分割タグとキーワードに後続する最も近
    い後続指定分割タグとを検索して前記先行指定分割タグ
    と後続指定分割タグとを含むその間の文字列を抽出する
    ことを特徴とする請求項1記載のハイパーメデイア記述
    言語による記述情報の抜粋表示システム。
  4. 【請求項4】 情報抽出手段は抽出したキーワードを含
    む文字列ブロックが複数あるときには文字列区切りタグ
    により1つの文字列ブロックにすることを特徴とする請
    求項3記載のハイパーメデイア記述言語による記述情報
    の抜粋表示システム。
  5. 【請求項5】 情報抽出手段は抽出した文字列ブロック
    の先頭に終了タグがある場合および前記文字列ブロック
    の終端に開始タグがある場合にはこれを削除し、これ以
    外で前記文字列ブロック中に先行する開始タグに対応す
    る後続する終了タグが存在する場合以外は対応する不足
    タグを追加することを特徴とする請求項3記載のハイパ
    ーメデイア記述言語による記述情報の抜粋表示システ
    ム。
  6. 【請求項6】 情報抽出手段はハイパーメデイア記述言
    語によることを示すタグと、情報のヘッダ部を示すタグ
    と、情報の本文を示すタグとにより抜粋情報に整形する
    ことを特徴とする請求項3記載のハイパーメデイア記述
    言語による記述情報の抜粋表示システム。
  7. 【請求項7】 ハイパーメデイア記述言語による記述情
    報であるホームページ情報をネットワークを介して取得
    し前記ホームページ情報の指定されたキーワードを含む
    抜粋情報を作成して表示するすることを特徴とする請求
    項1記載のハイパーメデイア記述言語による記述情報の
    抜粋表示システム。
JP9292806A 1997-10-24 1997-10-24 ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム Pending JPH11134341A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9292806A JPH11134341A (ja) 1997-10-24 1997-10-24 ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9292806A JPH11134341A (ja) 1997-10-24 1997-10-24 ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム

Publications (1)

Publication Number Publication Date
JPH11134341A true JPH11134341A (ja) 1999-05-21

Family

ID=17786598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9292806A Pending JPH11134341A (ja) 1997-10-24 1997-10-24 ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム

Country Status (1)

Country Link
JP (1) JPH11134341A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004506251A (ja) * 1999-06-03 2004-02-26 エイジェントウェア インコーポレイテッド 個別化メタブラウザ
WO2006137412A1 (ja) * 2005-06-20 2006-12-28 National Institute Of Information And Communications Technology, Incorporated Administrative Agency データ表示装置及び方法
KR100684444B1 (ko) * 1999-12-17 2007-02-16 주식회사 케이티 로봇과 정규식을 이용한 정보수집 방법
JP2007241482A (ja) * 2006-03-06 2007-09-20 National Institute Of Information & Communication Technology デ−タ表示装置及び方法
JP2009223747A (ja) * 2008-03-18 2009-10-01 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2013030041A (ja) * 2011-07-29 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法、情報抽出装置、情報抽出プログラム
JP2018028803A (ja) * 2016-08-18 2018-02-22 富士通株式会社 文書表示装置、文書表示方法及び文書表示プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004506251A (ja) * 1999-06-03 2004-02-26 エイジェントウェア インコーポレイテッド 個別化メタブラウザ
KR100684444B1 (ko) * 1999-12-17 2007-02-16 주식회사 케이티 로봇과 정규식을 이용한 정보수집 방법
WO2006137412A1 (ja) * 2005-06-20 2006-12-28 National Institute Of Information And Communications Technology, Incorporated Administrative Agency データ表示装置及び方法
JP2007241482A (ja) * 2006-03-06 2007-09-20 National Institute Of Information & Communication Technology デ−タ表示装置及び方法
JP2009223747A (ja) * 2008-03-18 2009-10-01 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2013030041A (ja) * 2011-07-29 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法、情報抽出装置、情報抽出プログラム
JP2018028803A (ja) * 2016-08-18 2018-02-22 富士通株式会社 文書表示装置、文書表示方法及び文書表示プログラム

Similar Documents

Publication Publication Date Title
US8321396B2 (en) Automatically extracting by-line information
US8150824B2 (en) Systems and methods for direct navigation to specific portion of target document
JP5256293B2 (ja) 検索結果ページ上に対話要素を含めるためのシステム及び方法
US7730013B2 (en) System and method for searching dates efficiently in a collection of web documents
US9767082B2 (en) Method and system of retrieving ajax web page content
CN101454781B (zh) 扩展的摘录
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
JP2011192102A (ja) サマリ作成装置、サマリ作成方法及びプログラム
JP5493845B2 (ja) 検索支援プログラム、検索支援装置、及び検索支援方法
JP2010128928A (ja) 検索システム及び検索方法
US7069262B1 (en) Information processing apparatus, recording medium, and method for using them
JPH11134341A (ja) ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム
JP2004086845A (ja) 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
CN101593187A (zh) 用于管理书签的方法和***
JPH10289250A (ja) Wwwブラウザにおけるurl登録及び表示方式
JP2008102773A (ja) データを共通のフォーマットに変換する方法
JP2005316590A (ja) 情報検索装置
JP2001022788A (ja) 情報検索装置および情報検索プログラムを記録した記録媒体
JP2004192276A (ja) 情報検索システム、情報検索装置、及びコンピュータプログラム
JP3604069B2 (ja) 文書間関連度計算装置、その方法およびその記録媒体
JP2000235578A (ja) マルチメディア情報検索・提示方法、システム、およびマルチメディア情報検索・提示システムを記録した記録媒体
JP2002073685A (ja) 検索結果提供方法・検索結果提供装置
JP2001306584A (ja) 書籍などの検索を支援する知識検索サービス方法および装置
JPH10207758A (ja) ホームページ分析表示システム
JP2000148766A (ja) インターネット情報取得方法及び装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000808