KR20010097705A - 웹 문서 수집과 정보 구현 방법 - Google Patents

웹 문서 수집과 정보 구현 방법 Download PDF

Info

Publication number
KR20010097705A
KR20010097705A KR1020000021994A KR20000021994A KR20010097705A KR 20010097705 A KR20010097705 A KR 20010097705A KR 1020000021994 A KR1020000021994 A KR 1020000021994A KR 20000021994 A KR20000021994 A KR 20000021994A KR 20010097705 A KR20010097705 A KR 20010097705A
Authority
KR
South Korea
Prior art keywords
web
user
information
search engine
input variable
Prior art date
Application number
KR1020000021994A
Other languages
English (en)
Inventor
이황근
Original Assignee
이황근
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이황근 filed Critical 이황근
Priority to KR1020000021994A priority Critical patent/KR20010097705A/ko
Publication of KR20010097705A publication Critical patent/KR20010097705A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 인터넷에서의 웹 문서 수집과 정보 구현 방법에 관한 것으로, 웹 검색엔진을 이용하여 필요한 웹문서 내용만을 수집하고 웹 검색엔진이 수집한 웹 문서로부터 사용자의 웹 브라우저에 사용자가 원하는 출력형태와 정보만을 구현하는 웹 문서 수집과 정보 구현 방법에 관한 발명이다. 본 발명의 구성은 웹 검색엔진이 수행할 일들을 사전정의 하는 환경설정파일과 웹 검색엔진이 수집한 웹 문서를 저장하는 수집단계와, 상기 수집단계에서 저장된 웹 문서 내용을 정보로 추출하여 일정한 양식으로 출력되도록 하는 출력양식파일과 출력양식파일을 사용자 웹 브라우저에 출력되도록 HTML 웹 문서로 변환처리를 하는 정보처리단계와, 사용자가 언제든지 사용자 웹 브라우저에서 구현되는 정보를 변경하고 정보가 출력되는 양식을 변경하도록 하는 사용자 맞춤정보 설정단계로 구성된다.

Description

웹 문서 수집과 정보 구현 방법{METHOD OF IMFORMATION DISPLAY FOR WEB CLIP}
본 발명은 인터넷에서의 웹 문서 수집과 정보 구현 방법에 관한 것으로, 특히 웹 검색엔진을 이용하여 필요한 웹 문서 내용만을 수집하고 웹 검색엔진이 수집한 웹 문서로부터 사용자의 웹 브라우저에 사용자가 원하는 정보만을 구현하는 웹 문서 수집과 정보 구현 방법에 관한 발명이다.
일반적으로 인터넷 사용자들은 인터넷에서 정보를 얻기 위하여 웹 검색엔진을 이용하여 관련 정보가 있는 웹 문서의 URL을 추출하고 추출된 URL을 가지고 인터넷 서핑을 하다가 정보가치가 있는 웹 문서를 만나게 되면 다음에 보다 쉽고 빠르게 웹 문서에 접근하기 위하여 웹 브라우저의 기능인 북마크 목록에 웹문서의 URL을 추가한다.
웹 검색엔진을 이용하여 관련 정보가 있는 웹 문서의 URL의 추출은 웹 검색엔진이 수집한 웹 문서의 내용을 사전형식으로 색인하여 저장하였다가 사용자가 작성한 질의어를 색인과 대조하여 관련 웹 문서의 URL들을 추출하게 된다.
그러나, 사용자가 작성한 질의어가 한 단어 이상이거나 문장으로 이루어진다면 웹 검색엔진이 색인과 사용자의 질의어를 정확히 대조하지 못해 사용자가 원하지 않는 정보까지 출력되는 경우가 많았다.
또한, 웹 검색엔진이 실시간이 아니고 주기적으로 웹 문서를 수집하기 때문에 웹 검색엔진이 갱신된 웹 문서 이전 정보만을 갖고 있다면 사용 불가능한 웹 문서의 URL을 검출시키는 문제점이 있었다.
그리고, 사용자는 웹 브라우저의 북마크에 등록된 웹 사이트를 다시 방문하지 않고서는 북마크에 등록된 웹 사이트의 갱신 여부를 알 수 없는 문제점이 있었으며 갱신된 정보를 찾기 위하여 일일이 북마크에 등록된 웹 문서를 다시 방문해야 하기 때문에 갱신된 정보를 찾기 위한 시간이 많이 소비되는 문제점이 있었다.
본 발명은 상기의 문제점을 해결하기 위한 것으로 여러 웹 사이트에 흩어져 있는 인터넷 정보에서 사용자가 원하는 정보만을 추출하여 사용자 웹 브라우저에 실시간으로 구현하는데 있다.
또한, 본 발명은 사용자가 원하는 정보들에 보다 쉽게 액세스하고 정보검색시간을 줄이는데 목적이 있다.
또한 본 발명의 목적은 사용자가 웹 검색엔진이 수집할 웹 문서의 내용을 정하게 하고 수집된 웹 문서의 내용을 사용자가 원하는 형태의 정보를 출력하게 함으로서 사용자 자신의 정보 욕구를 만족시키는 개인 맞춤형 포탈 사이트를 보다 쉽게 구축하게 하는데 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명은, 웹 검색엔진이 수행할 일들을 사전정의 하고 웹 검색엔진이 수집한 웹 문서내용을 저장하는 수집단계와, 웹 검색엔진이 수집한 자료를 사용자가 원하는 정보형태로 바꾸어 웹 서비스를 하는 정보처리단계와, 사용자가 웹 브라우저에서 출력되는 정보와 출력형태를 바꿀 수 있도록 하는 사용자 맞춤정보 설정단계로 구성한 것을 특징으로 한다.
도 1은 본 발명의 인터넷에서의 웹 문서 수집과 수집된 정보를 사용자 웹 브라우저에 구현하는 것을 나타내는 개념도이다.
도 2는 본 발명의 수집단계를 설명하기 위한 순서도이다.
도 3은 본 발명의 수집단계에서 웹 검색엔진의 수행하는 일을 조정하는 환경설정파일의 예를 나타내는 예시도이다.
도 4는 본 발명의 정보처리단계를 설명하는 순서도이다.
도 5는 본 발명의 정보처리단계에서의 출력양식 파일을 나타내는 예시도이다.
도 6은 사용자 정보맞춤 설정단계를 설명하는 순서도이다.
〈도면의 주요 부분에 대한 부호의 설명〉
10: 수집단계 12: 환경설정파일
14: 웹 검색엔진 16: 저장파일
20: 정보처리단계 22: 출력양식파일
24: HTML변환파일 30: 사용자 맞춤정보 설정단계
32: 사용자 웹 브라우저
이에 본 발명을 첨부된 도면을 참조로하여 구체적으로 설명하면 다음과 같다.
도 1은 본 발명의 인터넷에서의 웹 문서 수집과 수집된 정보를 사용자 웹 브라우저에 구현하는 것을 나타내는 개념도이다.
도 1에 도시한 바와 같이 본 발명의 구성은 웹 검색엔진(14)이 수행할 일들을 사전정의 하는 환경설정파일(12)과 웹 검색엔진이 수집한 웹 문서를 저장파일(16)에 저장하는 수집단계(10)와, 상기 수집단계(10)에서 저장된 웹 문서 내용을 정보로 추출하여 일정한 양식으로 출력되도록 하는 출력양식파일(22)과 출력양식파일(22)을 사용자 웹 브라우저(32)에 출력되도록 HTML 웹 문서로 변환처리(24)를 하는 정보처리단계(20)와, 사용자가 언제든지 사용자 웹 브라우저(32)에서 구현되는 정보를 변경하고 정보가 출력되는 양식을 변경하도록 하는 사용자 맞춤정보 설정단계(30)로 구성된다.
상기 수집단계를 도 2와 도 3을 참조하면서 상세히 설명한다
도 2는 본 발명의 수집단계를 설명하기 위한 순서도이다.
도 3은 본 발명의 수집단계에서 웹 검색엔진의 수행하는 일을 조정하는 환경설정파일의 예를 나타내는 예시도이다.
웹 검색엔진이 인터넷상에서 웹 문서의 내용 수집과 수집된 웹 문서의 내용 저장은 다음의 단계를 포함하여 이루어진다.
웹 검색엔진이 수행할 일들을 사전에 정의하기 위한 웹 검색엔진 환경설정파일에 입력 값 설정단계(10-a)와, 웹 검색엔진 환경설정파일 입력 값의 유효성의 여부를 판단하는 단계(10-b)와, 환경설정파일의 입력변수 값에 의해 웹 검색엔진이 웹 문서의 내용을 수집하는 단계(10-c)와, 웹 검색엔진이 수집한 웹 문서의 내용을 저장부에 저장할 수 있는 지를 판단하는 단계(10-d)와, 웹 검색엔진이 수집한 웹 문서의 내용을 환경설정파일의 입력 변수 값에 따라 저장하는 단계(10-e)로 구성된다.
상기 본 발명의 수집단계는 환경설정파일의 URL 입력변수(12-a)에 수집할 웹 문서의 URL을 입력하며, 환경설정파일의 수집조건식 입력변수(12-b)에 필요한 웹 문서내용만을 수집하는 수집조건식 값을 입력한다. 수집조건식은 수집할 웹 문서의 내용에 해당하는 HTML 태그(Tag)를 이용하여 수집조건식을 만든다.
그리고 웹 검색엔진이 수집할 웹 문서의 내용들을 분류하여 저장될 수 있도록 환경파일설정파일의 필드입력변수(12-d)에 수집할 웹 문서 내용의 분류항목 값을 입력한다.
웹 검색엔진이 수집할 웹 문서내용이 필드로 분류되어 저장하는 저장파일입력변수(12-c) 값에 저장될 파일명을 입력한다. 여기에서 저장될 파일명 대신에 DATABASE에 웹 문서의 내용이 저장할 수 있도록 DATABASE 연결문을 입력할 수 있다. 상기와 같이 환경설정파일에 입력된 변수 값이 유효한지를 판단하여 웹 검색엔진은 환경설정파일에 입력된 변수 값에 따라 웹 검색엔진이 수행된다. 웹 검색엔진이 수행할 일들을 추가하기 위하여 환경설정파일의 입력변수는 사용자가 정의하는데로 추가할 수 있다.
환경설정파일 작성의 예를 도 3을 참조하면서 상세히 설명한다.
웹 검색엔진이 수집할 웹 문서의 위치가 http://www.aaa.com/bbb.htm(12-a) 이며 bbb.htm이란 웹 문서에서 웹 검색엔진이 수집할 내용이 CCC이고 CCC에 해당하는 HTML 태그(Tag)가 <img src="ball.gif"> <a href="exam.htm">CCC</a>(12-b)이며 exam.htm과 CCC를 저장.xml 파일(12-c)의 AAA와 BBB필드 (12-d)에 저장한다고 하면 도 3에서 예시한 바와 같다.
도 3에서의 수집조건식(12-b) .*? 표시는 모든 String 값을 말하며 () 표시는 필드에 저장할 내용을 말한다. 여기에서의 .*? 표시나 () 표시는 사용자의 정의에 따라 달리 표현할 수 있다.
상기의 정보처리단계를 도 4와 도 5를 참조하면서 상세히 설명한다.
도 4는 본 발명의 정보처리단계를 설명하는 순서도이다.
도 5는 본 발명의 정보처리단계에서의 출력양식 파일을 나타내는 예시도이다.
웹 검색엔진이 웹 문서내용을 상기와 같이 수집하고 저장한 것을 사용자의 웹 브라우저에 정보로서 출력하는 단계는 다음과 같다.
상기 수집단계에서 저장한 웹 문서내용을 일정한 양식으로 사용자에게 출력 할 출력양식이 있는지를 판단하는 단계(20-a)와, 저장된 웹 문서내용에서 정보를 추출하여 사용자의 웹 브라우저에 일정한 양식으로 출력할 출력양식을 웹 서비스하기 위하여 HTML문서로 변환하는 단계(20-b)와, 상기 변환시킨 HTML문서(20-b)를 사용자 웹 브라우저(20-c)에 출력하는 단계로 구성된다.
웹 검색엔진은 수집단계에서 수집한 웹 문서 내용을 정보로 추출하여 일정한 양식으로 사용자 웹 브라우저에 출력시킬 출력양식파일이 있는지를 판단하여 출력양식파일 존재하면 웹 서버에게 사용자의 웹 브라우저에 정보를 출력시킬 수 있도록 HTML 문서로 변환한다. 상기 HTML 문서로 변환되어 출력된 정보는 사용자 웹 브라우저에 출력양식파일에서 지정한 형태로 정보를 출력하게 되는 것이다.
도 5를 참고하여 출력양식파일을 보다 상세히 설명한다.
웹 검색엔진이 필드별로 분류하여 저장한 웹 문서의 내용의 추출은 상기 수집단계의 환경설정파일에서 정의한 필드입력변수 값을 출력양식파일에 입력(22-a)하게 되면 웹 서버는 환경설정파일의 저장입력변수에서 지정된 저장파일에서 해당 필드입력변수(22-a)에 해당하는 정보가 추출된다.
여기 출력양식파일에는 사용자의 브라우저에 출력될 웹 문서의 모양이나 색상 등을 원하는 형식으로 출력되도록 웹 문서의 Style sheet등을 적용할 수 있다.
그리고 상기의 출력양식파일을 사용자 웹 브라우저에 서비스하기 위하여 웹 서버는 출력양식파일을 HTML문서로 변환한다.
도 6은 사용자 정보맞춤 설정단계를 설명하는 순서도이다.
상기의 사용자 정보맞춤 설정단계는 다음과 같다.
사용자 웹 브라우저에서 수집단계의 웹 설정환경파일의 입력변수의 추가나 입력변수 값의 변경이나 정보처리단계의 출력양식파일의 입력변수의 추가나 변경하는 단계(30-b)와 상기 입력변수의 값들의 유효성을 판단하는 단계(30-c)로 구성된다.
상기 수집단계와 정보처리단계를 거쳐 사용자의 웹 브라우저에 출력된 정보를 사용자의 웹 브라우저에서 사용자가 수집단계의 환경설정파일의 입력변수의 추가 및 입력변수 값을 변경하거나 정보처리단계의 출력양식파일의 입력변수의 추가 및 입력변수의 값을 변경을 하는 사용자 인터페이스(3-a)를 가지면 사용자는 언제든지 자신이 원하는 정보와 출력형태를 변경할 수 있는 것이다.
이상에서 설명한 바와 같이 웹 검색엔진이 인터넷상의 필요한 웹 문서의 내용만을 수집하게하고 저장하게 하여 사용자에게 원하는 정보만을 사용자 웹 브라우저에서 구현하게 함으로서, 여러 웹 사이트에 흩어진 정보들을 사용자가 원하는 정보와 형태로 사용자의 웹 브라우저에서 실시간으로 구현 할 수 있어 사용자는 인터넷 정보파악이 보다 쉽게 이룰 수 있으며, 인터넷 정보의 검색 시간을 줄이는 효과가 있다.

Claims (6)

  1. 웹 검색엔진에 있어서, 웹 검색엔진이 수행하는 일들을 정의하는 입력 변수의 값을 입력하는 환경설정 단계(10)와, 상기 환경설정 단계(10)의 입력 변수 값에 의해 필요한 웹 문서내용만을 수집하는 단계와, 상기 수집된 웹 문서내용을 상기 환경설정 단계의 입력된 변수 값에 의해 분류하여 저장하는 단계(16)로 이루어지는 웹 문서 수집과 정보 구현에 관한 방법.
  2. 청구항 1항에 있어서, 상기 환경설정 단계(10)의 입력변수(12-a, 12-b, 12-c, 12-d) 값을 인터넷상의 사용자의 웹 브라우저(32)에서 변경할 수 있는 단계를 가지는 웹 문서 수집과 정보 구현에 관한 방법.
  3. 청구항 1항에 있어서, 웹 검색엔진(14)이 수행하는 일들을 정의하는 입력변수(12-a, 12-b, 12-c, 12-d)를 인터넷상의 사용자의 웹 브라우저(32)에서 추가하고 추가한 입력변수의 값을 입력하는 단계를 가지는 웹 문서 수집과 정보 구현에 관한 방법.
  4. 웹 검색엔진에 있어서, 웹 검색엔진(14)이 저장한 웹 문서내용에서 원하는 정보와 출력형태를 정의하는 출력양식설정파일(22)에 입력변수(22-a) 값을 설정하는 단계와, 출력양식설정파일(22)의 입력 변수의 값에 의해 추출된 정보와 출력형태를 HTML 문서로 변환하는 단계로 이루어지는 웹 문서 수집과 정보 구현에 관한 방법.
  5. 청구항 4항에 있어서, 상기 출력양식설정파일(22)의 입력변수(22-a) 값을 인터넷상의 사용자 웹 브라우저(32)에서 변경하는 단계를 가지는 웹 문서 수집과 정보 구현 방법.
  6. 청구항 4항에 있어서, 상기 출력양식설정파일(22)의 입력변수(22-a)를 인터넷상의 사용자 웹 브라우저(32)에서 추가하며 값을 입력할 수 있는 단계를 가지는 웹 문서 수집과 정보 구현 방법.
KR1020000021994A 2000-04-25 2000-04-25 웹 문서 수집과 정보 구현 방법 KR20010097705A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000021994A KR20010097705A (ko) 2000-04-25 2000-04-25 웹 문서 수집과 정보 구현 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000021994A KR20010097705A (ko) 2000-04-25 2000-04-25 웹 문서 수집과 정보 구현 방법

Publications (1)

Publication Number Publication Date
KR20010097705A true KR20010097705A (ko) 2001-11-08

Family

ID=19666857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000021994A KR20010097705A (ko) 2000-04-25 2000-04-25 웹 문서 수집과 정보 구현 방법

Country Status (1)

Country Link
KR (1) KR20010097705A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054312A (ko) * 2000-06-01 2000-09-05 최우석 맞춤 웹정보 구축 제공 방법
KR20020004060A (ko) * 2000-06-30 2002-01-16 문병무 데이터 베이스 관리방법 및 그에 따른 시스템
KR20020030057A (ko) * 2002-03-20 2002-04-22 조근식 이동 서비스 에이전트를 이용한 무선 인터넷 전자상거래지원시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930008659A (ko) * 1991-10-07 1993-05-21 가나이 쯔도무 적합율 또는 일치율을 제공하는 데이타 검색 방법 및 장치
JPH10260978A (ja) * 1997-03-18 1998-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報収集方法及び装置
JPH10269237A (ja) * 1997-03-27 1998-10-09 Hitachi Ltd 文書閲覧システム
US5960422A (en) * 1997-11-26 1999-09-28 International Business Machines Corporation System and method for optimized source selection in an information retrieval system
KR20000050225A (ko) * 2000-05-29 2000-08-05 전상훈 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930008659A (ko) * 1991-10-07 1993-05-21 가나이 쯔도무 적합율 또는 일치율을 제공하는 데이타 검색 방법 및 장치
JPH10260978A (ja) * 1997-03-18 1998-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報収集方法及び装置
JPH10269237A (ja) * 1997-03-27 1998-10-09 Hitachi Ltd 文書閲覧システム
US5960422A (en) * 1997-11-26 1999-09-28 International Business Machines Corporation System and method for optimized source selection in an information retrieval system
KR20000050225A (ko) * 2000-05-29 2000-08-05 전상훈 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054312A (ko) * 2000-06-01 2000-09-05 최우석 맞춤 웹정보 구축 제공 방법
KR20020004060A (ko) * 2000-06-30 2002-01-16 문병무 데이터 베이스 관리방법 및 그에 따른 시스템
KR20020030057A (ko) * 2002-03-20 2002-04-22 조근식 이동 서비스 에이전트를 이용한 무선 인터넷 전자상거래지원시스템 및 방법

Similar Documents

Publication Publication Date Title
CN101470728B (zh) 一种中文新闻网页正文的自动抽取方法及装置
CA2242158C (en) Method and apparatus for searching and displaying structured document
CN101361063B (zh) 支持基于规则的文档内容挖掘的***与方法
US20090019015A1 (en) Mathematical expression structured language object search system and search method
US20020013792A1 (en) Virtual tags and the process of virtual tagging
CN100461173C (zh) 电子归档***和电子归档方法
US20030018611A1 (en) Document information management system
CN109614504A (zh) 一种互联网电子书的管理***及方法
US20090094327A1 (en) Method and apparatus for mapping a site on a wide area network
US20080306941A1 (en) System for automatically extracting by-line information
CN101149732A (zh) 由计算机使用的从自然语言文本开发本体的方法
CN103810251A (zh) 一种文本提取方法及装置
KR20190131778A (ko) 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템
KR20010106666A (ko) 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체
JP4768882B2 (ja) 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
WO2000077681A1 (en) Method for displaying search result data from internet search engines in three dimensional form
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN102457569B (zh) 一种面向物联网应用的Web服务的冗余检测方法及***
KR20010097705A (ko) 웹 문서 수집과 정보 구현 방법
Kucuk et al. Application of metadata concepts to discovery of internet resources
CN100357942C (zh) 一种移动互联网智能信息搜索引擎的搜索方法
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
CN100403310C (zh) 在文档中查找搜索串并在移动通信设备上查看的方法
KR102280028B1 (ko) 빅데이터와 인공지능을 이용한 챗봇 기반 콘텐츠 관리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application