KR20010097705A - 웹 문서 수집과 정보 구현 방법 - Google Patents
웹 문서 수집과 정보 구현 방법 Download PDFInfo
- Publication number
- KR20010097705A KR20010097705A KR1020000021994A KR20000021994A KR20010097705A KR 20010097705 A KR20010097705 A KR 20010097705A KR 1020000021994 A KR1020000021994 A KR 1020000021994A KR 20000021994 A KR20000021994 A KR 20000021994A KR 20010097705 A KR20010097705 A KR 20010097705A
- Authority
- KR
- South Korea
- Prior art keywords
- web
- user
- information
- search engine
- input variable
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
본 발명은 인터넷에서의 웹 문서 수집과 정보 구현 방법에 관한 것으로, 웹 검색엔진을 이용하여 필요한 웹문서 내용만을 수집하고 웹 검색엔진이 수집한 웹 문서로부터 사용자의 웹 브라우저에 사용자가 원하는 출력형태와 정보만을 구현하는 웹 문서 수집과 정보 구현 방법에 관한 발명이다. 본 발명의 구성은 웹 검색엔진이 수행할 일들을 사전정의 하는 환경설정파일과 웹 검색엔진이 수집한 웹 문서를 저장하는 수집단계와, 상기 수집단계에서 저장된 웹 문서 내용을 정보로 추출하여 일정한 양식으로 출력되도록 하는 출력양식파일과 출력양식파일을 사용자 웹 브라우저에 출력되도록 HTML 웹 문서로 변환처리를 하는 정보처리단계와, 사용자가 언제든지 사용자 웹 브라우저에서 구현되는 정보를 변경하고 정보가 출력되는 양식을 변경하도록 하는 사용자 맞춤정보 설정단계로 구성된다.
Description
본 발명은 인터넷에서의 웹 문서 수집과 정보 구현 방법에 관한 것으로, 특히 웹 검색엔진을 이용하여 필요한 웹 문서 내용만을 수집하고 웹 검색엔진이 수집한 웹 문서로부터 사용자의 웹 브라우저에 사용자가 원하는 정보만을 구현하는 웹 문서 수집과 정보 구현 방법에 관한 발명이다.
일반적으로 인터넷 사용자들은 인터넷에서 정보를 얻기 위하여 웹 검색엔진을 이용하여 관련 정보가 있는 웹 문서의 URL을 추출하고 추출된 URL을 가지고 인터넷 서핑을 하다가 정보가치가 있는 웹 문서를 만나게 되면 다음에 보다 쉽고 빠르게 웹 문서에 접근하기 위하여 웹 브라우저의 기능인 북마크 목록에 웹문서의 URL을 추가한다.
웹 검색엔진을 이용하여 관련 정보가 있는 웹 문서의 URL의 추출은 웹 검색엔진이 수집한 웹 문서의 내용을 사전형식으로 색인하여 저장하였다가 사용자가 작성한 질의어를 색인과 대조하여 관련 웹 문서의 URL들을 추출하게 된다.
그러나, 사용자가 작성한 질의어가 한 단어 이상이거나 문장으로 이루어진다면 웹 검색엔진이 색인과 사용자의 질의어를 정확히 대조하지 못해 사용자가 원하지 않는 정보까지 출력되는 경우가 많았다.
또한, 웹 검색엔진이 실시간이 아니고 주기적으로 웹 문서를 수집하기 때문에 웹 검색엔진이 갱신된 웹 문서 이전 정보만을 갖고 있다면 사용 불가능한 웹 문서의 URL을 검출시키는 문제점이 있었다.
그리고, 사용자는 웹 브라우저의 북마크에 등록된 웹 사이트를 다시 방문하지 않고서는 북마크에 등록된 웹 사이트의 갱신 여부를 알 수 없는 문제점이 있었으며 갱신된 정보를 찾기 위하여 일일이 북마크에 등록된 웹 문서를 다시 방문해야 하기 때문에 갱신된 정보를 찾기 위한 시간이 많이 소비되는 문제점이 있었다.
본 발명은 상기의 문제점을 해결하기 위한 것으로 여러 웹 사이트에 흩어져 있는 인터넷 정보에서 사용자가 원하는 정보만을 추출하여 사용자 웹 브라우저에 실시간으로 구현하는데 있다.
또한, 본 발명은 사용자가 원하는 정보들에 보다 쉽게 액세스하고 정보검색시간을 줄이는데 목적이 있다.
또한 본 발명의 목적은 사용자가 웹 검색엔진이 수집할 웹 문서의 내용을 정하게 하고 수집된 웹 문서의 내용을 사용자가 원하는 형태의 정보를 출력하게 함으로서 사용자 자신의 정보 욕구를 만족시키는 개인 맞춤형 포탈 사이트를 보다 쉽게 구축하게 하는데 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명은, 웹 검색엔진이 수행할 일들을 사전정의 하고 웹 검색엔진이 수집한 웹 문서내용을 저장하는 수집단계와, 웹 검색엔진이 수집한 자료를 사용자가 원하는 정보형태로 바꾸어 웹 서비스를 하는 정보처리단계와, 사용자가 웹 브라우저에서 출력되는 정보와 출력형태를 바꿀 수 있도록 하는 사용자 맞춤정보 설정단계로 구성한 것을 특징으로 한다.
도 1은 본 발명의 인터넷에서의 웹 문서 수집과 수집된 정보를 사용자 웹 브라우저에 구현하는 것을 나타내는 개념도이다.
도 2는 본 발명의 수집단계를 설명하기 위한 순서도이다.
도 3은 본 발명의 수집단계에서 웹 검색엔진의 수행하는 일을 조정하는 환경설정파일의 예를 나타내는 예시도이다.
도 4는 본 발명의 정보처리단계를 설명하는 순서도이다.
도 5는 본 발명의 정보처리단계에서의 출력양식 파일을 나타내는 예시도이다.
도 6은 사용자 정보맞춤 설정단계를 설명하는 순서도이다.
〈도면의 주요 부분에 대한 부호의 설명〉
10: 수집단계 12: 환경설정파일
14: 웹 검색엔진 16: 저장파일
20: 정보처리단계 22: 출력양식파일
24: HTML변환파일 30: 사용자 맞춤정보 설정단계
32: 사용자 웹 브라우저
이에 본 발명을 첨부된 도면을 참조로하여 구체적으로 설명하면 다음과 같다.
도 1은 본 발명의 인터넷에서의 웹 문서 수집과 수집된 정보를 사용자 웹 브라우저에 구현하는 것을 나타내는 개념도이다.
도 1에 도시한 바와 같이 본 발명의 구성은 웹 검색엔진(14)이 수행할 일들을 사전정의 하는 환경설정파일(12)과 웹 검색엔진이 수집한 웹 문서를 저장파일(16)에 저장하는 수집단계(10)와, 상기 수집단계(10)에서 저장된 웹 문서 내용을 정보로 추출하여 일정한 양식으로 출력되도록 하는 출력양식파일(22)과 출력양식파일(22)을 사용자 웹 브라우저(32)에 출력되도록 HTML 웹 문서로 변환처리(24)를 하는 정보처리단계(20)와, 사용자가 언제든지 사용자 웹 브라우저(32)에서 구현되는 정보를 변경하고 정보가 출력되는 양식을 변경하도록 하는 사용자 맞춤정보 설정단계(30)로 구성된다.
상기 수집단계를 도 2와 도 3을 참조하면서 상세히 설명한다
도 2는 본 발명의 수집단계를 설명하기 위한 순서도이다.
도 3은 본 발명의 수집단계에서 웹 검색엔진의 수행하는 일을 조정하는 환경설정파일의 예를 나타내는 예시도이다.
웹 검색엔진이 인터넷상에서 웹 문서의 내용 수집과 수집된 웹 문서의 내용 저장은 다음의 단계를 포함하여 이루어진다.
웹 검색엔진이 수행할 일들을 사전에 정의하기 위한 웹 검색엔진 환경설정파일에 입력 값 설정단계(10-a)와, 웹 검색엔진 환경설정파일 입력 값의 유효성의 여부를 판단하는 단계(10-b)와, 환경설정파일의 입력변수 값에 의해 웹 검색엔진이 웹 문서의 내용을 수집하는 단계(10-c)와, 웹 검색엔진이 수집한 웹 문서의 내용을 저장부에 저장할 수 있는 지를 판단하는 단계(10-d)와, 웹 검색엔진이 수집한 웹 문서의 내용을 환경설정파일의 입력 변수 값에 따라 저장하는 단계(10-e)로 구성된다.
상기 본 발명의 수집단계는 환경설정파일의 URL 입력변수(12-a)에 수집할 웹 문서의 URL을 입력하며, 환경설정파일의 수집조건식 입력변수(12-b)에 필요한 웹 문서내용만을 수집하는 수집조건식 값을 입력한다. 수집조건식은 수집할 웹 문서의 내용에 해당하는 HTML 태그(Tag)를 이용하여 수집조건식을 만든다.
그리고 웹 검색엔진이 수집할 웹 문서의 내용들을 분류하여 저장될 수 있도록 환경파일설정파일의 필드입력변수(12-d)에 수집할 웹 문서 내용의 분류항목 값을 입력한다.
웹 검색엔진이 수집할 웹 문서내용이 필드로 분류되어 저장하는 저장파일입력변수(12-c) 값에 저장될 파일명을 입력한다. 여기에서 저장될 파일명 대신에 DATABASE에 웹 문서의 내용이 저장할 수 있도록 DATABASE 연결문을 입력할 수 있다. 상기와 같이 환경설정파일에 입력된 변수 값이 유효한지를 판단하여 웹 검색엔진은 환경설정파일에 입력된 변수 값에 따라 웹 검색엔진이 수행된다. 웹 검색엔진이 수행할 일들을 추가하기 위하여 환경설정파일의 입력변수는 사용자가 정의하는데로 추가할 수 있다.
환경설정파일 작성의 예를 도 3을 참조하면서 상세히 설명한다.
웹 검색엔진이 수집할 웹 문서의 위치가 http://www.aaa.com/bbb.htm(12-a) 이며 bbb.htm이란 웹 문서에서 웹 검색엔진이 수집할 내용이 CCC이고 CCC에 해당하는 HTML 태그(Tag)가 <img src="ball.gif"> <a href="exam.htm">CCC</a>(12-b)이며 exam.htm과 CCC를 저장.xml 파일(12-c)의 AAA와 BBB필드 (12-d)에 저장한다고 하면 도 3에서 예시한 바와 같다.
도 3에서의 수집조건식(12-b) .*? 표시는 모든 String 값을 말하며 () 표시는 필드에 저장할 내용을 말한다. 여기에서의 .*? 표시나 () 표시는 사용자의 정의에 따라 달리 표현할 수 있다.
상기의 정보처리단계를 도 4와 도 5를 참조하면서 상세히 설명한다.
도 4는 본 발명의 정보처리단계를 설명하는 순서도이다.
도 5는 본 발명의 정보처리단계에서의 출력양식 파일을 나타내는 예시도이다.
웹 검색엔진이 웹 문서내용을 상기와 같이 수집하고 저장한 것을 사용자의 웹 브라우저에 정보로서 출력하는 단계는 다음과 같다.
상기 수집단계에서 저장한 웹 문서내용을 일정한 양식으로 사용자에게 출력 할 출력양식이 있는지를 판단하는 단계(20-a)와, 저장된 웹 문서내용에서 정보를 추출하여 사용자의 웹 브라우저에 일정한 양식으로 출력할 출력양식을 웹 서비스하기 위하여 HTML문서로 변환하는 단계(20-b)와, 상기 변환시킨 HTML문서(20-b)를 사용자 웹 브라우저(20-c)에 출력하는 단계로 구성된다.
웹 검색엔진은 수집단계에서 수집한 웹 문서 내용을 정보로 추출하여 일정한 양식으로 사용자 웹 브라우저에 출력시킬 출력양식파일이 있는지를 판단하여 출력양식파일 존재하면 웹 서버에게 사용자의 웹 브라우저에 정보를 출력시킬 수 있도록 HTML 문서로 변환한다. 상기 HTML 문서로 변환되어 출력된 정보는 사용자 웹 브라우저에 출력양식파일에서 지정한 형태로 정보를 출력하게 되는 것이다.
도 5를 참고하여 출력양식파일을 보다 상세히 설명한다.
웹 검색엔진이 필드별로 분류하여 저장한 웹 문서의 내용의 추출은 상기 수집단계의 환경설정파일에서 정의한 필드입력변수 값을 출력양식파일에 입력(22-a)하게 되면 웹 서버는 환경설정파일의 저장입력변수에서 지정된 저장파일에서 해당 필드입력변수(22-a)에 해당하는 정보가 추출된다.
여기 출력양식파일에는 사용자의 브라우저에 출력될 웹 문서의 모양이나 색상 등을 원하는 형식으로 출력되도록 웹 문서의 Style sheet등을 적용할 수 있다.
그리고 상기의 출력양식파일을 사용자 웹 브라우저에 서비스하기 위하여 웹 서버는 출력양식파일을 HTML문서로 변환한다.
도 6은 사용자 정보맞춤 설정단계를 설명하는 순서도이다.
상기의 사용자 정보맞춤 설정단계는 다음과 같다.
사용자 웹 브라우저에서 수집단계의 웹 설정환경파일의 입력변수의 추가나 입력변수 값의 변경이나 정보처리단계의 출력양식파일의 입력변수의 추가나 변경하는 단계(30-b)와 상기 입력변수의 값들의 유효성을 판단하는 단계(30-c)로 구성된다.
상기 수집단계와 정보처리단계를 거쳐 사용자의 웹 브라우저에 출력된 정보를 사용자의 웹 브라우저에서 사용자가 수집단계의 환경설정파일의 입력변수의 추가 및 입력변수 값을 변경하거나 정보처리단계의 출력양식파일의 입력변수의 추가 및 입력변수의 값을 변경을 하는 사용자 인터페이스(3-a)를 가지면 사용자는 언제든지 자신이 원하는 정보와 출력형태를 변경할 수 있는 것이다.
이상에서 설명한 바와 같이 웹 검색엔진이 인터넷상의 필요한 웹 문서의 내용만을 수집하게하고 저장하게 하여 사용자에게 원하는 정보만을 사용자 웹 브라우저에서 구현하게 함으로서, 여러 웹 사이트에 흩어진 정보들을 사용자가 원하는 정보와 형태로 사용자의 웹 브라우저에서 실시간으로 구현 할 수 있어 사용자는 인터넷 정보파악이 보다 쉽게 이룰 수 있으며, 인터넷 정보의 검색 시간을 줄이는 효과가 있다.
Claims (6)
- 웹 검색엔진에 있어서, 웹 검색엔진이 수행하는 일들을 정의하는 입력 변수의 값을 입력하는 환경설정 단계(10)와, 상기 환경설정 단계(10)의 입력 변수 값에 의해 필요한 웹 문서내용만을 수집하는 단계와, 상기 수집된 웹 문서내용을 상기 환경설정 단계의 입력된 변수 값에 의해 분류하여 저장하는 단계(16)로 이루어지는 웹 문서 수집과 정보 구현에 관한 방법.
- 청구항 1항에 있어서, 상기 환경설정 단계(10)의 입력변수(12-a, 12-b, 12-c, 12-d) 값을 인터넷상의 사용자의 웹 브라우저(32)에서 변경할 수 있는 단계를 가지는 웹 문서 수집과 정보 구현에 관한 방법.
- 청구항 1항에 있어서, 웹 검색엔진(14)이 수행하는 일들을 정의하는 입력변수(12-a, 12-b, 12-c, 12-d)를 인터넷상의 사용자의 웹 브라우저(32)에서 추가하고 추가한 입력변수의 값을 입력하는 단계를 가지는 웹 문서 수집과 정보 구현에 관한 방법.
- 웹 검색엔진에 있어서, 웹 검색엔진(14)이 저장한 웹 문서내용에서 원하는 정보와 출력형태를 정의하는 출력양식설정파일(22)에 입력변수(22-a) 값을 설정하는 단계와, 출력양식설정파일(22)의 입력 변수의 값에 의해 추출된 정보와 출력형태를 HTML 문서로 변환하는 단계로 이루어지는 웹 문서 수집과 정보 구현에 관한 방법.
- 청구항 4항에 있어서, 상기 출력양식설정파일(22)의 입력변수(22-a) 값을 인터넷상의 사용자 웹 브라우저(32)에서 변경하는 단계를 가지는 웹 문서 수집과 정보 구현 방법.
- 청구항 4항에 있어서, 상기 출력양식설정파일(22)의 입력변수(22-a)를 인터넷상의 사용자 웹 브라우저(32)에서 추가하며 값을 입력할 수 있는 단계를 가지는 웹 문서 수집과 정보 구현 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000021994A KR20010097705A (ko) | 2000-04-25 | 2000-04-25 | 웹 문서 수집과 정보 구현 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000021994A KR20010097705A (ko) | 2000-04-25 | 2000-04-25 | 웹 문서 수집과 정보 구현 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20010097705A true KR20010097705A (ko) | 2001-11-08 |
Family
ID=19666857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020000021994A KR20010097705A (ko) | 2000-04-25 | 2000-04-25 | 웹 문서 수집과 정보 구현 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20010097705A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000054312A (ko) * | 2000-06-01 | 2000-09-05 | 최우석 | 맞춤 웹정보 구축 제공 방법 |
KR20020004060A (ko) * | 2000-06-30 | 2002-01-16 | 문병무 | 데이터 베이스 관리방법 및 그에 따른 시스템 |
KR20020030057A (ko) * | 2002-03-20 | 2002-04-22 | 조근식 | 이동 서비스 에이전트를 이용한 무선 인터넷 전자상거래지원시스템 및 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR930008659A (ko) * | 1991-10-07 | 1993-05-21 | 가나이 쯔도무 | 적합율 또는 일치율을 제공하는 데이타 검색 방법 및 장치 |
JPH10260978A (ja) * | 1997-03-18 | 1998-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 情報収集方法及び装置 |
JPH10269237A (ja) * | 1997-03-27 | 1998-10-09 | Hitachi Ltd | 文書閲覧システム |
US5960422A (en) * | 1997-11-26 | 1999-09-28 | International Business Machines Corporation | System and method for optimized source selection in an information retrieval system |
KR20000050225A (ko) * | 2000-05-29 | 2000-08-05 | 전상훈 | 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법 |
-
2000
- 2000-04-25 KR KR1020000021994A patent/KR20010097705A/ko not_active Application Discontinuation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR930008659A (ko) * | 1991-10-07 | 1993-05-21 | 가나이 쯔도무 | 적합율 또는 일치율을 제공하는 데이타 검색 방법 및 장치 |
JPH10260978A (ja) * | 1997-03-18 | 1998-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 情報収集方法及び装置 |
JPH10269237A (ja) * | 1997-03-27 | 1998-10-09 | Hitachi Ltd | 文書閲覧システム |
US5960422A (en) * | 1997-11-26 | 1999-09-28 | International Business Machines Corporation | System and method for optimized source selection in an information retrieval system |
KR20000050225A (ko) * | 2000-05-29 | 2000-08-05 | 전상훈 | 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000054312A (ko) * | 2000-06-01 | 2000-09-05 | 최우석 | 맞춤 웹정보 구축 제공 방법 |
KR20020004060A (ko) * | 2000-06-30 | 2002-01-16 | 문병무 | 데이터 베이스 관리방법 및 그에 따른 시스템 |
KR20020030057A (ko) * | 2002-03-20 | 2002-04-22 | 조근식 | 이동 서비스 에이전트를 이용한 무선 인터넷 전자상거래지원시스템 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101470728B (zh) | 一种中文新闻网页正文的自动抽取方法及装置 | |
CA2242158C (en) | Method and apparatus for searching and displaying structured document | |
CN101361063B (zh) | 支持基于规则的文档内容挖掘的***与方法 | |
US20090019015A1 (en) | Mathematical expression structured language object search system and search method | |
US20020013792A1 (en) | Virtual tags and the process of virtual tagging | |
CN100461173C (zh) | 电子归档***和电子归档方法 | |
US20030018611A1 (en) | Document information management system | |
CN109614504A (zh) | 一种互联网电子书的管理***及方法 | |
US20090094327A1 (en) | Method and apparatus for mapping a site on a wide area network | |
US20080306941A1 (en) | System for automatically extracting by-line information | |
CN101149732A (zh) | 由计算机使用的从自然语言文本开发本体的方法 | |
CN103810251A (zh) | 一种文本提取方法及装置 | |
KR20190131778A (ko) | 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템 | |
KR20010106666A (ko) | 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체 | |
JP4768882B2 (ja) | 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体 | |
JP3832693B2 (ja) | 構造化文書検索表示方法及び装置 | |
WO2000077681A1 (en) | Method for displaying search result data from internet search engines in three dimensional form | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
CN102457569B (zh) | 一种面向物联网应用的Web服务的冗余检测方法及*** | |
KR20010097705A (ko) | 웹 문서 수집과 정보 구현 방법 | |
Kucuk et al. | Application of metadata concepts to discovery of internet resources | |
CN100357942C (zh) | 一种移动互联网智能信息搜索引擎的搜索方法 | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
CN100403310C (zh) | 在文档中查找搜索串并在移动通信设备上查看的方法 | |
KR102280028B1 (ko) | 빅데이터와 인공지능을 이용한 챗봇 기반 콘텐츠 관리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |