KR100870144B1 - Web history archive system and method for web pages management - Google Patents

Web history archive system and method for web pages management Download PDF

Info

Publication number
KR100870144B1
KR100870144B1 KR20060136316A KR20060136316A KR100870144B1 KR 100870144 B1 KR100870144 B1 KR 100870144B1 KR 20060136316 A KR20060136316 A KR 20060136316A KR 20060136316 A KR20060136316 A KR 20060136316A KR 100870144 B1 KR100870144 B1 KR 100870144B1
Authority
KR
South Korea
Prior art keywords
page
web
history
vas
nit
Prior art date
Application number
KR20060136316A
Other languages
Korean (ko)
Other versions
KR20080061501A (en
Inventor
최의인
장창복
조성훈
이무훈
Original Assignee
학교법인 대전기독학원
최의인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 대전기독학원, 최의인 filed Critical 학교법인 대전기독학원
Priority to KR20060136316A priority Critical patent/KR100870144B1/en
Publication of KR20080061501A publication Critical patent/KR20080061501A/en
Application granted granted Critical
Publication of KR100870144B1 publication Critical patent/KR100870144B1/en

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명은 Stanford WebBase Project에 기반을 두고, 시스템의 레포지토리(Repository)에서 삭제되어지는 웹 페이지들을 수집하여 버전을 통해 저장할 수 있는 VAS(Version Control System)와 VCS(Version Assignment System)를 포함하고 있는 웹 아카이브(Web Archive) 시스템에 관한 것이다.The present invention is based on the Stanford WebBase Project, and includes a Web that includes a Version Control System (VAS) and a Version Assignment System (VCS) that can collect and store web pages that are deleted from the system's repository. It's about the Web Archive system.

본 발명에 따르면 기존의 웹 아카이브 시스템보다 히스토리 페이지를 체계적이고 효율적으로 저장/관리 할 수 있고, 저장된 히스토리 페이지들 간에 버전 관리를 수행함으로써 연관관계를 생성할 수 있으며, RCS를 적용하여 페이지 버전의 변화값만을 저장함으로써 저장공간의 낭비를 줄이고 보다 효율적으로 History Storage를 운영할 수 있고, 나아가 무작위로 삭제되어지는 웹 정보를 지속적으로 공유할 수 있다.According to the present invention, the history page can be stored and managed more systematically and efficiently than the existing web archive system, and the correlation can be generated by version management between the stored history pages, and the page version is changed by applying RCS. By storing only the values, you can reduce the waste of storage space, operate the history storage more efficiently, and continue to share randomly deleted web information.

웹 검색 엔진, 웹 아카이브 시스템, RCS, WebBase, 웹 페이지 Web Search Engine, Web Archive System, RCS, WebBase, Web Pages

Description

웹 페이지 관리를 위한 웹 아카이브 시스템 및 방법{WEB HISTORY ARCHIVE SYSTEM AND METHOD FOR WEB PAGES MANAGEMENT} Web archive system and method for web page management {WEB HISTORY ARCHIVE SYSTEM AND METHOD FOR WEB PAGES MANAGEMENT}

도 1은 본 발명이 웹 검색 엔진과 연동되어 웹 히스토리 페이지가 처리되는 개략적인 구성도.1 is a schematic configuration diagram in which the present invention is linked to a web search engine to process a web history page.

도 2은 웹 히스토리 페이지를 저장하는 처리 절차와 세부 모듈.2 is a processing procedure and details module for storing web history pages.

도 2a는 NIT의 구조.2A shows the structure of the NIT.

도 3은 본 발명에 따른 웹 페이지를 저장하는 과정을 나타낸 흐름도.3 is a flowchart illustrating a process of storing a web page according to the present invention.

도 4는 Check-out/in 과정을 수행하는 단계를 나타낸 흐름도.4 is a flowchart illustrating a step of performing a check-out / in process.

도 5는 RCS를 이용하여 히스토리 페이지들을 처리하는 과정.5 is a process of processing history pages using RCS.

** 도면의 주요 부분에 대한 부호의 설명 **** Description of symbols for the main parts of the drawing **

10...웹 페이지 20...Crawler10 ... Web Page 20 ... Crawler

30...Storage Manager 40...Storage30 ... Storage Manager 40 ... Storage

100...웹 아카이브 시스템100 ... Web Archive System

110...VCS 120...VAS110 ... VCS 120 ... VAS

121...RCS 130...History Storage121 ... RCS 130 ... History Storage

131...NIT131 ... NIT

본 발명은 웹 검색 엔진인 WebBase를 통해 갱신되어 삭제되기 이전의 모든 정보들을 수집하고 이를 히스토리 저장소 내에 체계적으로 저장함으로써, 삭제되어지는 중요한 웹 정보 효율적으로 공유할 수 있는 웹 히스토리 아카이브 시스템에 관한 것이다.The present invention relates to a web history archiving system that can efficiently share important web information that is deleted by collecting all information before it is updated and deleted through WebBase, a web search engine, and systematically storing it in the history repository.

웹은 인터넷이라는 하부구조를 기반으로 급속한 성장을 이루어왔으며, 규모나 사용자의 의존도 측면에서 실생활에서 없어서는 안 될 중요한 정보원으로 자리 잡았다. 따라서 웹 정보에 대한 효율적인 관리의 필요성이 대두되었고, 이를 위해 다양한 연구 활동이 시작되었다. 특히, 효율적이고 정확한 웹 정보를 제공하기 위한 많은 노력을 기울여 왔으나, 중요한 웹 정보의 보존에 대한 연구는 미비한 상태이다. 뿐만 아니라 기존에 중요한 정보원으로 활용되었던 웹 페이지들이 그 중요도와 상관없이 소멸되어져가고 있는 실정이다. 따라서 이렇게 소멸되어져가는 중요한 정보들을 수집/보존하기 위해서는 효율적인 저장 기법에 대한 연구와 이를 토대로 하는 웹 아카이브 시스템에 대한 필요성이 대두된다.The web has grown rapidly based on the infrastructure of the Internet, and has become an indispensable source of information in real life in terms of scale and user dependence. Therefore, the necessity of efficient management of web information has emerged, and various research activities have begun for this purpose. In particular, many efforts have been made to provide efficient and accurate web information, but research on preservation of important web information is insufficient. In addition, web pages that were previously used as important information sources are disappearing regardless of their importance. Therefore, in order to collect / preserve important information which is disappearing, research on efficient storage technique and necessity of web archiving system based on it emerge.

기존에 연구되었던 웹 아카이브 시스템은 저장 공간의 효율성 및 제약성을 전혀 고려하지 않고 단순히 소멸되는 웹 정보를 저장하는 것에만 초점을 두고 있다. 또한 웹 정보를 수집함에 있어 여러 개의 Crawler를 두기 때문에 대역폭의 낭비나 중복된 페이지의 수집과 같은 문제점이 발생한다. The previously studied web archive system focuses on storing web information that is simply destroyed without considering the efficiency and limitation of storage space. In addition, since there are several crawlers in collecting web information, there are problems such as waste of bandwidth and collection of duplicate pages.

또한 웹 아카이브 시스템 중의 하나인 WayBack Machine은 비영리 집단인 Internet Archive와 Alexa Internet이 공동으로 개발한 시스템으로서 웹 정보를 디지털 도서관의 형태로 보존하려는 최초의 시도이다. 상기 시스템의 연구가 시작된 1996년 이후에 지금까지 300억만개 이상의 웹 페이지들이 수집되어 있으며, 각 웹 페이지들은 다양한 버전으로 저장/관리되어 웹을 통해 공유하고 있다.WayBack Machine, one of the web archive systems, was developed by the nonprofit Internet Archive and Alexa Internet. It is the first attempt to preserve web information in the form of a digital library. Since 1996, when the research of the system began, more than 30 billion web pages have been collected so far, and each web page is stored and managed in various versions and shared through the web.

하지만, WayBack Machine의 경우 다양한 웹 정보를 수집하기 위해 별도의 Crawler를 구성하고 있으며 웹 정보를 보존하는 저장소의 효율성은 전혀 고려하지 않고 있다.However, in case of WayBack Machine, a separate Crawler is composed to collect various web information, and the efficiency of the repository for storing web information is not considered at all.

현재 웹상에 존재하는 수많은 웹 페이지에 대한 획득과 관리는 비교적 효율적으로 이루어지고 있지만, 이러한 정보들이 최신의 것으로 갱신되는 경우, 그 이전의 정보에 대해서는 관리가 미비한 실정이다. 즉, 웹상의 모든 페이지는 페이지가 저장되어 있는 서버의 관리자들에 의해 지속적으로 갱신 및 삭제되기 때문에 웹 페이지의 중요성 여부와 관계없이 대다수의 정보가 소멸되는 문제점을 가지고 있다.Acquisition and management of a large number of web pages existing on the web is relatively efficient. However, when such information is updated to the latest, the management of the previous information is insufficient. That is, since all pages on the web are constantly updated and deleted by the administrators of the server where the pages are stored, the majority of information is destroyed regardless of the importance of the web pages.

본 발명은 이러한 기존 웹 아카이브 시스템의 문제점을 해결하기 위해 Stanford WebBase 기반으로 웹 페이지를 수집함으로써 Crawling을 위한 오버헤드를 줄일 수 있고, RCS를 활용하여 저장 공간 및 검색의 효율성을 극대화할 수 있는 웹 히스토리 저장 시스템의 제공을 그 목적으로 한다.The present invention can reduce the overhead for Crawling by collecting web pages based on Stanford WebBase to solve the problems of the existing web archive system, Web history that can maximize storage space and search efficiency by utilizing RCS The aim is to provide a storage system.

또한 웹 상의 모든 페이지는 페이지가 저장되어 있는 서버의 관리자들에 의해 지속적으로 갱신 및 삭제되기 때문에 웹 페이지의 중요성 여부와 관계없이 대다수의 정보가 소멸되어 간다는 단점을 해결하기 위해 웹 검색 엔진인 WebBase를 통해 갱신되어 삭제되기 이전의 모든 정보들을 수집하고 이를 히스토리 저장소 내에 체계적으로 저장함으로써 삭제되어지는 중요한 웹 페이지를 효율적으로 공유하는데 그 목적이 있다.In addition, since all pages on the web are continuously updated and deleted by the administrator of the server where the page is stored, the web search engine, WebBase, is used to solve the disadvantage that most information is destroyed regardless of the importance of the web page. Its purpose is to efficiently share important web pages that are deleted by collecting all information before it is updated and deleted and systematically storing it in the history repository.

본 발명은 Stanford WebBase Project에 기반을 두고 시스템의 레포지토리(Repository)에서 삭제되어지는 웹 페이지들을 수집하여 버전을 통해 저장할 수 있는 VAS(Version Control System)와 VCS(Version Assignment System)를 포함하고 있는 웹 아카이브(Web Archive) 시스템에 관한 것이다.The present invention is based on the Stanford WebBase Project, a web archive including a Version Control System (VAS) and a Version Assignment System (VAS) that can collect and store web pages that are deleted from the system's repository and stored in versions. (Web Archive) It's about the system.

따라서 본 발명은 웹 검색 엔진인 WebBase를 통해 갱신되어 삭제되기 이전의 모든 정보들을 수집하고 이를 히스토리 저장소 내에 체계적으로 저장함으로써 삭제되어지는 중요한 웹 페이지를 효율적으로 공유할 수 있다.Therefore, the present invention can efficiently share important web pages that are deleted by collecting all information before being updated and deleted through WebBase, a web search engine, and systematically storing it in the history repository.

본 발명에서 이용하는 WebBase는 Stanford 대학에서 개발 중인 웹 검색 엔진 프로젝트로써 효율적인 웹 페이지의 수집, 관리, 인덱스 구성, 검색에 대한 연구이다. WebBase used in the present invention is a web search engine project being developed by Stanford University and is a study on efficient web page collection, management, index construction, and search.

상기 WebBase의 초기 버전은 Google 검색 엔진의 Crawler, Repository 및 전반적인 부분에서 사용되었다. WebBase는 Crawler, Storage Manager, Metadata & Indexing, Multicast, Query Engine의 5 가지 모듈로 구성되어져 있다.Early versions of WebBase were used in the Crawler, Repository, and overall parts of the Google search engine. WebBase consists of five modules: Crawler, Storage Manager, Metadata & Indexing, Multicast, and Query Engine.

상기 Crawler 모듈은 웹으로부터 페이지들을 수집하여 Storage Manager 모듈 전송한다. 전송된 페이지들은 WebBase의 레포지토리(repository)에 저장된다.The Crawler module collects pages from the web and sends the Storage Manager module. The transferred pages are stored in WebBase's repository.

상기 Metadata & Indexing 모듈은 저장된 페이지와 메타데이터에 대한 인덱싱을 수행하고, Query Engine과 Multicast 모듈은 레포지토리에 저장된 contents의 접근을 제공한다. The Metadata & Indexing module indexes the stored pages and metadata, and the Query Engine and the Multicast module provide access to the contents stored in the repository.

RCS(Revision Control System)는 텍스트, 일반 문서, 소스코드, 테스트 데이터 등 각종 파일의 버전을 관리하는 시스템이다. 즉, RCS는 다양한 파일의 리비전(revision)을 저장하고, 저장된 임의의 버전을 선택적으로 판독하는 기능을 제공한다. 그리고 전체 파일의 버전을 버전 트리(version tree)의 형태로 구성하고 각각 파일의 버전을 하나의 노드로써 구성함으로써 검색의 효율성을 향상시킬 수 있다. 또한 각 버전들 사이의 변화값을 저장함으로써 저장 공간의 낭비를 막을 수 있고, 가장 최신의 파일은 원본 그대로 유지하여 최근 파일의 접근시간을 최소화 할 수 있다. Revision Control System (RCS) is a system that manages versions of various files such as text, general documents, source code, and test data. That is, the RCS provides the ability to store revisions of various files and to selectively read any version stored. In addition, the efficiency of the search can be improved by configuring the version of the entire file in the form of a version tree and configuring the version of each file as a node. In addition, by saving changes between versions, you can avoid wasting storage space and keep the most recent file intact, minimizing the access time of recent files.

이하 첨부된 도면에 의해 본 발명을 설명한다.Hereinafter, the present invention will be described with reference to the accompanying drawings.

도 1은 본 발명이 웹 검색 엔진과 연동되어 웹 히스토리 페이지가 처리되는 개략적인 구성도를 나타낸 것으로, 본 발명의 따른 웹 아카이브 시스템의 세부적인 구성은 도 2에 나타내었다.FIG. 1 is a schematic block diagram of a web history page in which the present invention is linked to a web search engine. The detailed configuration of the web archive system according to the present invention is shown in FIG.

본 발명의 히스토리 페이지 처리 절차는 웹 페이지(10, World Wide Web)를 Crawler(20)에 의해 페이지를 수집하고, 상기 수집된 페이지를 Storage Manager(30)에 의해 페이지의 갱신이 일어나게 되면 Storage Manager(30)가 Storage(40)내부의 페이지들에 대한 압축과정을 수행하게 된다. The history page processing procedure of the present invention collects a page by a crawler 20 of a web page (10, World Wide Web), and updates the collected page by a storage manager (30). 30 performs compression on the pages in the storage 40.

상기 압축과정이 진행되면서 삭제되어지는 페이지는 Storage Manager(30)를 통해 웹 아카이브 시스템(100)으로 전송된다.The page deleted while the compression process is performed is transmitted to the web archive system 100 through the storage manager 30.

상기에서 웹 아카이브 시스템(100)은 본 발명이 이루고자 하는 부분이다.In the above, the web archive system 100 is part of the present invention.

이에 웹 아카이브 시스템(100)에 대해서 상세히 설명한다.The web archive system 100 will be described in detail.

도 2은 웹 히스토리 페이지를 저장하는 처리 절차와 세부 모듈을 나타낸 것으로 그 구성은,2 is a flowchart illustrating a processing procedure and a detailed module for storing a web history page.

WebBase의 Crawler(20)에 의해 수집된 웹 페이지(10)를 저장/갱신/관리하는 하는 Storage Manager(30);A storage manager 30 that stores / updates / manages the web page 10 collected by the crawler 20 of WebBase;

상기 Storage Manager(30)로부터 저장/관리되는 웹 페이지(10)를 물리적으로 저장하는 Storage(40);Storage (40) for physically storing the web page (10) stored / managed from the Storage Manager (30);

상기 Storage Manager(30)로부터 갱신되어 삭제되어지는 페이지를 전달받아 삽입된 페이지에 대한 카탈로그 정보를 추출하고, 타임스탬프를 기준으로 페이지를 정렬하는 VCS 모듈(110);A VCS module (110) receiving the page updated and deleted from the Storage Manager (30), extracting catalog information on the inserted page, and sorting the page based on a time stamp;

상기 VCS 모듈(110)에 의해 전달되는 웹 페이지(10)를 각 노드의 NIT(Node Information Table)와 비교하여 저장될 위치를 계산하고 갱신 유무를 판별하여 버전을 할당하는 다수개의 VAS 모듈(120);A plurality of VAS modules 120 for comparing a web page 10 delivered by the VCS module 110 with a node information table (NIT) of each node, calculating a location to be stored, determining whether there is an update, and allocating a version. ;

상기 VAS 모듈(120)내에 히스토리 페이지를 효과적으로 압축하고 저장하기 위한 모듈 RCS(121);A module RCS 121 for effectively compressing and storing history pages in the VAS module 120;

상기 VCS(110)와 VAS(120)에 의해 버전 할당 및 변화값을 계산한 웹 히스토리 페이지를 물리적으로 저장하고 있는 History Storage(130);A history storage 130 physically storing a web history page for calculating version assignments and changes by the VCS 110 and the VAS 120;

상기 각각의 History Storage(130)에 VAS 모듈(120)에 의해 저장된 웹 페이지의 히스토리 정보를 유지하여 갱신 및 버전할당을 위해 필요한 정보를 저장하고 있는 NIT(131);A NIT 131 which stores history information of a web page stored by the VAS module 120 in each history storage 130 and stores information necessary for updating and version allocation;

로 이루어진다.Is made of.

수많은 웹 페이지를 저장해야 하는 웹 아카이브 시스템에서 VAS(120)에 있는 RCS(121)는 히스토리 페이지를 효과적으로 압축하고 저장하기 위한 모듈로써, 페이지에 대해 버전 작업을 처리하는 부분이다.In a web archiving system that needs to store a large number of web pages, the RCS 121 of the VAS 120 is a module for effectively compressing and storing history pages, and is a part that processes versioning on the pages.

즉 상기의 VAS(120)는 History Storage(140) 내에 각 페이지별 리비전 그룹을 생성하고, 생성된 리비전 그룹을 Check-in/out 연산을 통하여 History Storage(130) 내부의 각 노드에 저장하는 역할을 수행한다.That is, the VAS 120 creates a revision group for each page in the history storage 140 and stores the generated revision group in each node in the history storage 130 through check-in / out operations. Perform.

또한 RCS(121)는 버전 수행 과정에서 현재 페이지와 이전 페이지의 변화 값만을 저장함으로써 대용량의 웹 페이지를 저장하는데 있어서 저장 공간을 효율적으로 운용할 수 있다.In addition, the RCS 121 can efficiently manage the storage space in storing a large web page by storing only the change values of the current page and the previous page during the versioning process.

도 2a는 NIT의 구조를 나타낸 것으로, NIT(Node Information Table)에는 페이지 아이디(ID)와 경로(Path), 타임스탬프(T.S, TimeStamp), 버전(Version)의 정보가 포함된다.FIG. 2A illustrates the structure of the NIT. The NIT (Node Information Table) includes information about a page ID, a path, a time stamp (T.S, TimeStamp), and a version.

상기의 과정을 흐름도로 설명한다.The above process is explained in a flowchart.

도 3은 본 발명에 따른 웹 페이지를 저장하는 과정을 나타낸 흐름도이다.3 is a flowchart illustrating a process of storing a web page according to the present invention.

Storage Manager(30)에서 삭제되는 페이지를 VCS(110)로 전송하는 단계(S_10);Transmitting a page deleted from the storage manager 30 to the VCS 110 (S_10);

상기 삭제되어 전송된 페이지에 대한 로그(Log)의 정보를 추출하는 단계(S_20);Extracting log information on the deleted and transmitted page (S_20);

상기 로그에서 타임스탬프를 기준으로 페이지를 정렬하는 단계(S_30);Sorting pages based on a time stamp in the log (S_30);

상기 정렬된 페이지를 해당하는 노드의 VAS(120)로 전송하는 단계(S_40);Transmitting the sorted page to the VAS 120 of the corresponding node (S_40);

상기 VAS(120)에서 상기 전송된 페이지와 History Storage(130)의 NIT(131)의 Page ID를 비교하는 단계(S_50);Comparing the transmitted page with the page ID of the NIT 131 of the history storage 130 by the VAS 120 (S_50);

상기 NIT에 Page ID가 존재여부에 따라 Check-out/in 과정을 수행하는 단계(S_60);Performing a check-out / in process depending on whether a page ID exists in the NIT (S_60);

상기 NIT(130)를 변경된 정보로 갱신하는 단계(S_70)로 이루어진다.The NIT 130 is updated with the changed information (S_70).

상기에서 Check-out/in 과정을 수행하는 단계는 도 4에 도시하였다.The step of performing the check-out / in process is shown in FIG.

도 4는 Check-out/in 과정을 수행하는 단계를 나타낸 흐름도이다.4 is a flowchart illustrating a step of performing a check-out / in process.

상기 NIT에 Page ID가 존재하지 않을 경우 페이지에 대한 새로운 리비전 그룹을 생성하는 단계(S_61);Generating a new revision group for a page when there is no Page ID in the NIT (S_61);

상기 NIT에 Page ID가 존재하는 경우 상기 웹 페이지에 대해서 Check-out을 수행하는 단계(S_62);Performing a check-out on the web page when the page ID exists in the NIT (S_62);

상기 Check-out 페이지에 대하여 정보 갱신을 수행하는 단계(S_63);Performing information update on the check-out page (S_63);

상기 리버전 그룹으로 생성된 페이지와 정보가 갱신된 페이지를 Check-in을 수행하는 단계(S_64);Performing a check-in on a page generated by the revision group and a page on which information is updated (S_64);

로 이루어진다.Is made of.

상기의 과정을 도면으로 나타내면 다음과 같다.The above process is shown in the drawings.

도 5는 RCS를 이용하여 히스토리 페이지들을 처리하는 과정을 나타낸 것이다. 먼저 VCS를 거쳐 VAS로 삽입된 데이터는 NIT 내에 페이지가 존재하는 지를 검색하게 된다. 페이지가 존재할 경우 PageN.htm,v를 Check-out 한 후 갱신한 다음, 리비전 그룹으로 Check-in하는 과정을 거쳐 갱신된다.5 shows a process of processing history pages using RCS. First, the data inserted into the VAS through the VCS searches whether a page exists in the NIT. If the page exists, it is updated by checking out PageN.htm, v and updating it, and then checking in to the revision group.

상기에서 History Storage 내부에서 PageN.htm은 PageN.htm,v라는 리비전 그룹의 형태로 저장되어지며, 이때 이전 페이지와 현재 저장되어지는 페이지의 변화값을 계산하여 저장한다. In the above-mentioned history storage, PageN.htm is stored in the form of a revision group called PageN.htm, v. In this case, the change value of the previous page and the currently stored page is calculated and stored.

본 발명의 히스토리 페이지 처리 절차는 우선 Crawler에 의해 페이지를 수집하고, Storage Manager에 의해 페이지의 갱신이 일어나게 되면 Storage Manager가 Storage 내부의 페이지들에 대한 압축과정을 수행하게 된다.In the history page processing procedure of the present invention, a page is first collected by a crawler, and when a page is updated by a storage manager, the storage manager performs a compression process on the pages in the storage.

상기 압축과정이 진행되면서 삭제되어지는 페이지는 Storage Manager를 통해 웹 아카이브 시스템의 VCS로 전송된다. VCS는 가장 오래된 데이터의 우선적 처리를 위하여 타임스탬프를 기준으로 데이터의 정렬을 수행한다. As the compression process proceeds, the deleted pages are transferred to the VCS of the web archive system through the storage manager. The VCS sorts the data based on a timestamp to prioritize the oldest data.

상기에서 상기 웹 아카이브 시스템의 VCS 모듈은 페이지의 로그에 있는 Page ID를 기준으로 각각의 노드에 연결된 VAS로 페이지를 할당한다. 할당된 페이지는 노드의 NIT와 비교하여 테이블 내에 동일 페이지 아이디 존재 여부를 판별한 후 처리한다. In the above, the VCS module of the web archive system allocates a page to a VAS connected to each node based on the Page ID in the log of the page. The allocated page is compared with the NIT of the node to determine whether the same page ID exists in the table, and then processed.

만일 NIT에 페이지 아이디가 존재할 경우 테이블의 경로 정보를 이용하여 노드 내 리비전 그룹을 Check-out 한 후, Check-out 한 페이지에 대하여 갱신을 수행한다.If the page ID exists in NIT, check out the revision group in the node by using the path information of the table, and then update the checked-out page.

갱신된 페이지는 리비전 그룹으로 Check-in을 수행한다. 만일 NIT에 페이지 아이디가 존재하지 않을 경우 페이지에 대한 새로운 리비전 그룹을 생성한다. The updated page checks in to the revision group. If no page ID exists in the NIT, a new revision group is created for the page.

마지막으로 노드 내 존재하는 NIT의 페이지 아이디, 타임스탬프, 버전에 대한 정보의 갱신을 수행함으로써 히스토리 페이지에 대한 버전을 완료한다.Finally, the version of the history page is completed by updating the information about the page ID, time stamp, and version of the NIT existing in the node.

본 발명에 따르면 웹 검색 엔진과 연동하여 사용할 수 있는 웹 아카이브 시스템으로 Storage Manager에서 삭제된 히스토리 페이지를 체계적이고 효율적으로 저장 할 수 있다. According to the present invention, a web archive system that can be used in conjunction with a web search engine can systematically and efficiently store a history page deleted from a storage manager.

따라서 기존의 웹 아카이브 시스템보다 히스토리 페이지를 체계적이고 효율적으로 저장/관리 할 수 있고, 저장된 히스토리 페이지들 간에 버전 관리를 수행함으로써 연관관계를 생성할 수 있다.Therefore, history pages can be stored and managed more systematically and efficiently than existing web archive systems, and correlations can be created by versioning the stored history pages.

또한 RCS를 적용하여 이전 버전 페이지와의 변화값만을 저장함으로써 저장공간의 낭비를 줄이고, 보다 효율적으로 History Storage를 운영할 수 있고, 나아가 무작위로 삭제되어지는 웹 정보를 지속적으로 공유할 수 있다.In addition, by applying the RCS to save only the change value with the previous version page, it is possible to reduce the waste of storage space, to operate the history storage more efficiently, and to continuously share randomly deleted web information.

Claims (2)

웹 아카이브 시스템에 있어서,In the web archive system, WebBase의 Crawler(20)에 의해 수집된 웹 페이지(10)를 저장/갱신/관리하는 하는 Storage Manager(30);A storage manager 30 that stores / updates / manages the web page 10 collected by the crawler 20 of WebBase; 상기 Storage Manager(30)로부터 저장/관리되는 웹 페이지(10)를 물리적으로 저장하는 Storage(40);Storage (40) for physically storing the web page (10) stored / managed from the Storage Manager (30); 상기 Storage Manager(30)로부터 갱신되어 삭제되어지는 페이지를 전달받아 삽입된 페이지에 대한 카탈로그 정보를 추출하고, 타임스탬프를 기준으로 페이지를 정렬하는 VCS 모듈(110);A VCS module (110) receiving the page updated and deleted from the Storage Manager (30), extracting catalog information on the inserted page, and sorting the page based on a time stamp; 상기 VCS 모듈(110)에 의해 전달되는 웹 페이지(10)를 각 노드의 NIT(Node Information Table)와 비교하여 저장될 위치를 계산하고 갱신 유무를 판별하여 버전을 할당하는 다수개의 VAS 모듈(120);A plurality of VAS modules 120 for comparing a web page 10 delivered by the VCS module 110 with a node information table (NIT) of each node, calculating a location to be stored, determining whether there is an update, and allocating a version. ; 상기 VAS 모듈(120)내에 히스토리 페이지를 효과적으로 압축하고 저장하기 위한 모듈 RCS(121);A module RCS 121 for effectively compressing and storing history pages in the VAS module 120; 상기 VCS(110)와 VAS(120)에 의해 버전 할당 및 변화값을 계산한 웹 히스토리 페이지를 물리적으로 저장하고 있는 History Storage(130);A history storage 130 physically storing a web history page for calculating version assignments and changes by the VCS 110 and the VAS 120; 상기 각각의 History Storage(130)에 VAS 모듈(120)에 의해 저장된 웹 페이지의 히스토리 정보를 유지하여 갱신 및 버전할당을 위해 필요한 정보를 저장하고 있는 NIT(131);A NIT 131 which stores history information of a web page stored by the VAS module 120 in each history storage 130 and stores information necessary for updating and version allocation; 로 구성됨을 특징으로 하는 웹 아카이브 시스템Web archiving system, characterized by 웹 히스토리를 저장하는 방법에 있어서,In the method of storing web history, Storage Manager(30)에서 삭제되는 페이지를 VCS(110)로 전송하는 단계(S_10);Transmitting a page deleted from the storage manager 30 to the VCS 110 (S_10); 상기 삭제되어 전송된 페이지에 대한 로그(Log)의 정보를 추출하는 단계(S_20);Extracting log information on the deleted and transmitted page (S_20); 상기 로그에서 타임스탬프를 기준으로 페이지를 정렬하는 단계(S_30);Sorting pages based on a time stamp in the log (S_30); 상기 정렬된 페이지를 해당하는 노드의 VAS(120)로 전송하는 단계(S_40);Transmitting the sorted page to the VAS 120 of the corresponding node (S_40); 상기 VAS(120)에서 상기 전송된 페이지와 History Storage(130)의 NIT(131)의 Page ID를 비교하는 단계(S_50);Comparing the transmitted page with the page ID of the NIT 131 of the history storage 130 by the VAS 120 (S_50); 상기 NIT에 Page ID가 존재하지 않을 경우 페이지에 대한 새로운 리비전 그룹을 생성하고 Check-in을 수행하는 단계(S_61);Generating a new revision group for a page and performing a check-in when a page ID does not exist in the NIT (S_61); 상기 NIT에 Page ID가 존재하는 경우 상기 웹 페이지에 대해서 Check-out을 수행하는 단계(S_62);Performing a check-out on the web page when the page ID exists in the NIT (S_62); 상기 Check-out 페이지에 대하여 갱신을 수행하는 단계(S_63);Performing an update on the check-out page (S_63); 상기 갱신된 페이지를 Check-in을 수행하는 단계(S_64);Performing a check-in on the updated page (S_64); 상기 NIT(130)를 변경된 정보로 갱신하는 단계(S_70);Updating the NIT 130 with changed information (S_70); 로 이루어짐을 특징으로 하는 웹 히스토리를 저장하는 방법. How to save the web history, characterized in that consisting of.
KR20060136316A 2006-12-28 2006-12-28 Web history archive system and method for web pages management KR100870144B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20060136316A KR100870144B1 (en) 2006-12-28 2006-12-28 Web history archive system and method for web pages management

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20060136316A KR100870144B1 (en) 2006-12-28 2006-12-28 Web history archive system and method for web pages management

Publications (2)

Publication Number Publication Date
KR20080061501A KR20080061501A (en) 2008-07-03
KR100870144B1 true KR100870144B1 (en) 2008-11-24

Family

ID=39813746

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20060136316A KR100870144B1 (en) 2006-12-28 2006-12-28 Web history archive system and method for web pages management

Country Status (1)

Country Link
KR (1) KR100870144B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101426482B1 (en) * 2012-11-29 2014-08-26 대한민국(국가기록원) System of preserving twitter records
US11126673B2 (en) * 2019-01-29 2021-09-21 Salesforce.Com, Inc. Method and system for automatically enriching collected seeds with information extracted from one or more websites
US10866996B2 (en) 2019-01-29 2020-12-15 Saleforce.com, inc. Automated method and system for clustering enriched company seeds into a cluster and selecting best values for each attribute within the cluster to generate a company profile

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050043607A (en) * 2003-11-06 2005-05-11 마츠시타 덴끼 산교 가부시키가이샤 Signal processing method and signal processing device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050043607A (en) * 2003-11-06 2005-05-11 마츠시타 덴끼 산교 가부시키가이샤 Signal processing method and signal processing device

Also Published As

Publication number Publication date
KR20080061501A (en) 2008-07-03

Similar Documents

Publication Publication Date Title
JP7410181B2 (en) Hybrid indexing methods, systems, and programs
EP2784665B1 (en) Program and version control method
CN106484877B (en) A kind of document retrieval system based on HDFS
CN106663056A (en) Metadata index search in file system
Forman et al. Finding similar files in large document repositories
US8341130B2 (en) Scalable file management for a shared file system
US7117294B1 (en) Method and system for archiving and compacting data in a data storage array
US8108411B2 (en) Methods and systems for merging data sets
CN103631937B (en) Build method, the apparatus and system of row storage index
CN104714755A (en) Snapshoot management method and device
CN107783985B (en) Distributed database query method, device and management system
CN114911830B (en) Index caching method, device, equipment and storage medium based on time sequence database
CN105303456A (en) Method for processing monitoring data of electric power transmission equipment
CN104239377A (en) Platform-crossing data retrieval method and device
Rousseau et al. Software provenance tracking at the scale of public source code
Savitha et al. Mining of web server logs in a distributed cluster using big data technologies
CN111324604A (en) Database table processing method and device, electronic equipment and storage medium
Al-Khasawneh et al. MapReduce a comprehensive review
Aggarwal et al. Small files’ problem in Hadoop: A systematic literature review
KR100870144B1 (en) Web history archive system and method for web pages management
Salah et al. A highly scalable parallel algorithm for maximally informative k-itemset mining
AL-Msie'deen et al. Detecting commonality and variability in use-case diagram variants
Zhang et al. Recovering SQLite data from fragmented flash pages
CN109857924A (en) A kind of big data analysis monitor information processing system and method
CN114595286A (en) Data synchronization method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120913

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee