KR101086530B1

KR101086530B1 - 웹 문서 원본 판별 방법 및 시스템, 이를 위한 웹 문서 이력 정보 제공 방법 및 시스템

Info

Publication number: KR101086530B1
Application number: KR1020080097145A
Authority: KR
Inventors: 이창희
Original assignee: 엔에이치엔(주)
Priority date: 2008-10-02
Filing date: 2008-10-02
Publication date: 2011-11-23
Also published as: JP5417100B2; JP5739500B2; JP2010086531A; JP2014038650A; US9477769B2; KR20100037836A; US20100088589A1

Abstract

웹 문서의 생성 시간 조작에 대응할 수 있는 본 발명의 일 실시예에 따른 웹 문서 원본 판별 방법은 웹 문서들의 생성 또는 변경에 관한 이력 정보를 수신하는 단계; 상기 이력 정보를 이용하여 상기 웹 문서들을 필터링하는 단계; 및 상기 이력 정보를 기준으로 상기 필터링된 웹 문서들의 원본을 판별하는 단계를 포함한다.

원본, 복사본, 핑, 블로그

Description

웹 문서 원본 판별 방법 및 시스템, 이를 위한 웹 문서 이력 정보 제공 방법 및 시스템{Method and System for Detecting Original Document of Web Document, Method and System for Providing History Information of Web Document for the same}

본 발명은 원본 문서 판별 방법에 관한 것으로서 보다 상세하게는 온라인 상의 여러 복사 문서 중에서 원본을 판별하는 방법에 관한 것이다.

인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과 문서를 사용자에게 제공하는 서비스를 의미한다. 이러한, 검색결과 문서는 사전, 지식 정보, 블로그, 까페, 전문자료, 사이트, 책, 웹 페이지, 동영상 등과 같은 카테고리로 분류되어 사용자게에 제공된다.

근래에는 특정 주제에 대하여 문서를 독창적으로 작성하지 않고 다른 사용자가 작성한 문서를 복사하거나 자신의 블로그나 까페 등에 포스팅한 검색결과 문서 들이 증가하고 있다. 이는 인터넷에서 사용되는 문서가 쉽게 복사될 수 있기 때문에 사용자는 주로 신문 기사나 전문 자료 또는 타인의 블로그나 까페 등에서 원본 문서 자체를 동일하게 복제하거나 필요한 부분만 선택적으로 복사하여 문서를 작성한 것이다. 따라서, 이러한 복사 문서는 원본 문서와 동일하거나 실질적으로 동일한 문서에 해당한다. 따라서, 검색결과 문서에는 원본 문서와 동일하거나 실질적으로 동일한 복사 문서가 다수 존재 할 수 있다. 이런 경우, 복사 문서가 원본 문서보다 검색 랭킹이 하위에 랭크되어야 함에도 불구하고 상위에 랭크됨으로 인해 사용자들에게 정확한 검색 결과를 제공하지 못하는 문제점이 있다.

이와 같은 문제점을 해결하기 위해 원본 문서와 복사 문서 중에서 원본 문서를 판별하는 여러 방법이 존재하나 복사 문서가 원본 문서와 동일하거나 실질적으로 동일한 문서이기 때문에 실질적으로 원본을 판별하기에 어려움이 있다. 또한, 일반적으로 웹 문서의 배포 시각이 가장 빠른 글을 원본으로 판별하고 있으나, 배포 시각을 조작하는 경우에는 원본 문서를 판별하기 더욱더 어려운 문제점이 있다.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 웹 문서의 이력 정보를 이용해 웹 문서의 원본을 판별할 수 있는 웹 문서 원본 판별 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.

또한, 본 발명은 웹 문서의 원본을 판결하기 위해 필요한 웹 문서의 이력 정보를 제공할 수 있는 웹 문서 이력 정보 제공 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다.

상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 웹 문서 원본 판별 방법은 웹 문서들의 생성 또는 변경에 관한 이력 정보를 수신하는 단계; 상기 이력 정보를 이용하여 상기 웹 문서들을 필터링하는 단계; 및 상기 이력 정보를 기준으로 상기 필터링된 웹 문서들의 원본을 판별하는 단계를 포함한다.

일 실시예에 있어서, 상기 이력 정보는 상기 웹 문서들이 생성 또는 변경된 시점의 핑백(pingback) 프로토콜에 의해 생성되며, 상기 웹 문서들이 생성 또는 변경된 시점의 시간 정보를 포함하는 것을 특징으로 한다.

또한, 상기 이력 정보는 상기 웹 문서들이 생성 또는 변경된 시점의 제목 및 텍스트에 관한 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.

이 때, 상기 필터링 하는 단계에서, 상기 수신된 이력 정보에 해당하는 웹 문서들을 크롤링한 후 상기 웹 문서들을 필터링하는 것을 특징으로 한다.

또한, 상기 필터링하는 단계에서, 상기 수신된 이력 정보에 해당하는 웹 문서들을 크롤링한 시점에서 변경되었는지 여부를 판단하는 것을 특징으로 한다.

또한, 상기 필터링하는 단계에서, 상기 웹 문서들이 생성 또는 변경된 시점의 제목 및 텍스트에 관한 정보 중 적어도 하나와 상기 수신된 이력 정보에 해당하는 웹 문서들을 크롤링한 웹 문서들의 제목 및 텍스트에 관한 정보 중 적어도 하나가 일치하는지 여부를 판단하는 것을 특징으로 한다.

이 때, 상기 원본을 판별하는 단계에서, 상기 필터링된 웹 문서들을 유사 문서 별로 그룹핑한 후 상기 원본을 판별하는 것을 특징으로 한다.

일 실시예에 있어서, 상기 그룹핑된 유사 문서는 상기 크롤링된 웹 문서들의 청크를 이용하여 그룹핑되는 것을 특징으로 한다.

여기서, 상기 원본을 판별하는 단계는 상기 필터링된 웹 문서들을 유사 문서 별로 그룹핑한 문서 중 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별하는 것을 특징으로 한다.

상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 웹 문서 이력 정보 제공 방법은 웹 문서들의 생성 또는 변경에 관한 핑(ping)을 수신하는 단계; 상기 핑을 수신한 시점의 시간 정보를 이용하여 상기 웹 문서들의 생성 또는 변경에 관한 이력 정보를 생성하는 단계; 및 상기 생성된 웹 문서들의 이력 정보를 원본 문서 판별 시스템에 제공하는 단계를 포함한다.

상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 웹 문서 원본 판별 시스템은 웹 문서들의 생성 또는 변경에 관한 이력 정보를 수신하는 이력 정보 수신부; 상기 이력 정보에 해당하는 웹 문서들을 크롤링하고, 상기 이력 정보를 이용하여 상기 크롤링된 웹 문서들을 필터링하는 수집부; 및 상기 필터링된 웹 문서들을 유사 문서 별로 그룹핑하고, 상기 이력 정보를 기준으로 상기 그룹핑된 유사 문서의 원본을 판별하는 판별부를 포함한다.

상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 웹 문서 이력 정보 제공 시스템은 웹 문서들의 생성 또는 변경에 관한 핑(ping)을 수신하는 핑 수신부; 상기 핑을 수신한 시점의 시간 정보를 이용하여 상기 웹 문서들의 생성 또는 변경에 관한 이력 정보를 생성하는 이력 정보 생성부; 및 상기 생성된 웹 문서들의 이력 정보를 원본 문서 판별 시스템에 제공하는 이력 정보 제공부를 포함한다.

본 발명에 따르면, 웹 문서의 생성 또는 변경에 관한 이력 정보를 이용함으로써 웹 문서의 생성 시간 조작에도 원본을 정확하게 판별할 수 있는 있다는 효과가 있다.

또한, 본 발명에 따르면, 웹 문서의 생성 시간 조작에도 원본을 정확하게 판별함으로써 검색 시스템이 정확한 검색 랭킹 서비스를 제공할 수 있도록 하는 효과가 있다.

이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 웹 문서 이력 정보 제공 시스템 및 원본 판별 시스템을 설명하기 위한 개략적인 블럭도이다. 도시된 바와 같이, 웹 문서 이력 정보 제공 시스템은 웹 서버(100)와 통신망을 통해 연결되어 있으며, 핑 수신부(220), 이력 정보 생성부(240) 및 이력 정보 제공부(260)를 포함한다. 웹 문서 원본 판별 시스템(300)은 웹 문서 이력 정보 제공 시스템(200)으로부터 웹 문서 이력 정보를 제공받으며, 이력 정보 수신부(320), 수집부(340) 및 판별부(360)를 포함한다.

한편, 웹 문서 원본 판별 시스템(300)은 검색 시스템(미도시) 또는 메타 블로그 서버(미도시)에 포함되거나 별도로 구성될 수 있다. 이는, 예를 들어, 검색 시스템에서 검색 서비스 제공 시 웹 문서 원본 판별 시스템(300)에 의해 판별된 원본을 검색 랭킹에 반영시키기 위해서이다. 또한, 웹 문서 원본 판별 시스템(300)은 웹 서버(100) 자체적으로 원본을 판별하기 위해 웹 서버(100)에 포함되어 구성될 수 있다.

여기서, 웹 서버(100)는 설명의 편의상 하나로 도시하였지만, 까페 서버, 블로그 서버, 포털 서버 등 웹 문서들이 게시된 다양한 종류의 웹 서버일 수 있다. 이하에서는 설명의 편의상 웹 서버(100)는 블로그 서버인 것으로 예를 들어 설명하기로 한다.

한편, 웹 문서 이력 정보 제공 시스템(200)은 웹 서버와(100)의 핑백(pingback) 프로토콜에 의해 이력 정보를 생성한다. 여기서, 핑백 프로토콜의 일 예를 도 2를 참조하여 설명하면, 글 a가 글 b를 링크로써 인용한 경우, 글 a가 게시된 블로그 서버 A가 글 b가 게시된 블로그 서버 B에 글 a가 글 b를 인용하고 있 음을 핑(ping)을 이용하여 자동으로 알려주는 프로토콜을 의미한다.

다시 말해, 핑이란 본문에 유용한 글을 링크로써 인용하였을 때 이를 인용한 글이 게시된 서버에 자동으로 알려주는 신호를 의미한다. 따라서, 본 발명에서 웹 서버는 게시된 웹 문서가 생성 또는 변경 되었을 경우 웹 문서의 생성 또는 변경에 관한 정보를 핑을 이용하여 자동으로 웹 문서 이력 정보 제공 시스템에 제공하는 것이다.

일 실시예에 있어서, 웹 문서 이력 정보 제공 시스템(200)은 핑 서버일 수 있다. 여기서, 핑 서버의 일 예를 도 3을 참조하여 설명하면, 핑 서버는 네이버, 이글루스, 티스토리 등과 같은 여러 블로그 서버로부터 블로그 내의 여러 웹 문서의 생성 또는 변경에 관한 핑을 수신하여 네이버, 네이트 다음 등의 검색 시스템 또는 이올린, 올블로그 등과 같은 메타 블로그 서버에 웹 문서의 생성 또는 변경에 관한 이력 정보를 제공하는 역할을 한다.

다시 도 1을 참조하여, 웹 문서 이력 정보 제공 시스템(200)에 대해 살펴보기로 한다.

핑 수신부(220)는 웹 문서들의 생성 또는 변경에 관한 핑(ping)을 수신한다. 여기서, 핑은 웹 문서들이 생성 또는 변경될 때 마다 수신한다. 다시 말해, 앞에서 설명한 바와 같이, 웹 문서 이력 정보 제공 시스템(200)은 웹 서버(100)와의 핑백(pingback) 프로토콜에 의해 이력 정보를 생성하기 때문에, 웹 서버로부터 핑을 수신하는 것이다.

이력 정보 생성부(240)는 핑 수신부(220)가 핑을 수신한 시점의 시간 정보를 이용하여 웹 문서들의 생성 또는 변경에 관한 이력 정보를 생성한다. 다시 말해, 핑 수신부가 핑을 수신한 시점은 웹 문서들이 생성 또는 변경된 시간을 의미하므로 이력 정보 생성부(240)는 웹 문서가 생성 또는 변경된 시간에 관한 이력 정보를 생성한다.

여기서, 이력 정보는 웹 문서들의 URL 별로 생성될 수 있다. 예를 들어, 블로그에서 여러 글들이 생성 또는 변경된다고 가정하면, 블로그 내의 각각의 글에 해당하는 URL 별로 웹 문서의 생성 또는 변경에 관한 이력 정보가 생성될 수 있다.

일 실시예에 있어서, 이력 정보 생성부(240)는 수신한 핑에 해당하는 웹 문서의 제목 및 텍스트에 관한 정보 중 적어도 하나를 수집하여 이력 정보에 제목 및 텍스트에 관한 정보 중 적어도 하나를 포함시킬 수 있다. 예를 들어, 이력 정보 생성부는 수신한 핑에 해당하는 블로그를 실제로 방문하여 웹 문서가 생성 또는 변경될 당시의 제목 또는 텍스트 중 일부를 수집하여 저장한다.

이는, 블로그 작성자가 웹 문서를 생성 또는 변경하지도 않았으면서 핑을 조작할 수 있기 때문에 이력 정보 생성부가 웹 문서의 생성 또는 변경 당시에 실제로 웹 문서가 생성 또는 변경되었는지를 확인하기 위해서이다.

이력 정보 제공부(260)는 웹 문서들의 이력 정보를 원본 문서 판별 시스템(300)에 제공한다. 다시 말해, 블로그 내의 각종 웹 문서 다시 말해, 각종 글들의 생성 또는 변경에 관한 이력 정보를 웹 문서 원본 판별 시스템에 제공하는 것이다.

다음으로, 웹 문서 원본 판별 시스템(300)에 대해 살펴보기로 한다.

이력 정보 수신부(320)는 웹 문서들의 생성 또는 변경에 관한 이력 정보를 수신한다. 다시 말해, 이력 정보 수신부(320)는 웹 문서 이력 정보 제공부(200)에 의해 생성된 웹 문서들의 생성 또는 변경에 관한 이력 정보를 제공받는 것이다.

일 실시예에 있어서, 이력 정보는 웹 문서들이 생성 또는 변경된 시점의 핑백 프로토콜에 의해 생성될 수 있다. 앞에서 설명한 바와 같이, 이력 정보는 웹 서버(100)와 웹 문서 이력 정보 제공 시스템(200)과의 핑백 프로토콜에 따른 핑에 의해 생성될 수 있다.

일 실시예에 있어서, 이력 정보는 웹 문서들의 URL 별로 생성될 수 있다. 다시 말해, 웹 문서의 URL 별로 웹 문서의 생성 또는 변경에 관한 이력 정보가 관리되는 것이다.

일 실시예에 있어서, 이력 정보는 웹 문서들이 생성 또는 변경된 시점의 시간 정보를 포함할 수 있다. 이는, 앞에서 설명한 바와 같이, 이력 정보가 핑을 수신한 시점의 시간 정보를 이용하여 생성되었기 때문이다.

일 실시예에 있어서, 이력 정보는 웹 문서들이 생성 또는 변경된 시점의 제목 및 텍스트에 관한 정보 중 적어도 하나를 포함할 수 있다.

수집부(340)는 이력 정보에 해당하는 웹 문서들을 크롤링하고, 이력 정보를 이용하여 크롤링된 웹 문서들을 필터링한다. 다시 말해, 수집부(340)는 모든 웹 문서들을 크롤링하는 것이 아니라 웹 문서 이력 정보 제공 시스템으로부터 수신한 이력 정보에 해당하는 웹 문서들만을 수집하고, 이력 정보를 이용하여 크롤링된 웹 문서들을 필터링하는 것이다.

일 실시예에 있어서, 수집부는 웹 문서들이 생성 또는 변경된 시점의 웹 문서가 크롤링된 시점에서 변경되었는지 여부를 판단할 수 있다. 구체적으로, 수집부는 웹 문서들의 생성 또는 변경된 시점의 제목 및 텍스트에 관한 정보 중 적어도 하나의 크롤링된 웹 문서들이 제목 및 텍스트에 관한 정보 중 적어도 하나가 일치하는 여부를 판단할 수 있다.

다시 말해, 수집부는 크롤링된 웹 문서들이 생성 또는 변경된 시점에 비해 변경되었는지 여부를 판단하여 변경된 경우에는 크롤링된 웹 문서에서 제외하는 것이다. 이는 웹 문서가 생성 또는 변경되고 난 후 웹 문서를 다른 문서로 바꿀 수 있기 때문이다.

판별부(360)는 필터링된 웹 문서들을 유사 문서 그룹별로 그룹핑하고, 이력 정보를 기준으로 그룹핑된 유사 문서의 원본을 판별한다.

일 실시예에 있어서, 그룹핑된 유사 문서는 크롤링된 웹 문서들의 청크를 이용하여 그룹핑될 수 있다. 여기서, 청크라 함은 웹 문서의 본문을 적어도 하나의 덩어리로 나눌 때 각 덩어리를 지칭하는 것을 의미한다. 판별부는 원본 및 복사 문서에 이와 같은 청크가 공통으로 존재할 수 있기 때문에, 청크를 이용하여 원본 및 복사 문서를 그룹핑할 수 있다. 한편, 판별부는 청크를 이용하는 방법에 한정되지 않고 타임 스탬프를 이용하거나 기타 다른 방법에 의해 유사 문서를 그룹핑 할 수 있다.

일 실시예에 있어서, 판별부(360)는 그룹핑된 유사 문서 중 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별할 수 있다. 다시 말해, 유사 문서로 그룹핑된 문서 중에서 해당 웹 문서의 이력 정보에는 문서의 생성 또는 변경 정보가 포함되어 있기 때문에, 그룹핑된 유사 문서 중에서 이력 정보에 포함된 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별하는 것이다.

바람직하게는, 판별부(360)는 그룹핑된 각각의 유사 문서의 이력 정보에 포함되어 있는 문서의 생성 또는 변경 시간 중에 해당 문서와 유사한 내용을 갖는 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별할 수 있다.

이하에서는 도 4를 참조하여 본 발명의 일 실시예에 따른 웹 문서 이력 정보 제공 방법을 설명하기로 한다.

웹 문서들의 생성 또는 변경에 관한 핑(ping)을 수신한다(S410). 여기서, 핑이란 본문에 유용한 글을 링크로써 인용하였을 때 이를 인용한 글이 게시된 서버에 자동으로 알려주는 신호를 의미한다.

일 실시예에 있어서, 핑은 웹 문서들이 생성 또는 변경될 때 마다 수신한다. 따라서, 핑을 이용하면 웹 문서들이 또는 변경된 시간 정보를 알 수 있다.

다음으로, 핑을 수신한 시점의 시간 정보를 이용하여 웹 문서들의 생성 또는 변경에 관한 이력 정보를 생성한다(S430).

여기서, 본 발명의 일 실시예에 따른 웹 문서 이력 정보 제공 방법은 핑에 해당하는 웹 문서의 제목 및 텍스트에 관한 정보 중 적어도 하나를 수집하는 단계를 더 포함할 수 있으며, 이력 정보는 제목 및 텍스트에 관한 정보 중 적어도 하나를 포함할 수 있다.

이는, 웹 문서 작성자가 웹 문서를 생성 또는 변경하지도 않았으면서 핑을 조작할 수 있기 때문에 웹 문서의 생성 또는 변경 당시에 실제로 웹 문서가 생성 또는 변경되었는지를 확인하기 위해서이다.

일 실시예에 있어서, 이력 정보는 상기 웹 문서들의 URL 별로 생성될 수 있다. 예를 들어, 블로그에서 여러 글들이 생성 또는 변경된다고 가정하면, 블로그 내의 각각의 글에 해당하는 URL 별로 웹 문서의 생성 또는 변경에 관한 이력 정보가 생성될 수 있다.

마지막으로, 생성된 웹 문서들의 이력 정보를 원본 문서 판별 시스템에 제공한다(S450).

따라서, 본 발명의 일 실시예에 따른 원본 문서 판별 시스템은 웹 문서 이력 정보 제공 시스템으로부터 제공받은 웹 문서의 이력 정보를 이용하여 웹 문서의 원본을 판별할 수 있으며, 이하에서는 도 5를 참조하여 본 발명의 일 실시예에 따른 웹 문서 원본 판별 방법을 설명하기로 한다.

먼저, 웹 문서들의 생성 또는 변경에 관한 이력 정보를 수신한다(S510). 일 실시예에 있어서, 이력 정보는 웹 문서들이 생성 또는 변경된 시점의 핑백(pingback) 프로토콜에 의해 생성될 수 있다.

일 실시예에 있어서, 이력 정보는 웹 문서들이 생성 또는 변경된 시점의 시간 정보를 포함할 수 있다. 이는, 이력 정보가 웹 문서들이 생성 또는 변경된 시점의 핑을 이용하여 생성되기 때문이다.

또한, 이력 정보는 웹 문서들이 생성 또는 변경된 시점의 제목 및 텍스트에 관한 정보 중 적어도 하나를 포함할 수 있다.

다음으로, 수신된 이력 정보에 해당하는 웹 문서들을 크롤링하고, 이력 정보를 이용하여 크롤링된 웹 문서들을 필터링한다(S530).

여기서, 웹 문서들이 생성 또는 변경된 시점의 웹 문서가 상기 크롤링된 시점에서 변경되었는지 여부를 판단함으로써 크롤링된 웹 문서들을 필터링할 수 있다. 구체적으로, 웹 문서들이 생성 또는 변경된 시점의 제목 및 텍스트에 관한 정보 중 적어도 하나와 크롤링된 웹 문서들의 제목 및 텍스트에 관한 정보 중 적어도 하나가 일치하는지 여부를 판단하여 크롤링된 웹 문서들을 필터링할 수 있다. 다시 말해, 웹 문서들이 생성 또는 변경된 시점의 웹 문서가 상기 크롤링된 시점에서 변경된 경우에는 크롤링된 웹 문서에서 제외하는 것이다. 이는 웹 문서의 검색 랭킹 조작을 위해 웹 문서들이 생성 또는 변경된 후 해당 웹 문서를 바꾸는 것을 방지하기 위해서이다.

여기서, 그룹핑된 유사 문서는 크롤링된 웹 문서들의 청크를 이용하여 그룹핑될 수 있다. 또한, 청크를 이용하는 방법에 한정되지 않고 타임 스탬프를 이용하거나 기타 다른 방법에 의해 유사 문서 별로 그룹핑될 수 있다.

마지막으로, 필터링된 웹 문서들을 유사 문서 별로 그룹핑하고, 상기 이력 정보를 기준으로 상기 그룹핑된 유사 문서의 원본을 판별한다(S550). 여기서, 본 발명에 일 실시에 따른 웹 문서 원본 판별 방법은 그룹핑된 유사 문서 중 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별할 수 있다.

바람직하게는, 그룹핑된 각각의 유사 문서의 이력 정보에 포함되어 있는 문서의 생성 또는 변경 시간 중에 해당 문서와 유사한 내용을 갖는 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별할 수 있다.

따라서, 본 발명에 일 실시에 따른 웹 문서 원본 판별 방법은 웹 문서가 생성 또는 변경될 때마다 생성된 이력 정보를 이용함으로써 웹 문서의 생성 또는 변경 시간을 조작하더라도 정확히 원본을 판별할 수 있으며, 정확한 원본 판별에 따라 검색 서버스에서도 정확한 랭킹 정보를 제공할 수 있다.

한편, 상술한 웹 문서 이력 정보 제공 방법 및 원본 판별 시스템은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.

또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코 드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

한편, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

도 1은 본 발명의 일 실시예에 따른 웹 문서 이력 정보 제공 시스템은 원본 판별 시스템을 설명하기 위한 개략적인 블럭도이다.

도 2는 핑백 프로토콜의 예를 보여주는 도면이다.

도 3은 핑 서버의 예를 보여주는 도면이다.

도 4는 본 발명의 일 실시예에 따른 웹 문서 이력 정보 제공 방법을 보여주는 플로우차트이다.

도 5는 본 발명의 일 실시예에 따른 웹 문서 원본 판별 방법을 보여주는 플로우차트이다.

<도면의 주요 부분에 대한 부호의 설명>

100 : 웹 서버 200 : 웹 문서 이력 정보 제공 시스템

220 : 핑 수신부 240 : 이력 정보 생성부

260 : 이력 정보 제공부 300 : 웹 문서 원본 판별 시스템

320 : 이력 정보 수신부 340 : 수집부

360 : 판별부

Claims

이력 정보 수신부, 수집부 및 판별부를 포함하는 웹 문서 원본 판별 장치가 수행하는 웹 문서 원본 판별 방법에 있어서,

상기 이력 정보 수신부가 웹 문서 이력 정보 제공 장치로부터 웹 문서들이 생성되거나 또는 변경된 시점의 시간 정보, 웹 문서의 제목에 관한 정보 및 웹 문서의 본문에 포함된 텍스트에 관한 정보 중 적어도 하나를 포함하는 이력 정보를 수신하는 단계;

상기 수집부가 상기 이력 정보를 이용하여 상기 웹 문서들을 필터링하는 단계; 및

상기 판별부가 상기 이력 정보를 기준으로 상기 필터링된 웹 문서들의 원본을 판별하는 단계

를 포함하고,

상기 웹 문서들을 필터링하는 단계는,

상기 이력 정보에 대응하는 웹 문서들이 변경되었는지 여부에 따라 필터링하며,

상기 필터링된 웹 문서들의 원본을 판별하는 단계는,

상기 필터링된 웹 문서 중 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별하는 것을 특징으로 하는 웹 문서 원본 판별 방법.
제 1 항에 있어서, 상기 이력 정보는

상기 웹 문서들이 생성 또는 변경된 시점의 핑백(pingback) 프로토콜에 의해 생성되고,

상기 핑백 프로토콜은,

상기 웹 문서가 게시된 웹 서버가 웹 문서의 생성 또는 변경에 관한 정보를 핑(Ping)을 이용하여 상기 웹 문서 이력 정보 제공 장치에 자동으로 알려주는 프로토콜인 것을 특징으로 하는 웹 문서 원본 판별 방법.
삭제
삭제
제 1 항에 있어서, 상기 필터링 하는 단계에서,

상기 수신된 이력 정보에 따라 생성 또는 변경된 웹 문서들을 크롤링한 후, 크롤링된 웹 문서를 대상으로 웹 문서들이 변경되었는지 여부에 따라 상기 웹 문서들을 필터링하는 것을 특징으로 하는 웹 문서 원본 판별 방법.
제 1 항에 있어서, 상기 필터링하는 단계에서,

상기 웹 문서들이 생성 또는 변경된 시점의 웹 문서가 상기 수신된 이력 정보에 해당하는 웹 문서들을 크롤링한 시점에서 변경되었는지 여부를 판단하는 것을 특징으로 하는 웹 문서 원본 판별 방법.
제 1 항에 있어서, 상기 필터링하는 단계에서,

상기 웹 문서들이 생성되거나 또는 변경된 시점의 상기 웹 문서의 제목에 관한 정보 및 상기 웹 문서의 본문에 포함된 텍스트에 관한 정보 중 적어도 하나와 상기 수신된 이력 정보에 해당하는 웹 문서들을 크롤링한 웹 문서들의 제목에 관한 정보 및 크롤링한 웹 문서들의 본문에 포함된 텍스트에 관한 정보 중 적어도 하나가 일치하는지 여부를 판단하는 것을 특징으로 하는 웹 문서 원본 판별 방법.
제 1 항에 있어서, 상기 원본을 판별하는 단계에서,

상기 필터링된 웹 문서들을 대상으로 유사한 내용을 갖는 유사 문서 별로 그룹핑한 후, 그룹핑된 유사 문서 중에서 상기 원본을 판별하는 것을 특징으로 하는 웹 문서 원본 판별 방법.
제 8 항에 있어서, 상기 그룹핑된 유사 문서는

크롤링된 웹 문서들을 대상으로 청크가 공통으로 존재하여 유사한 내용을 갖는 문서로 그룹핑되고,

상기 청크는 웹 문서의 본문을 나누는 적어도 하나의 덩어리인 것을 특징으로 하는 웹 문서 원본 판별 방법.
제 1 항에 있어서, 상기 원본을 판별하는 단계는

상기 필터링된 웹 문서들을 대상으로 유사한 내용을 갖는 유사 문서 별로 그룹핑한 후, 그룹핑된 유사 문서 중 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별하는 것을 특징으로 하는 웹 문서 원본 판별 방법.
삭제
삭제
삭제
삭제
제 1 항, 제 2 항 및 제 5 항 내지 제 10 항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 기록매체.
컴퓨터를 이용하여 웹 문서 원본 판별 방법을 수행하는 웹 문서 원본 판별 장치에 있어서,

웹 문서 이력 정보 제공 장치로부터 웹 문서들이 생성되거나 또는 변경된 시점의 시간 정보, 웹 문서의 제목에 관한 정보 및 웹 문서의 본문에 포함된 텍스트에 관한 정보 중 적어도 하나를 포함하는 이력 정보를 수신하는 이력 정보 수신부;

상기 이력 정보를 이용하여 상기 웹 문서들을 필터링하는 수집부; 및

상기 이력 정보를 기준으로 상기 필터링된 웹 문서들의 원본을 판별하는 판별부

를 포함하고,

상기 수집부는,

상기 이력 정보에 대응하는 웹 문서들이 변경되었는 지 여부에 따라 필터링하며,

상기 판별부는,

상기 필터링된 웹 문서들 중 문서의 생성 또는 변경 시간이 가장 빠른 문서를 원본으로 판별하는 것을 특징으로 하는 웹 문서 원본 판별 장치.
제 16 항에 있어서, 상기 이력 정보는

상기 웹 문서들이 생성 또는 변경된 시점의 핑백(pingback) 프로토콜에 의해 생성되고,

상기 핑백 프로토콜은,

상기 웹 문서가 게시된 웹 서버가 웹 문서의 생성 또는 변경에 관한 정보를 핑(Ping)을 이용하여 상기 웹 문서 이력 정보 제공 시스템에 자동으로 알려주는 프로토콜인 것을 특징으로 하는 웹 문서 원본 판별 장치.
제 16 항에 있어서,

상기 이력 정보는 상기 웹 문서들의 URL 별로 생성되는 것을 특징으로 하는 웹 문서 원본 판별 장치.
제 16 항에 있어서, 상기 수집부는,

상기 이력 정보에 따라 생성 또는 변경된 웹 문서들을 크롤링한 후, 상기 이력 정보를 이용하여 상기 크롤링된 웹 문서들을 필터링하는 것을 특징으로 하는 웹 문서 원본 판별 장치.
제 16 항에 있어서, 상기 판별부는,

상기 필터링된 웹 문서들을 대상으로 유사한 내용을 갖는 유사 문서 별로그룹핑한 후, 상기 이력 정보를 이용하여 그룹핑된 유사 문서 중에서 원본을 판별하는 것을 특징으로 하는 웹 문서 원본 판별 장치.
제 16 항에 있어서, 상기 수집부는

상기 웹 문서들이 생성 또는 변경된 시점의 웹 문서가 크롤링된 시점에서 변경되었는지 여부를 판단하는 것을 특징으로 하는 웹 문서 원본 판별 장치.
제 16 항에 있어서, 상기 수집부는

상기 웹 문서들이 생성되거나 또는 변경된 시점의 상기 웹 문서의 제목에 관한 정보 및 상기 웹 문서의 본문에 포함된 텍스트에 관한 정보 중 적어도 하나와 크롤링된 웹 문서들의 제목에 관한 정보 및 크롤링된 웹 문서들의 본문에 포함된 텍스트에 관한 정보 중 적어도 하나가 일치하는지 여부를 판단하는 것을 특징으로 하는 웹 문서 원본 판별 장치.
제 16 항에 있어서, 상기 판별부는

상기 필터링된 웹 문서들을 대상으로 유사한 내용을 갖는 유사 문서 별로 그룹핑한 후, 그룹핑된 유사 문서 중 문서의 생성 또는 변경 시간이 가장 빠른 웹 문서를 원본으로 판별하는 것을 특징으로 하는 웹 문서 원본 판별 장치.
제 23 항에 있어서, 상기 그룹핑된 유사 문서는

크롤링된 웹 문서들을 대상으로 청크가 공통으로 존재하여 유사한 내용을 갖는 문서로 그룹핑되고,

상기 청크는 웹 문서의 본문을 나누는 적어도 하나의 덩어리인 것을 특징으로 하는 웹 문서 원본 판별 장치.
삭제
삭제
삭제