KR20170078777A

KR20170078777A - 중복 웹 페이지 제거 방법 및 장치

Info

Publication number: KR20170078777A
Application number: KR1020177014662A
Authority: KR
Inventors: 샤오펭 탕
Original assignee: 알리바바 그룹 홀딩 리미티드
Priority date: 2014-10-30
Filing date: 2015-10-22
Publication date: 2017-07-07
Also published as: SG11201703563SA; EP3214557A1; US20170235746A1; EP3214557A4; US10691769B2; JP6672292B2; KR102179855B1; EP3214557B1; JP2017532690A; WO2016066043A1; CN105630802A

Abstract

중복 웹 페이지를 제거하는 방법 및 장치가 개시된다. 예시적인 방법은 복수의 소정 유형의 웹 페이지 획득, 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지에 포함된 텍스트 문자의 개수 추출을 포함할 수 있다. 방법은 또한 데이터 표를 검색하여 특징 코드가 데이터 표에 포함되어 있는지 판단을 포함할 수 있다. 특징 코드가 데이터 표에 포함되어 있으면, 방법은 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자 수 판독, 및 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 일정 범위 이내일 때 현재 웹 페이지 폐기를 더 포함할 수 있다.

Description

중복 웹 페이지 제거 방법 및 장치{WEB PAGE DEDUPLICATION METHOD AND APPARATUS}

본 출원은 인터넷 기술에 관한 것이며, 더 구체적으로는, 중복 웹 페이지를 제거하는 방법 및 장치에 관한 것이다.

인터넷 기술의 발전에 따라, 인터넷은 사람들이 다양한 정보를 획득하는 중요한 원천이 되고 있다. 그러나, 인터넷 상의 많은 정보는 중복된다. 수십억 또는 수백억의 웹 페이지 중에서, 많은 양의 웹 페이지가 중복되는 정보를 가지며, 이는 정보 처리를 어렵게 만든다. 따라서, 중복되는 웹 페이지의 제거가 중요하다.

현재의 방법은 웹 페이지 내의 특징 코드를 선택하고 특징 코드를 비교하여 중복되는 웹 페이지를 제거하는 것을 포함할 수 있다. 웹 페이지의 특징 코드를 사용하여 중복 웹 페이지를 제거하는 기존의 방법은 먼저 제1 웹 페이지 내에서 문장의 끝을 나타내는 마침표를 위치 지점으로 선택하고 위치 지점의 양쪽에 있는 일정한 수의 중국어 문자를 특징 코드로 사용하는 것을 포함할 수 있다. 방법은 또한 동일한 단계를 통해 제2 웹 페이지에서 다른 특징 코드를 획득하는 것을 포함할 수 있다. 방법은 두 웹 페이지의 특징 코드의 비교를 더 포함할 수 있다. 두 웹 페이지의 특징 코드가 동일하면, 방법은 제2 웹 페이지가 중복 웹 페이지라고 판단, 및 중복되는 제2 웹 페이지의 폐기를 포함할 수 있다. 두 특징 코드가 상이하면, 방법은 두 웹 페이지가 상이하다는 판단을 포함할 수 있다. 달리 말하자면, 제2 웹 페이지는 제1 웹 페이지와 중복되는 것이 아니다.

특징 코드에 기반하여 중복 웹 페이지를 제거하는 기존 방법의 잠재적인 문제점은 동일한 특징 코드를 갖지만 다른 내용을 갖는 두 웹 페이지에 대해 잘못된 결정을 내일 수 있다는 점이다. 예를 들면, 제1 웹 페이지는 수십 자의 시를 포함할 수 있다. 사용자는 제1 웹 페이지의 일정한 내용을 제2 웹 페이지 내로 포함시킬 수 있으며, 그의 이해에 따라 시를 수백 자로 설명할 수 있다. 설명은 어떠한 마침표도 포함하지 않을 수 있다. 중복 웹 페이지의 제거 방법이 단지 특징 코드에만 기반하면, 이들 두 웹 페이지는 동일한 웹 페이지로 판단될 수 있다. 그러나, 두 웹 페이지는 상이한 웹 페이지이다. 따라서, 중복 웹 페이지를 제거하는 위의 방법의 정확성은 높지 않을 수 있다. 또한, 위의 방법으로 추출된 특징 코드는 정확하지 않을 수 있다. 예를 들면, 사용자는 포함된 웹 페이지의 캡션(caption)이나 편집에 마침표를 추가할 수 있다. 기존 방법에 따라 특징 코드가 추출될 때, 원래의 웹 페이지와, 전달된 텍스트가 포함된 웹 페이지의 특징 코드가 상이하다. 결과적으로, 원래의 웹 페이지와, 전달된 텍스트를 포함하는 웹 페이지는 상이한 웹 페이지로 결정될 수 있다. 그러나 원래의 웹 페이지와, 전달된 텍스트가 포함된 웹 페이지의 텍스트는 동일할 수 있다.

본 출원은 연관된 분야의 기술적 문제의 적어도 하나를 일정한 정도 해결하고자 하는 것이다.

본 출원은 중복 웹 페이지 제거의 정확성을 크게 개선하고 잘못된 결정을 줄일 수 있는, 중복 웹 페이지 제거 방법을 제안하는 것을 목적으로 한다.

본 출원은 또한 중복 웹 페이지 제거 장치를 제안하는 것을 목적으로 한다.

일 양상에서, 본 개시는 중복 웹 페이지 제거 방법에 관한 것이다. 방법은 복수의 소정 유형의 웹 페이지 획득을 포함할 수 있다. 방법은 또한 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지에 포함된 텍스트 문자의 수 추출을 포함할 수 있다. 방법은 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단을 더 포함할 수 있다. 특징 코드가 포함되어 있으면, 방법은 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자 수 판독, 및 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내일 때 현재 웹 페이지 폐기를 포함할 수 있다.

본 출원의 방법 실시예 중 하나는 복수의 소정 유형의 웹 페이지 획득, 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지에 포함된 텍스트 문자의 수 추출, 및 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단을 포함할 수 있다. 특징 코드가 포함되어 있으면, 방법은 또한 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자 수 판독, 및 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내일 때 현재 웹 페이지 폐기를 포함할 수 있다. 방법 실시예는 웹 페이지의 특징 코드 및 웹 페이지 내에 포함된 텍스트 문자의 수에 따라 중복 웹 페이지를 제거할 수 있다. 이는 단지 특징 코드에 기반하여 중복 웹 페이지를 제거하는 기존의 방법과 비교하여 중복 웹 페이지 제거의 정확도를 크게 개선하고 잘못된 결정의 비율을 낮출 수 있다.

다른 양상에서, 본 개시는 중복 웹 페이지 제거 장치에 관한 것이다. 장치는 복수의 소정 유형의 웹 페이지를 획득하도록 구성되는 획득 모듈을 포함할 수 있다. 장치는 또한 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지에 포함된 텍스트 문자의 수를 추출하고, 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단하도록 구성되는 제1 처리 모듈을 포함할 수 있다. 특징 코드가 포함되어 있으면, 제1 처리 모듈은 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자 수를 판독하고, 및 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내일 때 현재 웹 페이지를 폐기하도록 구성될 수 있다.

본 출원의 장치 실시예 중 하나는 복수의 소정 유형의 웹 페이지를 획득하도록 구성되는 획득 모듈을 포함할 수 있다. 장치는 또한 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지에 포함된 텍스트 문자의 수를 추출하고, 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단하도록 구성되는 제1 처리 모듈을 포함할 수 있다. 특징 코드가 포함되어 있으면, 제1 처리 모듈은 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자 수를 판독하고, 및 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내일 때 현재 웹 페이지를 폐기하도록 구성될 수 있다. 장치 실시예는 웹 페이지의 특징 코드 및 웹 페이지 내에 포함된 텍스트 문자의 수에 따라 중복 웹 페이지를 제거할 수 있다. 이는 단지 특징 코드에 기반하여 중복 웹 페이지를 제거하는 기존의 방법과 비교하여 중복 웹 페이지 제거의 정확도를 크게 개선하고 잘못된 결정의 비율을 낮출 수 있다.

도 1은 본 출원의 실시예에 따른, 중복 웹 페이지를 제거하는 예시적인 방법의 흐름도이다.
도 2는 본 출원의 실시예에 따른, 예시적인 웹 페이지의 개략도이다.
도 3은 본 출원의 실시예에 따른, 다른 예시적인 웹 페이지의 개략도이다.
도 4는 본 출원의 실시예에 따른, 중복 웹 페이지를 제거하는 예시적인 장치의 구조 개략도이다.
도 5는 본 출원의 실시예에 따른, 중복 웹 페이지를 제거하는 다른 예시적인 장치의 구조 개략도이다.

본 출원의 실시예가 이하에서 자세히 설명될 것이다. 이들 실시예의 예들이 도면에 도시된다. 동일 또는 유사한 참조 번호로 지정된 동일 또는 유사한 요소는 동일 또는 유사한 기능을 가질 수 있다. 도면을 참조하여 설명된 이들 실시예는 단지 예시적이며, 본 출원을 설명하고자 의도된 것이다. 이들은 본 출원을 제한하는 것으로 해석되어서는 안 된다.

중복 웹 페이지를 제거하는 방법 및 장치 실시예가 이하에서 도면을 참조로 설명된다.

도 1은 본 출원의 실시예에 따른, 중복 웹 페이지를 제거하는 예시적인 방법의 흐름도이다. 도 1에 나타난 바와 같이, 중복 웹 페이지 제거 방법은 다음의 단계를 포함할 수 있다.

S101: 소정 유형의 복수의 웹 페이지 획득.

검색 엔진을 통해 일정한 키워드를 검색한 후, 사용자는 키워드에 관련되는 복수의 웹 페이지를 획득하고, 이들로부터 텍스트를 포함하는 웹 페이지와 같이 소정 유형의 웹 페이지를 선택할 수 있다.

S102: 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지 내에 포함된 텍스트 문자의 수 추출, 및 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단. 특징 코드가 포함되어 있으면, 단계는 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자의 수 판독, 및 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내일 때 현재 웹 페이지 폐기를 더 포함한다.

텍스트를 포함하는 웹 페이지와 같은, 소정 유형의 복수의 웹 페이지를 획득한 후에, 방법은 획득된 각 웹 페이지에 대해 현재 웹 페이지의 텍스트 내에 포함된 단락 획득을 포함할 수 있다. 방법은 또한 각 단락에 대해 현재 단락의 사전 설정된 위치에서 제1 사전 설정된 수의 텍스트 문자 선택, 및 단락들의 모든 선택된 텍스트 문자를 결합하는 문자열에 대한 계산에 의하여 특징 코드 생성을 포함할 수 있다.

일부 실시예에서, 방법은 현재 단락의 중심 위치의 좌측 및 우측에서 제2 사전 설정된 수의 텍스트 문자 선택을 포함할 수 있다. 제2 사전 설정된 수는 제1 사전 설정된 수의 절반일 수 있으며, 제2 사전 설정된 수는 3 내지 8일 수 있다. 일부 실시예에서, 중복 웹 페이지 제거 성능을 개선하고 특징 코드의 저장 공간을 줄이기 위하여 제2 사전 설정된 수는 5로 설정될 수 있다. 이에 따라 제1 사전 설정된 수는 10으로 설정될 수 있다.

예를 들면, 웹 페이지는 하나의 단락만을 포함하고 단락이 1000개의 한자를 포함할 수 있다. 위의 방법은 단락의 중심 위치의 좌측 및 우측의 5개의 한자를 각각 선택하는 것을 포함할 수 있다. 따라서 방법은 전체 10개의 한자를 선택하는 것을 포함할 수 있다. 이들 10개의 한자는 정보 이론의 n-gram 문법의 정의에 따라 10차 텍스트(10-gram)와 동등할 수 있다. 전체 6753개의 한자가 있는 점을 고려하면 이들 10개의 한자의 중복 확률은 약 1/(6753)¹⁰일 수 있다. 달리 말하자면, 이 웹 페이지의 특징 코드의 중복 가능성은 약 1/(6753)¹⁰일 수 있다. 따라서, 각 단락의 중심 위치에서 10개의 문자를 선택하는 방법은 웹 페이지의 특징 코드가 상이한 것을 효과적으로 보장할 수 있으며, 웹 페이지의 특징 코드의 정확성을 개선할 수 있다.

일부 실시예에서, 웹 페이지 내의 특정한 단락 내의 문자의 수가 제1 사전 설정된 수보다 적으면, 방법은 일정한 특정 문자로 특징 코드를 보충하는 것을 포함할 수 있다.

일부 실시예에서, 제1 사전 설정된 수, 예를 들면, 10개의 문자를 현재 웹 페이지의 각 단락으로부터 선택한 후에, 방법은 또한 이들 단락의 순서에 따라 선택된 문자를 문자열로 결합하는 것을 포함할 수 있다. 웹 페이지가 중복되는 내용을 포함하는지 판단하고자 문자열을 신속하고 효과적으로 검색하기 위한 목적으로, 방법은 각 웹 페이지에 대해 문자열의 계산에 의해 특징 코드를 생성하는 것을 더 포함할 수 있다. 일부 실시예에서, 방법은 각 웹 페이지에 대응하여, 문자열을 계산하고, 이를 해시 함수에 의한 해시 값으로 변환하는 것을 포함할 수 있다. 각 웹 페이지의 해시 값은 웹 페이지의 특징 코드로 사용된다.

예를 들면, 자바(JAVA) 프로그램에서, 문자열을 대응하는 해시 값으로 변환하는 해시 함수의 코드는 다음과 같다:

public int hashCode() {

int h = hash;

if(h == 0) {

int off = offset;

char val[] = value;

int len = count; for(int i = 0; i < len; i++) {

h = 31 * h + val[off++];

}

hash = h;

}

return h;

}

위의 예에서, 해시 함수는 문자열의 상위 비트에 31을 곱하고 하위 비트를 더하는 것을 포함한다. JAVA에서 int 유형의 값의 범위는 -2147483648 내지 2147483647이며, 이는 최대 40억의 범위를 커버한다. 따라서, 상이한 문자열이 동일한 해시 값으로 변환될 가능성은 매우 낮다. 달리 말하자면, 상이한 웹 페이지가 동일한 특징 코드를 가질 가능성이 극도로 낮다. 따라서, 웹 페이지의 추출된 특징 코드의 정확도가 높다.

방법은 웹 페이지의 특징 코드를 획득하면서 웹 페이지의 텍스트 구조를 고려하는 것을 포함할 수 있다. 예를 들면, 방법은 웹 페이지의 텍스트 내의 각 단락에 대하여 현재 단락의 사전 설정된 위치에서 제1 사전 설정된 수의 텍스트 문자 선택을 포함할 수 있다. 방법은 또한 모든 단락의 선택된 텍스트 특징을 문자열로 결합하고 문자열에 따라 특징 코드 생성을 포함할 수 있다. 마침표를 위치 지점으로 사용하는 기존의 특징 코드 추출 방법과 비교하여, 이 방법에서 얻어진 특징 코드의 정확성이 높다. 상이한 웹사이트는 전달된 정보를 포함하면서 상이한 캡션 및/또는 편집 정보를 부가할 수 있다. 상이한 웹 사이트는 또한 다양한 방식으로 정보를 삭제, 변경, 페이지(page), 또는 부가할 수 있다. 따라서, 동일한 유형의 웹 페이지에 대한 특징 코드의 정확성을 개선하기 위하여, 방법은 또한 각 웹 페이지의 특징 코드를 추출하면서 각 웹 페이지의 텍스트 내에 포함된 문자의 수를 추출하는 것을 포함할 수 있다.

특징 코드와 현재 웹 페이지의 텍스트 내에 포함된 문자의 수를 추출한 후에, 방법은 사전 설정된 데이터 표, 예를 들면, 해시 표를 검색하여 특징 코드가 거기에 포함되어 있는지 판단할 수 있다. 달리 말하자면, 방법은 해시 값이 해시 표에 포함되어 있는지 검색을 포함할 수 있다. 해시 값이 해시 표에 포함되어 있으면, 방법은 해시 값에 대응하는 해시 표 내의 웹 페이지의 텍스트 문자 수 판독, 및 현재 웹 페이지의 텍스트 문자 수와 비교를 포함할 수 있다. 두 수 사이의 차이가 사전 설정된 범위 이내, 예컨대 0 내지 50이면, 방법은 현재 웹 페이지를 중복 웹 페이지로 간주하고, 이를 폐기하는 것을 포함할 수 있다.

일부 실시예에서, 해시 표는 특징 코드를 조직화하기 위한 양호한 데이터 구조일 수 있으며, 키 코드 값, 또는 웹 페이지의 특징 코드를 표의 위치로 매핑함으로써 레코드가 검색될 수 있다. 이는 검색 속도를 가속할 수 있다. 해시 표는 효율적인 검색 성능(retrieval capacity)을 가질 수 있으며, 동적 데이터 저장 및 액세스를 지원할 수 있다.

예를 들면, 사전 설정된 범위는 0 내지 50으로 설정될 수 있다. 해시 표는 도 3에 나타난 웹 페이지에 대응하는 해시 값 및, 웹 페이지에 포함된 텍스트 문자의 수를 저장하고 있는 것으로 가정한다. 도 4에 나타난 웹 페이지의 특징 코드 및, 웹 페이지에 포함된 텍스트 문자의 수를 추출한 후에, 방법은 해시 표를 검색하고, 도 4에 나타난 웹 페이지의 특징 코드가 도 3에 나타난 웹 페이지의 것과 동일하다고 판단하는 것을 포함할 수 있다. 이 경우, 방법은 해시 표 내의 해시에 대응하는 웹 페이지의 텍스트 문자의 수 판독을 포함할 수 있다. 즉 도 3에 나타난 웹 페이지에 포함된 텍스트 문자의 수이다. 방법은 도 4에 나타난 웹 페이지의 텍스트 문자의 수와 도 3에 나타난 웹 페이지의 텍스트 문자의 수 사이의 차이 계산 및 차이가 18임을 획득을 더 포함할 수 있다. 두 웹 페이지의 텍스트 문자의 두 수 사이의 차이는 사전 설정된 범위 이내이다. 따라서, 방법은 도 4 및 3에 나타난 웹 페이지가 동일한 웹 페이지인 것으로 간주, 및 도 4에 나타난 웹 페이지의 폐기를 포함할 수 있다.

일부 실시예에서, 특징 코드가 데이터 표에 포함되어 있지 않으면 방법은 현재 웹 페이지의 추출된 특징 코드와 추출된 텍스트 문자 수 사이의 대응관계를 데이터 표 내로 기록을 더 포함할 수 있다.

일부 실시예에서, 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내가 아닐 때 방법은 현재 웹 페이지의 추출된 특징 코드와 추출된 텍스트 문자 수 사이의 대응관계를 데이터 표 내로 기록을 더 포함할 수 있다.

단지 특징 코드에 기반하는 기존의 중복 웹 페이지 제거 방법과 비교하여, 본 출원의 방법은 두 웹 페이지의 특징 코드를 비교할 뿐 아니라 두 웹 페이지의 텍스트 문자의 수 사이의 차이 비교를 포함할 수 있다. 따라서, 동일한 특징 코드를 갖지만 상이한 텍스트 문자 수를 갖는 웹 페이지에 대한 잘못된 결정의 비율을 효과적으로 낮출 수 있다. 또한, 본 출원의 방법은 종래 기술의 것과는 다른 특징 코드 추출 방법을 채택할 수 있다. 이는 동일한 특징 코드를 갖지만 텍스트 문자의 수가 약간 다른 웹 페이지에 대한 잘못된 결정의 비율을 효과적으로 낮출 수 있다. 따라서, 중복 웹 페이지 제거의 정확성이 개선된다.

예를 들면, 사전 설정된 범위는 0 내지 50으로 설정될 수 있다. 현재 웹 페이지의 텍스트 문자 수는 4900일 수 있다. 현재 웹 페이지에 대응하는 특징 코드가 해시 표 내에 존재할 수 있으며, 해시 표 내의 특징 코드에 대응하는 웹 페이지의 텍스트 문자 수가 5000일 수 있다. 이 경우, 방법은 현재 웹 페이지와 해시 표 내의 웹 페이지의 텍스트 문자 수 차이의 절대값이 100임을 얻는 것을 포함할 수 있다. 이러한 수 차이의 절대값은 사전 설정된 범위 이내가 아니다. 따라서, 방법은 현재 웹 페이지가 중복 웹 페이지가 아니라고 간주하는 것을 포함할 수 있다. 일부 실시예에서, 방법은 현재 웹 페이지의 추출된 특징 코드와 추출된 텍스트 문자 수 사이의 대응관계를 해시 표 내로 기록을 포함할 수 있다.

다른 예로서, 검색 엔진이 키워드에 연관된 10개의 웹 페이지를 얻을 수 있다. 그 중 3개의 웹 페이지는 동일한 내용을 가지고 있다. 방법은 이들 10개의 웹 페이지의 특징 코드 및 10개의 웹 페이지에 포함된 텍스트 문자 수를 각각 추출하는 것을 포함할 수 있다. 방법은 또한 해시 표에 따라 이들 10개의 웹 페이지 중 중복되는 웹 페이지의 제거를 포함할 수 있다. 방법은 중복 웹 페이지의 제거 과정에 해시 표의 설정(establishing)을 포함할 수 있다. 해시 표가 설정될 때, 대응하는 중복 웹 페이지의 제거가 완료된다. 이들 10개의 웹 페이지 중 동일한 웹 페이지는 제거될 것이다. 방법은 특징 코드에 따라 검색 시스템을 설정하고, 웹 페이지를 검색하여 검색 시스템(retrieval system)에 따라 중복 웹 페이지를 제거하는 것을 포함할 수 있다. 이러한 방법으로 중복 웹 페이지를 제거하는 것에 기반하여, 이는 중복 웹 페이지 제거의 효율성을 개선할 수 있다.

일 예에서 5만개의 웹 페이지가 획득되었을 수 있다. 위의 방법은 이들 5만개의 웹 페이지에 대해 중복 웹 페이지의 제거를 포함할 수 있다. 방법에 의한 중복 웹 페이지 제거의 정확성을 평가하는 하나의 접근법은 수동 무작위 샘플링(random sampling)을 포함할 수 있다. 예를 들면, 이러한 평가를 위하여 6명의 사람이 50개의 중복 웹 페이지를 무작위로 선택할 수 있다. 중복 웹 페이지 제거의 결과가 표 1에 나타나 있다.

사용자	1	2	3	4	5	6
웹 페이지 수	50	50	50	50	50	50
오류 수	2	1	4	1	1	1

표 1. 중복 웹 페이지 제거 결과.

표 1의 오류 수는 위의 방법에 의해 제거되지 않을 수 있는 동일한 웹 페이지의 수를 나타낼 수 있다. 약간의 계산에 의하면, 표 1에서 중복 웹 페이지 제거의 정확도는 96.7%이다.

단지 특징 코드에만 기반하는 기존의 방법이 동일한 50개의 웹 페이지에 대한 중복 웹 페이지 제거를 위해 적용되는 경우, 중복 웹 페이지 제거의 결과가 표 2에 나타나 있다.

사용자	1	2	3	4	5	6
웹 페이지 수	50	50	50	50	50	50
오류 수	4	2	6	2	3	2

표 2. 중복 웹 페이지 제거 결과.

약간의 계산에 의하면, 표 2에서 중복 웹 페이지 제거의 정확도는 90.37%이다. 표 1 및 2의 정확도 값을 비교하면, 위의 방법의 중복 웹 페이지 제거의 정확도가 특징 코드에만 기반하는 기존의 방법의 것에 비해 더 높다.

본 출원의 방법은 소정 유형의 복수의 웹 페이지 획득, 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지에 포함된 텍스트 문자의 수 추출, 및 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단을 포함할 수 있다. 특징 코드가 포함되어 있으면, 방법은 또한 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자 수 판독, 및 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내일 때 현재 웹 페이지 폐기를 포함할 수 있다. 방법 실시예는 웹 페이지의 특징 코드 및 웹 페이지 내에 포함된 텍스트 문자의 수에 따라 중복 웹 페이지를 제거할 수 있다. 이는 특징 코드에만 기반하여 중복 웹 페이지를 제거하는 기존의 방법과 비교하여 중복 웹 페이지 제거의 정확도를 크게 개선하고 잘못된 결정의 비율을 낮출 수 있다.

본 출원은 또한 위의 실시예를 구현하는 중복 웹 페이지 제거 장치를 제안한다.

도 4는 본 출원의 실시예에 따른, 중복 웹 페이지를 제거하는 예시적인 장치의 구조 개략도이다. 도 4에 나타난 바와 같이, 장치는 획득 모듈(100) 및 제1 처리 모듈(200)을 포함할 수 있다.

획득 모듈(100)은 소정 유형의 복수의 웹 페이지를 획득하도록 구성될 수 있다. 제1 처리 모듈(200)은 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지 내에 포함된 텍스트 문자의 수를 추출하도록 구성될 수 있다. 제1 처리 모듈(200)은 또한 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단하도록 구성될 수 있다. 특징 코드가 포함되어 있으면, 제1 처리 모듈(200)은 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자 수를 판독하고, 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내일 때 현재 웹 페이지를 폐기하도록 더 구성될 수 있다.

일부 실시예에서, 복수의 유형의 웹 페이지를 가질 수 있다. 획득 모듈(100)은 복수의 웹 페이지로부터 텍스트를 포함하는 웹 페이지와 같이, 소정 유형의 복수의 웹 페이지를 획득하도록 구성될 수 있다.

일부 실시예에서, 제1 처리 모듈(200)은 현재 웹 페이지의 텍스트 내에 포함된 단락을 획득하도록 구성될 수 있다. 제1 처리 모듈(200)은 또한 각 단락에 대하여 현재 단락의 사전 설정된 위치에서 제1 사전 설정된 수의 텍스트 문자를 선택하도록 구성될 수 있다. 제1 처리 모듈(200)은 단락들의 모든 선택된 텍스트 문자를 결합한 문자열에 대한 계산에 의하여 특징 코드를 생성하도록 더 구성될 수 있다.

일부 실시예에서, 제1 처리 모듈(200)은 각 웹 페이지에 대응하는 문자열을 해시 함수에 의해 해시 값으로 변환하고, 해시 값을 웹 페이지의 특징 코드로 사용하도록 구성될 수 있다.

일부 실시예에서, 제1 처리 모듈(200)은 현재 단락의 중앙 위치의 좌측 및 우측의 제2 사전 설정된 수의 텍스트 문자를 선택하도록 구성될 수 있다. 제2 사전 설정된 수는 제1 사전 설정된 수의 절반일 수 있으며, 제2 사전 설정된 수는 3 내지 8일 수 있다. 중복 웹 페이지 제거 성능을 개선하고 특징 코드의 저장 공간을 줄이기 위하여, 제1 처리 모듈(200)은 제2 사전 설정된 수를 5로 설정하도록 구성될 수 있다. 이에 따라 제1 사전 설정된 수는 10으로 설정될 수 있다.

일부 실시예에서, 웹 페이지의 특정 단락의 문자의 수가 제1 사전 설정된 수보다 적으면, 제1 처리 모듈(200)은 일정한 특정 문자로 특징 코드를 보충하도록 구성될 있다.

일부 실시예에서, 위의 데이터 표는 해시 표일 수 있다. 해시 표는 특징 코드를 조직화하기 위한 양호한 데이터 구조일 수 있으며, 키 코드 값, 또는 웹 페이지의 특징 코드를 표의 위치로 매핑함으로써 레코드(record)가 검색될 수 있다. 이는 검색 속도를 가속할 수 있다. 해시 표는 효율적인 검색 성능을 가질 수 있으며, 동적 데이터 저장 및 접근을 지원할 수 있다.

도 5에 나타난 바와 같이, 장치는 제2 처리 모듈(300)을 더 포함할 수 있다. 제2 처리 모듈(300)은 제1 처리 모듈(200)이 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단한 후 특징 코드가 데이터 표에 포함되어 있지 않으면 현재 웹 페이지의 추출된 특징 코드와 추출된 텍스트 문자 수 사이의 대응관계를 데이터 표 내로 기록하도록 구성될 수 있다.

일부 실시예에서, 장치는 제3 처리 모듈(400)을 더 포함할 수 있다. 제3 처리 모듈(400)은 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내가 아닐 때 현재 웹 페이지의 추출된 특징 코드와 추출된 텍스트 문자 수 사이의 대응관계를 데이터 표 내로 기록하도록 구성될 수 있다.

일부 실시예에서, 사전 설정된 데이터 표, 예를 들면, 해시 표로부터 판독된 텍스트 문자 수와 현재 웹 페이지의 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위보다 적을 수 있다. 예를 들면, 사전 설정된 범위가 0 내지 50으로 설정되고 두 웹 페이지 사이의 차이가 120일 수 있다. 제3 처리 모듈(400)은 현재 웹 페이지의 추출된 특징 코드와 추출된 텍스트 문자 수 사이의 대응관계를 데이터 표 내로 기록하도록 구성될 수 있다.

중복 웹 페이지 제거 장치는 소정 유형의 복수의 웹 페이지를 획득하도록 구성되는 획득 모듈을 포함할 수 있다. 장치는 각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 현재 웹 페이지 내에 포함된 텍스트 문자의 수를 추출하고, 사전 설정된 데이터 표를 검색하여 특징 코드가 포함되어 있는지 판단하도록 구성되는 제1 처리 모듈을 또한 포함할 수 있다. 특징 코드가 포함되어 있으면, 제1 처리 모듈은 특징 코드에 대응하는 데이터 표 내의 웹 페이지의 텍스트 문자의 수를 판독하고, 판독된 텍스트 문자 수와 추출된 텍스트 문자 수 사이의 차이가 사전 설정된 범위 이내일 때 현재 웹 페이지를 폐기하도록 구성될 수 있다. 장치 실시예는 웹 페이지의 특징 코드 및 웹 페이지에 포함된 텍스트 문자의 수에 따라 중복 웹 페이지를 제거할 수 있다. 이는 특징 코드에만 기반하여 중복 웹 페이지를 제거하는 기존의 방법과 비교하여 중복 웹 페이지 제거의 정확성을 크게 개선하며 잘못된 결정의 비율을 줄일 수 있다.

본 출원에서, 참조 용어 "일 실시예", "일부 실시예, "예", "특정한 예", "일부 예" 등은 그 실시예(들) 또는 그 예(들)에서 기술되는 특정한 특징, 구조, 재료 또는 특성이 본 출원의 적어도 하나의 실시예 또는 예에 포함되어 있다는 것을 의미한다. 상기 용어의 예시적인 표현이 동일한 실시예 또는 예에 적용되어야 하는 것은 아니다. 또한, 기술된 특정한 특징, 구조, 재료 또는 특성은 임의의 하나 이상의 실시예 또는 예에서 적절한 방식으로 결합될 수 있다. 또한, 모순이 없는 한, 이 분야의 기술자는 이 출원의 상이한 실시예 또는 예의 특징을 상이한 실시예 또는 예와 결합할 수 있다.

또한, 용어 "제1" 및 "제2"는 단지 설명의 목적을 위해서만 사용되며 상대적인 중요성을 지시하거나 암시하는 것으로 또는 지시된 기술적 특징의 수를 암시적으로 나타내는 것으로 해석되어서는 안 된다. 따라서, 용어 "제1" 및 "제2"에 의해 정의된 특징은 적어도 하나의 특징이 포함되어 있음을 명시적으로 또는 암시적으로 나타낼 수 있다. 본 출원에서, "복수의"의 의미는, 구체적으로 달리 정의하지 않는 한, 적어도 둘, 예컨대 둘, 셋 등이다.

흐름도 또는 다른 방식으로 기술된 임의의 과정 또는 방법은 특정한 논리 기능 또는 처리 단계를 구현하기 위한 하나 이상의 실행 가능한 명령을 포함하는 코드 모듈, 세그먼트 또는 부분을 나타내는 것으로 이해되어야 하며, 본 출원의 바람직한 실시예의 범위는 다른 구현을 포함할 수 있다. 기능은 예시된 또는 논의된 순서로 실행되지 않을 수 있으며, 실질적으로 동시인 순서 또는 반대의 순서를 포함한다. 이는 이 분야의 기술자에게 이해될 것이다.

흐름도 또는 다른 방식으로, 예를 들면, 논리 기능을 구현하는 실행 가능한 명령의 순차적 목록으로 기술되는 논리 및/또는 단계는, 명령 실행 시스템, 기구 또는 장치, 예컨대 컴퓨터 기반 시스템, 프로세서를 포함하는 시스템, 또는 명령 실행 시스템, 기구 또는 장치로부터 명령을 판독하여 이를 실행할 수 있는 다른 시스템에서 사용하거나 이와 함께 사용하기 위하여 임의의 컴퓨터 판독가능 매체에서 구현될 수 있다. 본 출원에서, "컴퓨터 판독가능 매체"는 명령 실행 시스템, 기구 또는 장치를 위해 또는 그와 함께 사용하기 위하여 프로그램을 포함, 저장, 통신, 전파 또는 전송하는 임의의 기구일 수 있다. 컴퓨터 판독가능 매체의 더 구체적인 예는 다음의 것을 포함하지만 이에 제한되지는 않는다: 하나 이상의 연결 배선을 갖는 전기적 커넥터(전자 기구), 휴대용 컴퓨터 디스크 드라이브(자기 기구), 임의 접근 메모리(RAM), 읽기 전용 메모리(ROM), 삭제가능 프로그램가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유 기구, 및 휴대용 컴팩트 디스크 읽기 전용 메모리(CDROM). 또한, 컴퓨터 판독가능 매체는 프로그램이 인쇄될 수 있는 종이 또는 다른 적합한 매체일 수도 있다. 프로그램은 종이 또는 다른 매체를 광학적으로 스캐닝하고 필요하다면 편집, 해석 또는 다른 처리를 수행하여 컴퓨터 메모리에 저장함으로써 전자 방식으로 획득될 수 있다.

본 출원에 기술된 각 요소는 하드웨어, 소프트웨어, 펌웨어 또는 그 조합으로 구현될 수 있다. 위의 구현에서, 복수의 단계 또는 방법이 메모리에 저장되고 적합한 명령 실행 시스템에 의해 실행되는 소프트웨어 또는 펌웨어로 구현될 수 있다. 예를 들면, 하드웨어 구현은 다른 실시예에서와 동일하며, 이 분야에서 공지된 이하의 기술 중 임의의 하나 또는 그 조합에 의해 구현될 수 있다: 데이터 신호에 대한 논리 기능을 구현하는 논리 게이트 회로를 갖는 이산 논리 회로, 적절한 결합 논리 게이트 회로를 갖는 전용 집적 회로, 프로그램가능 게이트 어레이(PGA), 필드 프로그램가능 게이트 어레이(FPGA) 등.

이 분야의 기술자는 위의 실시예 방법을 구현하는 모든 또는 일부 단계가 컴퓨터 판독가능 저장 매체 내에 저장될 수 있는 프로그램을 통해 연관된 하드웨어에 명령함에 의해 완료될 수 있음을 이해할 것이다. 실행될 때, 구현은 방법 실시예의 단계 중 하나 또는 다수의 단계의 조합을 포함할 수 있다.

또한, 본 출원의 각 실시예의 모든 기능적 유닛은 하나의 처리 모듈 내로 통합될 수 있거나, 각 유닛이 물리적으로 별도로 존재할 수 있다. 둘 이상의 유닛이 하나의 모듈로 통합될 수 있는 것 또한 가능하다. 위의 통합된 모듈은 하드웨어, 또는 소프트웨어 기능 모듈로 구현될 수 있다. 통합된 모듈은 또한 소프트웨어 기능 모듈로 구현될 때 컴퓨터 판독가능 매체에 저장될 수 있으며 별도의 제품으로 판매되거나 사용될 수 있다.

상기한 저장 매체는 읽기 전용 메모리, 자기 디스크, 광 디스크 등일 수 있다. 본 출원의 실시예가 위에서 예시되고 설명되었지만, 위의 실시예는 예시적이며 본 출원에 대한 제한으로 해석되지 않음을 이해하여야 한다. 이 분야의 기술자는 본 출원의 범위 내에서 위의 실시예를 변화, 수정, 대체 또는 변경할 수 있다.

Claims

복수의 소정 유형의 웹 페이지 획득;
현재 웹 페이지의 특징 코드 및 상기 현재 웹 페이지에 포함된 텍스트 문자의 수 추출;
데이터 표를 검색하여 상기 특징 코드가 상기 데이터 표에 포함되어 있는지 판단; 및
상기 특징 코드가 상기 데이터 표에 포함되어 있으면:
상기 특징 코드에 대응하는 상기 데이터 표 내의 참조되는 웹 페이지의 텍스트 문자 수 판독, 및 상기 판독된 텍스트 문자 수와 상기 추출된 텍스트 문자 수 사이의 차이가 일정 범위 이내일 때 상기 현재 웹 페이지 폐기를 포함하는 중복 웹 페이지 제거 방법.
제1항에 있어서,
상기 데이터 표를 검색하여 상기 특징 코드가 상기 데이터 표에 포함되어 있는지 판단한 후에 상기 특징 코드가 상기 데이터 표에 포함되어 있지 않으면 상기 현재 웹 페이지의 상기 추출된 특징 코드와 상기 추출된 텍스트 문자 수 사이의 대응관계를 상기 데이터 표 내로 기록을 더 포함하는 중복 웹 페이지 제거 방법.
제1항에 있어서,
상기 판독된 텍스트 문자 수와 상기 추출된 텍스트 문자 수 사이의 차이가 상기 일정 범위 이내에 있지 않을 때 상기 현재 웹 페이지의 상기 추출된 특징 코드와 상기 추출된 텍스트 문자 수 사이의 대응관계를 상기 데이터 표 내로 기록을 더 포함하는 중복 웹 페이지 제거 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 현재 웹 페이지의 특징 코드 추출은:
상기 현재 웹 페이지의 텍스트 내에 포함된 단락 획득;
각 단락에 대해 현재 단락의 위치에서 제1 수의 텍스트 문자 선택; 및
상기 단락들의 모든 선택된 텍스트 문자를 결합하는 문자열에 대한 계산에 의하여 상기 특징 코드 생성을 포함하는 중복 웹 페이지 제거 방법.
제4항에 있어서, 상기 현재 단락의 위치에서 제1 수의 텍스트 문자 선택은:
상기 현재 단락의 중심 위치의 좌측 및 우측에서 제2 수의 텍스트 문자 선택을 포함하며,
상기 제2 수는 상기 제1 수의 절반이고, 상기 제2 수는 3 내지 8인 중복 웹 페이지 제거 방법.
제5항에 있어서, 상기 제2 수는 5인 중복 웹 페이지 제거 방법.
복수의 소정 유형의 웹 페이지를 획득하도록 구성되는 획득 모듈; 및
각 웹 페이지에 대하여 현재 웹 페이지의 특징 코드 및 상기 현재 웹 페이지에 포함된 텍스트 문자의 수를 추출하고,
데이터 표를 검색하여 상기 특징 코드가 상기 데이터 표에 포함되어 있는지 판단하고; 및
상기 특징 코드가 상기 데이터 표에 포함되어 있으면, 상기 특징 코드에 대응하는 상기 데이터 표 내의 참조되는 웹 페이지의 텍스트 문자 수를 판독하고, 상기 판독된 텍스트 문자 수와 상기 추출된 텍스트 문자 수 사이의 차이가 일정 범위 이내일 때 상기 현재 웹 페이지를 폐기하도록 구성되는 제1 처리 모듈을 포함하는 중복 웹 페이지 제거 장치.
제7항에 있어서,
상기 데이터 표를 검색하여 상기 특징 코드가 상기 데이터 표에 포함되어 있는지 판단한 후에 상기 특징 코드가 상기 데이터 표에 포함되어 있지 않으면 상기 현재 웹 페이지의 상기 추출된 특징 코드와 상기 추출된 텍스트 문자 수 사이의 대응관계를 상기 데이터 표 내로 기록하도록 구성되는 제2 처리 모듈을 더 포함하는 중복 웹 페이지 제거 장치.
제7항에 있어서,
상기 판독된 텍스트 문자 수와 상기 추출된 텍스트 문자 수 사이의 차이가 상기 일정 범위 이내에 있지 않을 때 상기 현재 웹 페이지의 상기 추출된 특징 코드와 상기 추출된 텍스트 문자 수 사이의 대응관계를 상기 데이터 표 내로 기록하도록 구성되는 제3 처리 모듈을 더 포함하는 중복 웹 페이지 제거 장치.
제7항 내지 제9항 중 어느 한 항에 있어서, 상기 제1 처리 모듈은:
상기 현재 웹 페이지의 텍스트 내에 포함된 단락을 획득;
각 단락에 대해 현재 단락의 위치에서 제1 수의 텍스트 문자를 선택; 및
상기 단락들의 모든 선택된 텍스트 문자를 결합하는 문자열에 대한 계산에 의하여 상기 특징 코드를 생성하도록 구성되는 중복 웹 페이지 제거 장치.
제10항에 있어서, 상기 제1 처리 모듈은 상기 현재 단락의 중심 위치의 좌측 및 우측에서 제2 수의 텍스트 문자를 선택하도록 구성되며, 상기 제2 수는 상기 제1 수의 절반이고, 상기 제2 수는 3 내지 8인 중복 웹 페이지 제거 장치.
제11항에 있어서, 상기 제2 수는 5인 중복 웹 페이지 제거 장치.