KR101698280B1

KR101698280B1 - 태그에 대한 웹 페이지 검색 장치 및 방법

Info

Publication number: KR101698280B1
Application number: KR1020150173096A
Authority: KR
Inventors: 유명식; 정재인
Original assignee: 숭실대학교산학협력단
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2017-01-19

Abstract

태그에 대한 웹 페이지 검색 장치 및 방법이 개시된다. 개시된 웹 페이지 검색 장치는 검색하고자 하는 제1 태그와 관련된 다수의 웹 페이지를 수집하는 수집부; 상기 다수의 웹 페이지 별로, 텍스트 및 상기 웹 페이지에 포함된 적어도 하나의 제2 태그를 추출하는 제1 추출부; 상기 다수의 웹 페이지 별로, 상기 텍스트에서 적어도 하나의 키워드를 추출하는 제2 추출부; 상기 다수의 웹 페이지 별로, 상기 적어도 하나의 키워드와 상기 적어도 하나의 제2 태그에 대해, 키워드-태그 간의 단어 유사도를 각각 산출하고, 상기 단어 유사도를 이용하여 상기 다수의 웹 페이지 별로 태그-웹 페이지 관련도를 산출하는 산출부; 및 상기 태그-웹 페이지 관련도가 높은 순서대로 상기 다수의 웹 페이지를 출력하는 출력부;를 포함한다.

Description

태그에 대한 웹 페이지 검색 장치 및 방법{Apparatus and Method for searching web page for tags}

본 발명의 실시예들은 태그에 대한 정확한 정보를 포함하는 웹 페이지를 검색하는 장치 및 방법에 관한 것이다.

태그(tags) 검색은 기존 검색 방법과 SNS의 강점을 결합한 장점을 가지고 있으며, 정보 검색 중심의 검색에서 관심사 기반의 정보 검색을 통해 검색어에 대한 관심사와 경험을 공유한다는 측면에서 최근 이슈화 되고 있다.

태그 검색의 대표적인 예로 해시 태그(hash tags)가 있다. 해시 태그는 #(샤프 기호)와 특정 단어를 붙여 쓴 것으로, 작성자가 게시글을 작성한 후 # 뒤에 단어를 넣어 작성한 글의 주제를 표현한다. 해시 태그는 트위터, 페이스북 등의 SNS와 블로그 등에서 널리 사용되고 있으며, 소셜 미디어에서 특정 핵심어를 편리하게 검색할 수 있도록 하거나, 특정 주제에 대한 관심과 지지를 드러내는 방식이나 수단으로 사용되는 메타데이터의 한 형태이다.

태그 검색은 검색하고자 하는 태그(제1 태그)와 게시글 작성자가 작성한 태그(제2 태그)와의 일치성을 통해 검색 결과를 노출시키고 있다. 그러나, 많은 사람들이 자신이 작성한 게시글을 많이 노출시키기 위해 작성한 게시글과 관련이 없는 태그까지 작성하여 노출을 증가시키고 있다. 이는, 검색 결과 정확도의 하락을 의미하며, 이에 따라 태그 서비스 만족도가 하락하는 단점이 있다.

예를 들어, 게시글 작성자가 A에 대한 게시글을 작성한 후 A와 관련된 해시 태그를 작성하여야 하지만, 자신이 작성한 게시글의 조회수를 높이기 위해 A와 관련이 없는 해시 태그(일례로, 실시간 검색어, 이슈어 등)을 추가로 작성하여 두는 경우이다. 이 때, 게시글 작성자가 A 주제로 작성한 글에 대한 해시 태그를 A와, 관련성이 없는 B, C로 작성하였다고 가정하면 해시 태그 검색 시 B, C로 검색할 때 A에 대한 게시글도 검색되어 검색 결과의 정확도가 떨어지게 되는 단점이 있다.

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 태그에 대한 정확한 정보를 포함하는 웹 페이지를 검색하는 장치 및 방법을 제안하고자 한다.

본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 검색하고자 하는 제1 태그와 관련된 다수의 웹 페이지를 수집하는 수집부; 상기 다수의 웹 페이지 별로, 텍스트 및 상기 웹 페이지에 포함된 적어도 하나의 제2 태그를 추출하는 제1 추출부; 상기 다수의 웹 페이지 별로, 상기 텍스트에서 적어도 하나의 키워드를 추출하는 제2 추출부; 상기 다수의 웹 페이지 별로, 상기 적어도 하나의 키워드와 상기 적어도 하나의 제2 태그에 대해, 키워드-태그 간의 단어 유사도를 각각 산출하고, 상기 단어 유사도를 이용하여 상기 다수의 웹 페이지 별로 태그-웹 페이지 관련도를 산출하는 산출부; 및 상기 태그-웹 페이지 관련도가 높은 순서대로 상기 다수의 웹 페이지를 출력하는 출력부;를 포함하는 것을 특징으로 하는 웹 사이트 검색 장치가 제공된다.

상기 다수의 웹 페이지 중 i번째 웹 페이지의 경우, 상기 적어도 하나의 제2 태그는 a개이고, 상기 적어도 하나의 키워드는 b개이며, 상기 산출부는 상기 i번째 웹 페이지에 대해 a×b개의 단어 유사도를 산출할 수 있다.

상기 i번째 웹 페이지에 대한 태그-웹 페이지 관련도는 상기 a×b개의 단어 유사도의 평균과 대응될 수 있다.

상기 수집부는 크롤러를 이용하여 상기 다수의 웹 페이지를 수집하고, 상기 제2 추출부는 상기 텍스트 내의 단어의 빈도수를 체크에 기반하여 상기 키워드를 추출하고, 상기 산출부는 Levenshtein Distance 알고리즘을 이용하여 상기 단어 유사도를 산출할 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 검색하고자 하는 제1 태그와 관련된 다수의 웹 페이지를 수집하는 수집부; 상기 다수의 웹 페이지 별로, 텍스트 및 상기 웹 페이지에 포함된 적어도 하나의 제2 태그를 추출하는 제1 추출부; 상기 다수의 웹 페이지 별로, 상기 텍스트에서 적어도 하나의 키워드를 추출하는 제2 추출부; 상기 다수의 웹 페이지 별로, 상기 적어도 하나의 키워드와 상기 적어도 하나의 제2 태그에 대해, 키워드-태그 간의 단어 유사도를 각각 산출하고, 상기 단어 유사도를 이용하여 상기 다수의 웹 페이지 별로 태그-웹 페이지 관련도를 산출하는 산출부; 및 상기 다수의 웹 페이지 중 태그-웹 페이지 관련도가 높은 상위 n개의 웹 페이지를 출력하는 출력부;를 포함하는 것을 특징으로 하는 웹 사이트 검색 장치가 제공된다.

또한, 본 발명의 또 다른 실시예에 따르면, 검색하고자 하는 제1 태그와 관련된 다수의 웹 페이지를 수집하는 단계; 상기 다수의 웹 페이지 별로, 텍스트 및 상기 웹 페이지에 포함된 적어도 하나의 제2 태그를 추출하는 단계; 상기 다수의 웹 페이지 별로, 상기 텍스트에서 적어도 하나의 키워드를 추출하는 단계; 상기 다수의 웹 페이지 별로, 상기 적어도 하나의 키워드와 상기 적어도 하나의 제2 태그에 대해, 키워드-태그 간의 단어 유사도를 각각 산출하는 단계; 상기 단어 유사도를 이용하여 상기 다수의 웹 페이지 별로 태그-웹 페이지 관련도를 산출하는 단계; 및 상기 태그-웹 페이지 관련도가 높은 순서대로 상기 다수의 웹 페이지를 출력하는 단계;를 포함하는 것을 특징으로 하는 웹 사이트 검색 방법이 제공된다.

본 발명에 따른 태그에 대한 웹 페이지 검색 장치 및 방법은 태그에 대한 정확한 정보를 포함하는 웹 페이지를 검색하는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 태그에 대한 웹 사이트 검색 장치의 개략적인 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 웹 사이트 검색 방법의 흐름도를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 산출부의 동작의 개념을 설명하기 위한 도면이다.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

"제1", "제2" 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다. "및/또는" 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

이하, 본 발명의 다양한 실시예들을 첨부된 도면을 참조하여 상술한다.

도 1은 본 발명의 일 실시예에 따른 태그에 대한 웹 사이트 검색 장치의 개략적인 구성을 도시한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 웹 사이트 검색 장치(100)는 수집부(110), 제1 추출부(120), 저장부(130), 제2 추출부(140), 산출부(150) 및 출력부(160)를 포함한다.

그리고, 도 2는 본 발명의 일 실시예에 따른 웹 사이트 검색 방법의 흐름도를 도시한 도면이다.

여기서, 설명의 편의를 위해, 태그를 "해시 태그"로 가정하여 설명하기로 한다. 그러나, 본 발명이 이에 한정되는 것은 아니다.

이하, 도 1 및 도 2를 참조하여, 각 구성 요소 별 기능 및 각 단계 별로 수행되는 과정을 설명하기로 한다.

먼저, 단계(210)에서, 수집부(110)는 검색하고자 하는 해시 태그인 제1 해시 태그와 관련된 다수의 웹 페이지를 수집한다.

본 발명의 일 실시예에 따르면, 수집부(110)는 크롤러를 이용하여 다수의 웹 페이지를 자동으로 수집할 수 있다. 이 때, 크롤러는 트래킹(대상지정 크롤링) 모드 사용을 통해 특정 도메인의 서브 도메인 관련 페이지만 수집하여 배너 광고 등의 수집을 막는다.

다음으로, 단계(220)에서, 제1 추출부(120)는 다수의 웹 페이지 별로, 텍스트 및 웹 페이지에 포함된 적어도 하나의 해시 태그, 즉 제2 해시 태그를 추출한다. 텍스트 및 제2 해시 태그는 저장부(130)에 저장될 수 있다.

계속하여, 단계(230)에서, 제2 추출부(140)는 다수의 웹 페이지 별로, 텍스트에서 적어도 하나의 키워드를 추출한다.

이 때, 제2 추출부(140)는 텍스트를 형태소 단위로 분할하여 어미와 조사 등의 불용어를 제거하고 난 후, 단어의 출현 빈도 파악을 통해 키워드를 추출하게 된다.

본 발명의 일 실시예에 따르면, 제2 추출부(140)는 페이지 내 텍스트 분석을 통한 단어의 빈도수를 체크를 통해 키워드를 추출할 수 있다.

즉, 제2 추출부(140)는 텍스트를 형태소 분할하여 어간, 어미 등을 제거한다. 그 후, 형태소 분할 완료 후 단어 출현 빈도수 체크하여 빈도가 높은 순서로 키워드로 선정한다. 만약, 빈도수가 동일한 경우, 텍스트의 제목에 키워드단어 존재 시 해당 키워드에 가중치 및 텍스트 내의 특수처리(굵게, 밑줄, 색상처리 등) 된 단어가 키워드로 선정 시 가중치를 참고하여 키워드를 추출한다.

이 후, 단계(240)에서, 산출부(150)는 다수의 웹 페이지 별로, 적어도 하나의 키워드와 적어도 하나의 제2 태그에 대해, 키워드-태그 간의 단어 유사도를 각각 산출한다.

이 때, 다수의 웹 페이지 중 i번째 웹 페이지의 경우, 적어도 하나의 제2 태그는 a개이고, 적어도 하나의 키워드는 b개이며, 산출부(150)는 i번째 웹 페이지에 대해 a×b개의 단어 유사도를 산출할 수 있다.

도 3은 본 발명의 일 실시예에 따른 산출부(150)의 동작의 개념을 설명하기 위한 도면이다.

도 3을 참조하면, 하나의 웹 페이지의 텍스트에서 3개의 키워드가 추출되었고, 4개의 해시 태그(제2 해시 태그)가 상기 웹 페이지에 포함되어 있는 경우, 산출부(150)는 3×4=12개의 단어 유사도를 산출할 수 있다.

본 발명의 일 실시예에 따르면, 산출부(150)는 Levenshtein Distance 알고리즘을 이용하여 단어 유사도를 산출할 수 있다. Levenshtein Distance 알고리즘은 당업자에게 자명한 사항이므로, 보다 상세한 설명은 생각하기로 한다.

다음으로, 단계(250)에서, 산출부(150)는 다수의 웹 페이지 별로, 상기에서 추출된 단어 유사도를 이용하여 다수의 웹 페이지 별로 태그-웹 페이지 관련도를 산출한다.

본 발명의 일 실시예에 따르면, i번째 웹 페이지에 대한 태그-웹 페이지 관련도는 a×b개의 단어 유사도의 평균과 대응될 수 있다. 예를 들어, 하나의 웹 페이지에서 4개의 단어 유사도가 산출되는 경우, 상기 하나의 웹 페이지에 대한 태그-웹 페이지 관련도는 4개의 단어 유사도의 평균과 같다.

계속하여, 단계(260)에서, 출력부(160)는 태그-웹 페이지 관련도를 이용하여 다수의 웹 페이지 중 적어도 하나의 웹 페이지를 출력한다.

본 발명의 일 실시예에 따르면, 출력부(160)는 태그-웹 페이지 관련도가 높은 순서대로 다수의 웹 페이지를 출력할 수 있다. 이에 따라, 사용자는 제1 해시 태그가 정확도가 높은 순서로 웹 페이지를 열람할 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 출력부(160)는 다수의 웹 페이지 중 태그-웹 페이지 관련도가 높은 상위 n개의 웹 페이지를 출력할 수 있다. 이에 따라, 사용자는 제1 해시 태그가 정확도가 높은 웹 페이지만을 열람하여 검색의 효율을 높일 수 있게 된다.

정리하면, 본 발명의 일 실시예에 따른 웹 사이트 검색 장치(100) 및 방법은 검색어와 해시 태그의 일치성을 통해 검색하는 기존 방식과 달리, 작성한 게시글에서 키워드를 추출한 후, 게시글 작성자가 작성한 해시 태그(제2 해시 태그)와의 유사도를 계산하고, 검색된 모든 웹 페이지에 대한 유사도를 계산하고, 계산된 값을 내림차순 정렬하여 검색 결과를 재정렬한다. 이에 따라, 종래의 검색 결과보다 높은 정확도의 웹 페이지를 우선적으로 보여주게 되어 검색의 효율을 높인다.

또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

검색하고자 하는 제1 태그와 관련된 다수의 웹 페이지를 수집하는 수집부 - 상기 웹 페이지는 텍스트 및 적어도 하나의 제2 태그를 포함함 -;
상기 다수의 웹 페이지 별로, 상기 텍스트 및 상기 적어도 하나의 제2 태그를 추출하는 제1 추출부;
상기 다수의 웹 페이지 별로, 상기 텍스트로부터 적어도 하나의 키워드를 추출하는 제2 추출부;
상기 다수의 웹 페이지 별로, 상기 적어도 하나의 키워드와 상기 적어도 하나의 제2 태그에 대해 키워드-태그 간의 단어 유사도를 각각 산출하고, 상기 단어 유사도를 이용하여 상기 다수의 웹 페이지 별 태그-웹 페이지 관련도를 산출하는 산출부; 및
상기 태그-웹 페이지 관련도가 높은 순서대로 상기 다수의 웹 페이지를 출력하는 출력부;를 포함하는 것을 특징으로 하는 웹 사이트 검색 장치.
제1항에 있어서,
상기 다수의 웹 페이지 중 i번째 웹 페이지의 경우, 상기 적어도 하나의 제2 태그는 a개이고, 상기 적어도 하나의 키워드는 b개이며, 상기 산출부는 상기 i번째 웹 페이지에 대해 a×b개의 단어 유사도를 산출하는 것을 특징으로 하는 웹 사이트 검색 장치.
제2항에 있어서,
상기 i번째 웹 페이지에 대한 태그-웹 페이지 관련도는 상기 a×b개의 단어 유사도의 평균과 대응되는 것을 특징으로 하는 웹 사이트 검색 장치.
제1항에 있어서,
상기 수집부는 크롤러를 이용하여 상기 다수의 웹 페이지를 수집하고,
상기 제2 추출부는 상기 텍스트 내의 단어의 빈도수 체크에 기반하여 상기 키워드를 추출하고,
상기 산출부는 Levenshtein Distance 알고리즘을 이용하여 상기 단어 유사도를 산출하는 것을 특징으로 하는 웹 사이트 검색 장치.
검색하고자 하는 제1 태그와 관련된 다수의 웹 페이지를 수집하는 수집부 - 상기 웹 페이지는 텍스트 및 적어도 하나의 제2 태그를 포함함 -;
상기 다수의 웹 페이지 별로, 상기 텍스트 및 상기 적어도 하나의 제2 태그를 추출하는 제1 추출부;
상기 다수의 웹 페이지 별로, 상기 텍스트로부터 적어도 하나의 키워드를 추출하는 제2 추출부;
상기 다수의 웹 페이지 별로, 상기 적어도 하나의 키워드와 상기 적어도 하나의 제2 태그에 대해 키워드-태그 간의 단어 유사도를 각각 산출하고, 상기 단어 유사도를 이용하여 상기 다수의 웹 페이지 별 태그-웹 페이지 관련도를 산출하는 산출부; 및
상기 다수의 웹 페이지 중 태그-웹 페이지 관련도가 높은 상위 n개의 웹 페이지를 출력하는 출력부;를 포함하는 것을 특징으로 하는 웹 사이트 검색 장치.
검색하고자 하는 제1 태그와 관련된 다수의 웹 페이지를 수집하는 단계 - 상기 웹 페이지는 텍스트 및 적어도 하나의 제2 태그를 포함함 -;
상기 다수의 웹 페이지 별로, 상기 텍스트 및 상기 적어도 하나의 제2 태그를 추출하는 단계;
상기 다수의 웹 페이지 별로, 상기 텍스트로부터 적어도 하나의 키워드를 추출하는 단계;
상기 다수의 웹 페이지 별로, 상기 적어도 하나의 키워드와 상기 적어도 하나의 제2 태그에 대해 키워드-태그 간의 단어 유사도를 각각 산출하는 단계;
상기 단어 유사도를 이용하여 상기 다수의 웹 페이지 별 태그-웹 페이지 관련도를 산출하는 단계; 및
상기 태그-웹 페이지 관련도가 높은 순서대로 상기 다수의 웹 페이지를 출력하는 단계;를 포함하는 것을 특징으로 하는 웹 사이트 검색 방법.