KR100974064B1

KR100974064B1 - 사용자 맞춤형 정보 제공 시스템 및 그 방법

Info

Publication number: KR100974064B1
Application number: KR1020080016348A
Authority: KR
Inventors: 안태성; 이경일
Original assignee: 주식회사 솔트룩스
Priority date: 2008-02-22
Filing date: 2008-02-22
Publication date: 2010-08-04
Also published as: KR20090090840A

Abstract

사용자에게 맞는 인터넷 정보를 검색하여 제공하는 사용자 맞춤형 정보 제공 시스템 및 그 방법을 개시한다. 본 발명에 따른 사용자 맞춤형 정보 제공 시스템은 네트워크와 연결되며, 주저장부 및 로그 저장부를 포함하는 저장부와 제어부를 포함하며, 제어부는 네트워크를 통하여 인터넷 문서 및 인터넷 문서와 연결된 주변 정보를 수집하여 인터넷 문서별로 인터넷 문서 구조체를 생성하는 수집부, 인터넷 문서 구조체를 텍스트마이닝으로 분석하여 특성단어벡터를 포함하는 분석정보를 생성하는 분석부, 사용자 로그정보를 포함하는 사용자 정보로부터 생성되는 키워드단어벡터를 생성하는 개인화처리부, 키워드단어벡터와 특성단어벡터를 비교하여 키워드단어벡터에 관련되는 인터넷 문서 구조체를 검색하는 검색부 및 검색된 인터넷 문서 구조체를 네트워크와 연결되는 사용자 장치에 맞도록 가공하여 사용자 장치에 제공하는 제공부를 포함한다.

텍스트 마이닝, 사용자 맞춤, 특성단어벡터, 사용자 로그

Description

사용자 맞춤형 정보 제공 시스템 및 그 방법{System for providing information adapted to users and method thereof}

본 발명은 인터넷 정보를 검색하여 제공하는 정보 제공 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 인터넷 정보 중 사용자에 따른 관심 정보를 제공하는 정보 시스템 및 그 방법에 관한 것이다.

인터넷 상의 정보를 담고 있는 문서(이하 인터넷 문서)는 기하급수적으로 늘고 있다. 그러나 이러한 인터넷 문서는 유용한 정보와 또한 그렇지 않은 정보가 매우 다양한 형태로 혼재되어 있다. 특히 많은 사용자가 원하는 정보가 특히 많은 양을 차지하며, 쉽게 찾아볼 수 있으므로, 특정 사용자가 원하는 정보를 쉽고 빠르게 찾는 것은 매우 어렵다.

정보검색을 위해 초창기에는 야후(YAHOO)에서와 같이 분류전문가에 의해 분류된 디렉토리 형태로 사이트들을 분류하고 이를 사용자가 네비게이션 형태로 원하는 정보를 찾아가는 방식이 등장하였다. 하지만 인터넷 문서의 양이 폭발적으로 증가하면서, 모든 정보를 이러한 분류체계에 나누는 것은 매우 어렵고 비용이 많이 들게 되었다. 이에 따라 키워드를 입력하여 해당 키워드가 존재하는 인터넷 문서를 찾아주는 검색엔진을 기반으로 한 다양한 종류의 검색 서비스들이 등장하게 되었다.

하지만 검색 서비스는 불특정 다수를 대상으로 일원화된 정보를 제공하므로 특정 사용자가 원하는 정보를 찾는 것은 매우 어려운 문제이다. 특히 특정 사용자가 원하는 정보를 찾기 위한 검색 키워드를 선택하는 것도 쉬운 일이 아니다. 따라서 검색을 여러 번 시도하여야 원하는 정보를 찾을 수 있거나, 불필요한 정보에 묻혀서 원하는 정보를 찾지 못하는 일도 많이 발생하고 있다.

또한 최근에는 단순한 인터넷 문서뿐만 아니라, 해당 정보를 읽고 의견을 남기는 댓글(덧글(comment) 또는 답글(reply))도 많이 사용이 되고 있다. 이러한 댓글이 활성화되면서 인터넷 문서 작성자와 댓글 작성자 사이의 의견 교환을 하는 것 외에도, 다른 사람이 남긴 댓글에서도 유용한 정보를 얻을 수 있는 경우가 많아지고 있다.

또한 최근 급속히 증가하고 있는 블로그(blog)에는 댓글 외에도 트랙백(trackback)이 널리 사용되고 있다. 이러한 댓글, 트랙백 등과 같은 주변 정보들은 직접 해당 인터넷 문서에 접근을 해야만 확인을 할 수 있으며 검색을 통해서는 찾아보기 힘들다는 문제점을 가지고 있다. 특히 특정 사용자에게 인터넷 문서를 제공하는 경우에는 이러한 주변 정보들은 함께 제공되지 못하고 있다. 또한 이러한 블로그는 블로그와 관련된 검색 서비스 또는 해당 블로그 서비스 내에서를 제외하면 체계적인 검색 또는 정보의 제공이 어려운 문제점을 가지고 있다.

본 발명이 해결하고자 하는 기술적 과제는 상기 문제점을 해결하기 위하여 특정 사용자가 원하는 인터넷 문서를 맞춤형으로 제공하는 사용자 맞춤형 정보 제공 시스템을 제공하는 데에 있다.

또한 본 발명이 해결하고자 하는 다른 기술적 과제는 상기 문제점을 해결하기 위하여 특정 사용자가 원하는 인터넷 문서를 맞춤형으로 제공할 수 있는 사용자 맞춤형 정보 제공 방법을 제공하는 데에 있다.

상기 기술적 과제를 해결하기 위하여 본 발명은 다음과 같은 사용자 맞춤형 정보 제공 시스템을 제공한다.

본 발명에 의한 사용자 맞춤형 정보 시스템은 네트워크와 연결되며, 주저장부 및 로그 저장부를 포함하는 저장부와 제어부를 포함하여 이루어지며, 상기 제어부는, 상기 네트워크를 통하여 인터넷 문서 및 상기 인터넷 문서와 연결된 주변 정보를 수집하여 상기 인터넷 문서별로 인터넷 문서 구조체를 생성하는 수집부, 상기 인터넷 문서 구조체를 텍스트마이닝으로 분석하여 특성단어벡터를 포함하는 분석정보를 생성하는 분석부, 사용자 로그정보를 포함하는 사용자 정보로부터 생성되는 키워드단어벡터를 생성하는 개인화처리부, 상기 키워드단어벡터와 상기 특성단어벡터를 비교하여 상기 키워드단어벡터에 관련되는 인터넷 문서 구조체를 검색하는 검색부 및 상기 검색된 인터넷 문서 구조체를 상기 네트워크와 연결되는 사용자 장 치에 맞도록 가공하여 상기 사용자 장치에 제공하는 제공부를 포함한다.

상기 자동분류모듈은 정확도를 높이고 시스템에 대한 부담을 줄이기 위하여 상기 분류목록의 최상위 카테고리에 따라 자동 분류하는 것이 바람직하다.

상기 사용자 정보는 검색 정확도를 높이기 위하여 사용자의 로그정보 및 동일 카테고리에 대한 관심사용자의 로그정보를 더 포함할 수 있다.

시간에 맞는 검색 결과를 제공하기 위하여 상기 제어부는 상기 특성단어벡터로부터 관련 특성단어를 추출하는 관련 특성단어 추출부를 더 포함하고, 상기 개인화처리부는 상기 사용자 정보에 상기 관련 특성단어를 반영하여 상기 키워드단어벡터를 생성하는 것이 더욱 바람직하다.

상기 다른 기술적 과제를 해결하기 위하여 본 발명은 다음과 같은 사용자 맞춤형 정보 제공 방법을 제공한다.

본 발명에 의한 사용자 맞춤형 정보 제공 방법은 네트워크를 통하여 인터넷 문서 및 상기 인터넷 문서와 연결된 주변 정보를 수집하여 인터넷 문서 구조체를 생성한 후 상기 인터넷 문서 구조체를 텍스트마이닝으로 분석하여 특성단어벡터를 생성하고, 사용자 로그정보를 포함하는 사용자 정보로부터 키워드단어벡터를 생성하며, 상기 키워드단어벡터와 상기 특성단어벡터를 비교하여 사용자에 맞는 정보를 제공한다.

상기 특성단어벡터로부터 관련 특성단어를 추출하고, 상기 관련 특성단어를 반영하여 상기 키워드단어벡터를 생성하는 것이 더욱 바람직하다.

본 발명에 따른 사용자 맞춤형 정보 제공 시스템 및 그 방법은 사용자가 미리 선택해놓은 관심 카테고리, 사용자가 관심을 가진 정보 또는 사용자가 입력한 키워드에 맞춰 인터넷 문서를 사용자에 따라 맞춤형으로 제공할 수 있다. 이때 특정 사용자뿐만 아니라 특정 사용자와 관심 분야가 비슷한 다수의 사용자의 관심 정보를 함께 반영하여, 검색 키워드를 사용하지 않거나, 최소한의 키워드를 사용하여도 사용자가 원하는 정보를 정확하게 검색하여 제공할 수 있다. 또한 언어의 종류와 상관없이 번역된 정보를 제공할 수 있으므로 사용자가 해당 정보를 손쉽게 이용할 수 있다.

특히 시점에 따른 정보들의 관련성을 함께 반영하여, 사용자가 원하는 시점 즉 현재 시점 또는 과거의 특정 시점의 정보들을 정확하게 검색하여 제공할 수 있다. 이를 통하여 불필요한 정보가 제거되어 사용자가 원하는 정확한 정보를 검색하여 제공할 수 있다.

이하에서는 바람직한 실시 예를 통해 당업자가 본 발명을 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다. 그러나 다음에 예시하는 본 발명의 실시 예는 동일한 발명의 범위 내에서 여러 가지 다른 형태로 변형될 수 있으며 본 발명의 범위가 다음에 상술하는 실시 예 및 첨부 도면에 도시된 바에 한정되는 것은 아니다. 이하의 설명에서 어떤 구성 요소가 다른 구성 요소의 연결된다고 기술될 때, 이는 다른 구성 요소의 바로 연결될 수도 있고, 그 사이에 제3의 구성 요소가 개재될 수도 있다. 또한, 도면에서 각 구성 요소의 모양이나 크기는 설명의 편의 및 명확성을 위하여 과장되었고, 설명과 관계없는 부분은 생략되었다. 도면상에서 동일 부호는 동일한 요소를 지칭한다. 한편, 사용되는 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다.

도 1은 본 발명의 실시 예에 따른 사용자 맞춤형 정보 제공 시스템의 구성을 나타내는 개략도이다.

도 1을 참조하면, 사용자 맞춤형 정보 시스템(1)은 네크워크(300)를 통하여 연결되며 크게 제어부(1000)와 저장부(2000)로 구성되어 있다. 제어부(1000)는 수집부(1100), 분석부(1200), 조합부(1300), 색인부(1400), 관련 특성 단어 추출부(1500), 검색부(1600), 개인화 처리부(1700), 제공부(1800) 등을 포함할 수 있다. 저장부(200)는 주 저장부(2100), 색인 저장부(2200), 관련 특성 단어 저장부(2300), 로그 저장부(2400) 등을 포함할 수 있다. 제어부(1000)는 네트워크(300)를 통하여 인터넷 문서(100) 또는 외부 사용자 장치(200)와 연결되어 정보를 수집하고 제공하도록 구성되어 있다.

수집부(1100)는 네트워크(300)를 통하여 인터넷 문서(100)들을 수집하여 번역하여 각각의 인터넷 문서(100)별로 인터넷 문서 구조체를 생성한다. 수집부(1100)의 자세한 기능과 구성은 후술하도록 한다. 인터넷 문서(100)는 인터넷 상에 텍스트를 포함하는 정보를 담고 있는 각종 웹페이지(web page) 등을 포괄하여 통칭하는 의미이다. 구체적으로 살펴보면 인터넷 문서(100)에는 예를 들면, 통상적인 웹페이지(110), 블로그(120), 뉴스 기사(130) 등이 포함된다. 이 외에는 텍스 트(text)를 포함하는 정보를 담고 있는 것은 모두 해당될 수 있다. 예를 들면 특정 커뮤니티(community, 예를 들면 카페, 클럽, 동호회 등의 이름으로 불리운다)의 각종 게시물, 각종 회사 또는 개인의 웹 사이트(web site)에 포함된 웹 페이지, 언론사 또는 포털 사이트(portal site) 등에 기재된 뉴스 기사, 각종 블로그(blog)에 게시된 포스트(post) 등이 인터넷 문서(100)에 포함될 수 있다. 또한 인터넷 문서(100)는 텍스트 정보 뿐만 아니라, 그림, 동영상, 음악 등 각종 멀티미디어 데이터(multimedia data)를 포함할 수 있음은 물론이다. 특히, 주로 멀티미디어 데이터로 구성되는 인터넷 문서(100)의 경우에도 제목 등 텍스트로 이루어진 정보를 포함할 수 있다.

분석부(1200)는 수집된 인터넷 문서(100), 구체적으로는 수집부(1100)에서 생성한 인터넷 문서 구조체들을 분석하여 특성단어벡터 등을 포함하는 분석정보들을 각각 생성한다. 조합부(1300)는 인터넷 문서 구조체 및 각 인터넷 문서 구조체에 해당하는 분석정보 등을 포함하는 조합 정보를 각 인터넷 문서 구조체별로 생성한다. 색인부(1400)는 조합 정보를 색인(index)하여 특성단어벡터를 포함하는 색인 정보를 생성한다. 수집된 인터넷 문서(100), 인터넷 문서 구조체, 분석 정보, 조합 정보 및 색인 정보는 주 저장부(2100)에 저장될 수 있으며, 분석부(1200), 조합부(1300) 또는 색인부(1400)는 각각 수집부(1100), 분석부(1200) 또는 조합부(1300)로부터 정보를 받거나, 주 저장부(2100)에 저장된 정보를 사용할 수 있다. 분석부(1200), 조합부(1300) 및 색인부(1400)의 자세한 기능과 구성은 후술하도록 한다.

특성단어벡터는 인터넷 문서(100), 구체적으로는 개별 인터넷 문서 구조체별로 생성되어, 개별 인터넷 문서(100)가 담고 있는 정보의 특성을 단어 벡터(vector)의 형식으로 나타낸다. 단어 벡터는 개별 인터넷 문서(100)의 특성을 나타내는 특성단어 및 각 특성단어의 가중치를 포함하고 있다. 가중치는 각 특성단어의 단어빈도(TF, Term Frequency) 및 각 특성단어가 인터넷 문서 집합에서 나타나는 빈도의 역인 역문서빈도(IDF, Inverse Document Frequency) 등을 이용하여 구한다. 단어빈도는 개별 인터넷 문서에 특정 특성단어의 출현횟수로써 특정 특성단어가 인터넷 문서의 내용을 얼마나 대표하는가에 대한 척도이다. 또한 역문서빈도는 인터넷 문서 집합에서 특정 특성단어가 출연하는 인터넷 문서 수의 비율의 역으로, 적은 인터넷 문서에서 나타나는 특성단어는 그 특성단어가 나타나는 인터넷 문서를 다른 인터넷 문서들과 구별할 수 있는 능력이 크게 된다.

관련 특성단어 추출부(1500)는 특성단어벡터들을 분석하여 관련 특성단어를 생성한다. 관련 특성단어 또한 단어벡터의 형식으로 나타낼 수도 있다. 관련 특성단관련이 있는 특성단어들 및 가중치를 포함하고 있다. 예를 들면, A라는 단어와 B라는 단어가 하나의 인터넷 문서에서 함께 나타나는 경우가 자주 있을 경우에, A와 B는 관련성을 가지고 있다고 볼 수 있다. 이를 통하여 관련성이 있는 특성 단어들을 관련 특성단어로 생성한다. 그러나 이러한 특성 단어들의 관련성은 시간 의존성을 가지고 있다. 따라서 관련 특성단어는 시간이 지나면서 계속 누적되는 특성단어벡터들을 분석하여 시간에 맞는 관련성이 있는 특성단어들 및 가중치를 포함하도록 할 수 있다.

검색부(1600)는 개인화처리부(1700)에서 생성된 키워드단어벡터와 특성단어벡터를 비교하여 사용자에 맞는 인터넷 문서, 구체적으로는 인터넷 문서 구조체를 검색한다. 검색부(1600)에서는 단어벡터인 키워드단어벡터와 특성단어벡터의 거리를 구하여 해당 키워드단어벡터에 가까운 특성단어벡터를 가지는 인터넷 문서들을 검색하게 된다. 개인화처리부(1700)는 사용자의 로그정보를 포함하는 사용자 정보로부터 키워드단어벡터를 생성한다. 이때 관련 특성단어를 함께 적용하면 시간에 맞는 키워드단어벡터를 생성할 수 있다. 검색부(1600)와 개인화처리부(1700)의 자세한 기능 및 구성은 후술하도록 한다.

제공부(1800)는 검색부(1600)에서 얻어진 검색 결과, 즉 키워드단어벡터에 가까운 특성단어벡터를 가지는 인터넷 문서들을 외부 사용자 장치(200)에 제공한다. 편의상, 외부 사용자 장치(200)는 특정한 정보들에 관심을 가지는 하나의 사용자가 사용하는 장치인 사용자 장치(210)와 상기 하나의 사용자와 유사한 관심도를 가지는 사용자(또는 사용자들)이 사용하는 장치인 관심 사용자 장치(220)로 구분한다. 관심 사용자 장치(220)는 특정한 사용자들이 사용하는 장치가 아니라 다양한 사용자들이 사용하는 사용자 장치(200)들 중에서 관심 분야에 공통점이 있는 사용자들이 사용하는 장치를 개념적으로 나타낸다.

저장부(2000)는 주 저장부(2100) 외에도 색인정보를 저장하는 색인 저장부(2200), 관련 특성단어를 저장하는 관련 특성단어 저장부(2300), 사용자들의 로그정보를 포함하는 사용자 정보를 저장하는 로그 저장부(2400)를 포함한다. 이들 주 저장부(2100), 색인 저장부(2200), 관련 특성단어 저장부(2300) 및 로그 저장 부(2400)는 각각 물리적으로 구분되는 저장 장치일 수도 있으나, 하나 또는 복수의 저장 장치를 논리적으로 구분하는 구분 단위일 수도 있다.

도 2는 본 발명의 실시 예에 따른 수집부의 구성을 나타내는 개략도이다.

도 2를 참조하면, 수집부(1100)는 네트워크(300)를 통하여 인터넷 문서(100)를 수집한다. 이하에서는 하나의 인터넷 문서(100)를 수집하는 것을 기준으로 설명하나, 실제로는 도 1에서 보인 것과 같이 다양한 인터넷 문서(100)들을 연속적으로 수집한다. 하나의 인터넷 문서(100)는 예를 들면, 블로그(120)를 구성하는 개개의 포스트(post)일 수 있다. 인터넷 문서(100)에는 예를 들면, 댓글(102a), 트랙백(102b) 등 다양한 종류의 주변 정보(102)가 연결되어 있을 수 있다. 또한 주변 정보(102)에는 도시하지는 않았으나, 해당 인터넷 문서(100)의 제목, 인터넷 서비스(웹사이트, 포털 사이트, 또는 블로그 등)의 해당 인터넷 문서(100)가 개재된 카테고리 등이 포함될 수 있다. 수집부(1100)는 인터넷 문서를 수집하면서 이러한 주변 정보(102)도 함께 수집한다. 이하에서 수집부(1100)의 구체적인 구성을 설명한다.

인터넷 문서(100) 및 주변 정보(102)는 다양한 언어로 기술될 수 있기 때문에 먼저 언어판단모듈(1110)에서 한국어, 일본어, 중국어, 영어 등의 작성 언어를 판단한다. 그리고 인터넷 문서 수집모듈(1122) 및 주변 정보 수집모듈(1124)로 구성된 수집 모듈에서 인터넷 문서(100) 및 주변 정보(102)를 각각 수집한다. 인터넷 문서(100)가 예를 들면, 블로그의 하나의 포스트인 경우 인터넷 문서 수집 모듈(1122)은 블로그에서 제공하는 RSS/ATOM 등의 피딩(feeding)을 제공하는 주소를 판단하여 인터넷 문서(100)를 수집할 수 있다. 그러나 모든 인터넷 문서(100)가 피딩을 제공하는 주소가 제공되는 것이 아니다. 예를 들면, 대다수의 블로그는 최근의 포스트의 일부만을 제공하므로 이러한 경우에는 포스트 본문 추출을 통하여 인터넷 문서(100)를 수집할 수 있다. 마찬가지로 주변 정보 수집모듈(1124)에서는 댓글(102a), 트랙백(102b)을 포함하는 주변 정보(102)를 추출하여 수집한다.

이와 같이 수집된 인터넷 문서(100) 및 주변 정보(102)는 원래 형태와 달리 개별적으로 수집된 상태이므로 콘텐츠 복원모듈(230)을 통해 구조화 과정을 거치게 된다. 예를 들면 블로그의 포스트를 수집하는 경우, 포스트 전체 본문 추출, 댓글, 트랙백 정보 연결, 기존 HTML 포스트 내용 추출 및 RSS/ATOM 형식으로의 구조화 등의 과정을 통하여 분석되고 복원된다. 또한 언어판단모듈(1110)에서 판단된 언어에 따라 자동번역모듈(1140)은 제공하고자 하는 언어와 다른 언어로 작성된 인터넷 문서(100) 및 주변 정보(102)를 제공하고자 하는 언어로 자동 번역을 통하여 번역한다. 콘텐츠 복원모듈(1130)에서 복원된 인터넷 문서(100) 및 주변 정보(102)와 자동번역모듈(1140)의 번역 결과는 단위 구조체 생성모듈(1150)에서 하나의 인터넷 문서(100), 예를 들면 블로그의 경우 하나의 포스트별로 인터넷 문서 구조체로 생성된다. 인터넷 문서 구조체는 예를 들면, XML 형식 또는 RSS 형식 등 컴퓨터와 같은 기계가 처리할 수 있는 형식으로 생성할 수 있다.

이와 같이 생성된 인터넷 문서 구조체는 주 저장부(2100)에 저장되며, 분석부(1200)는 직접 수집부(1100)로부터 인터넷 문서 구조체를 받거나 주 저장부(2100)에 저장된 인터넷 문서 구조체를 불러서 분석 작업을 하게 된다.

도 3은 본 발명의 실시 예에 따른 분석부의 구성을 나타내는 개략도이다.

도 3을 참조하면, 분석부(1200)는 수집부(1100)에 의하여 수집되고 생성된 인터넷 문서 구조체를 텍스트 마이닝 기법으로 분석하여 분석 정보를 생성한다. 분석부(1200)는 수집부(1100)에서 생성된 인터넷 문서 구조체 또는 주 저장부(2100)에 저장된 인터넷 문서 구조체를 받아서 개체명 분석모듈(1210)에서 개체명 분석을 하여 주요 개체명을 추출한다. 개체명 분석은 인터넷 문서 구조체가 가지고 있는 텍스트를 분석하여 사람이름, 기업명, 상품명, 서비스명, 날짜 등 의미를 가진 단어를 추출하는 것으로 개체명 사전과 추출규칙을 통해 추출한다. 그런 후 추출된 주요 개체명과 인터넷 문서 구조체에 포함된 정보를 특성추출모듈(1220)에서 통계적으로 분석하여 인터넷 문서 구조체를 대표하는 특성단어를 추출한다. 이러한 특성단어는 후술할 자동분류모듈과 자동군집모듈에서 분류와 군집을 하기 위한 기본 정보로 활용된다.

자동분류모듈(1230)은 인터넷 문서 구조체들을 자동으로 분류한다. 이러한 자동 분류는 미리 정의된 분류목록(435)과 분류목록(435)에 따른 기계학습데이터(436)을 기반으로 분류된다. 자동 분류는 분류대상의 차이가 명확할 경우에 그 성능이 높으며, 비슷한 군에서의 분류는 성능이 낮아지는 경향이 있다. 특히 다단계 분류의 경우는 분석률이 떨어진다. 예를 들어 스포츠, 사회, 경제 등의 큰 카테고리의 분류는 시스템으로는 어느 정도 가능하지만, 스포츠의 구기종목을 야구, 배구, 농구 등으로 분류하는 것은 전자에 비해 상대적으로 분석률이 떨어진다. 자동분류모듈(1230)은 예를 들면, 베이지언(Bayesian), SVM(Support Vector Machine)과 같은 알고리즘을 통해 구현될 수 있다. 이때 본 자동분류모듈(1230)은 최상위 카테고리만으로 자동분류하는 것이 바람직하다. 다단계 카테고리로 자동분류를 하는 경우 정확도가 떨어지고 기계학습을 하기 위한 시스템의 부담이 커지기 때문이다.

자동군집모듈(1240)은 자동분류된 인터넷 문서 구조체들을 각 분류 카테고리 별로 군집화 과정을 거친다. 자동군집은 인터넷 문서 구조체들을 시스템이 통계적으로 임의의 단위로 군집한다. 자동군집모듈(1240)은 예를 들면, K-means 알고리즘 등을 사용하여 구현될 수 있다. 이렇게 군집된 인터넷 문서 구조체들은 정보량 측정모듈(1250)에서 특성단어 등에 대한 정보량 지수가 측정된다. 특성단어와 이러한 정보량 지수를 결합하여 생성되는 특성단어벡터는 각 인터넷 문서 구조체를 대표하는 단어벡터로 검색을 위하여 사용될 수 있다. 생성된 특성단어벡터를 포함하는 분석 정보는 다시 주 저장부(2100)에 저장된다.

도 4는 본 발명의 실시 예에 따른 조합부 및 주 저장부의 구성 및 기능을 나타내는 개략도이다.

도 4를 참조하면, 조합부(1300)는 인터넷 문서 구조체(150)와 분석 정보(160)를 구조화된 메타정보(metadata)로 조합한다. 수집부(1100)에서 수집되어 만들어진 인터넷 문서(100) 및 주변 정보(102)를 포함하는 인터넷 문서 구조체(150) 및 분석부(1200)에서 만들어진 분석 정보를 포함하여 포맷 전환모듈(1320)에서 조합 정보(170)를 생성한다. 이때 조합 정보(170)를 생성하기 위해 전환규칙(570)이 사용될 수 있으며, 이를 통하여 마크업(mark-up) 형식인 조합정보(170)가 생성된다. 로그 저장부(2400)에 저장된 사용자 정보들을 통계 추출모듈(1310)에 서 통계처리하여 조합 정보(170)와 함께 반영하여 조합 정보(170)를 생성할 수 있다. 즉 조합 정보(170)에는 수집된 인터넷 문서(100), 주변 정보(102) 및 자동번역 정보(104)와 함께 특성단어벡터(162)가 하나의 형식을 가지도록 포함되게 된다.

도 5는 본 발명의 실시 예에 따른 개인화 처리부, 검색부 및 제공부의 구성과 기능을 나타내는 개략도이다.

도 5를 참조하면, 개인화 처리부(1700)의 키워드단어벡터 생성모듈(1710)은 관련 특성단어(1710), 사용자 로그정보(2410), 관심 사용자 로그정보(2420)을 토대로 키워드단어벡터를 생성한다. 로그 저장부(2400)에 저장된 하나의 사용자 로그정보(2410)는 사용자가 미리 선택한 관심 카테고리, 제공된 정보 중 사용자가 선택한 정보들에 대한 기록, 상기 하나의 사용자가 입력한 검색어 등이 포함된다. 로그 저장부(2400)는 복수의 사용자들의 로그정보가 모두 포함되어 있다. 그 중에서 하나의 사용자와 동일하거나 유사한 카테고리 또는 정보에 관심이 있는 사용자들의 사용자 로그정보를 상기 하나의 사용자에 대한 관심 사용자 로그정보(2420)라고 한다.

로그인을 하거나, 사용자 장치(210)에 사용자의 식별이 가능한 정보가 있는 경우에는 이러한 해당 사용자의 사용자 로그정보(2410) 및 관심 사용자 로그정보(2420)를 통하여 키워드단어벡터를 생성한다. 즉, 키워드단어벡터는 예를 들면, 관심있는 카테고리나 정보, 입력한 검색어들로부터 키워드들을 추출하고, 이들 키워드들의 중요도 또는 접근 빈도 등을 가중치로 구하여 단어벡터 형식으로 생성될 수 있다. 만일 로그인을 하지 않는 등 특정 사용자임을 확인할 수 없는 경우에는 로그 저장부(2400)에 저장된 로그정보들을 통계처리하여 다수의 사용자가 관심을 가지는 카테고리 또는 키워드를 토대로 키워드단어벡터를 생성한다.

관련 특성단어 저장부(1700)에는 전술한 바와 같이 관련 특성단어(1710)들이 저장되어 있다. 관련 특성단어(1710)는 어떠한 특성단어와 관련이 있는 다른 특성단어들이 단어벡터 형식으로 포함된다. 관련 특성단어(1710)는 시간의 흐름에 따라서 관련이 있는 다른 특성단어들이 바뀌거나 가중치가 변화하게 된다. 따라서 키워드단어벡터 생성모듈(1710)에서는 이러한 관련 특성단어(1710)를 함께 반영하여 키워드단어벡터를 생성할 수 있다. 이처럼 관련 특성단어(1710)가 반영된 키워드단어벡터는 동일한 키워드에 대하여 시간의 경과에 맞는 더욱 정확한 정보를 검색할 수 있도록 할 수 있다.

관련 특성단어(1710)는 현재 시점에 대한 특성단어들의 관련성을 나타내기 위하여 수집된 정보들로부터 실시간 업데이트가 될 수 있고, 또는 특정 시점에 대한 특성단어들의 관련성을 나타내기 위하여 요청 시에 생성될 수도 있다.

색인 저장부(2200)에는 색인부(1400)에서 조합정보(170)를 색인하여 생성한 색인정보(2210)가 저장되어 있다. 검색부(1600)는 개인화 처리부(1700)에서 생성한 키워드단어벡터와 색인 정보(2210)에 포함된 특성단어벡터(2212)들의 거리를 계산하여 사용자에게 맞는 맞춤형 정보를 검색한다.

제공부(1800)에서는 검색부(1600)에서 검색한 결과를 토대로 사용자에게 정보를 제공한다. 이때 키워드단어벡터와 거리가 가까운 특성단어벡터(2212)에 해당하는 인터넷 문서 구조체(150)는 거리가 먼 인터넷 문서 구조체(150)보다 사용자가 관심을 많이 가지는 정보이므로 우선적으로 제공할 수 있다. 콘텐츠 제공모듈(1810)은 사용자들이 사용하는 화면크기, 해상도, 표현문자, 컬러 등이 포함된 생성규칙(1820)을 이용하여 사용자 장치(210)에 맞는 정보를 제공할 수 있다. 콘텐츠 제공모듈(1810)은 예를 들면, 별도의 인터넷 서비스(웹사이트, 포털사이트 등)를 통하여 정보를 제공할 수도 있다. 일반적인 개인용 컴퓨터 사용자에게는 RSS 문서를 볼 수 있는 RSS 리더기에서 살펴볼 수 있도록 RSS 형식으로 정보를 생성하여 피딩과 같은 형태로 제공할 수 있으며, 이동통신단말기 사용자에게는 해당 이동통신단말기의 대기화면에 맞는 형식으로 정보를 생성하여 제공할 수 있다.

도 6 내지 도 13은 본 발명의 실시 예에 따른 맞춤형 정보 제공 시스템에 의하여 사용자에게 블로그의 포스트를 맞춤형으로 제공하도록 구축된 인터넷 서비스의 모습을 보여주는 화면들이다. 도 6 내지 도 13에 보여지는 화면들은 본 발명의 실시 예에 따른 맞춤형 정보 제공 시스템의 하나의 구현 예이며, 도시되는 것에 본 발명이 한정되는 것은 아니다. 구체적으로는 인터넷의 블로그 상의 포스트 정보를 사용자 맞춤형으로 제공하는 모습을 보여준다.

도 6을 참조하면, 오늘 날짜에 맞는 관심도가 높은 카테고리들이 클러스터링맵(clustering map)의 형태로 보여지고 있다. 클러스터링맵은 로그인 등을 통하여 특정 사용자가 확인된 경우에는 해당 사용자의 관심도에 따라서 카테고리들을 보여주며, 특정 사용자가 확인되지 않은 경우에는 많은 사용자들이 관심을 보인 정도에 따라서 카테고리들을 보여주게 된다. 클러스터링맵에서 원 모양이 크거나 카테고리 이름이 큰 글자로 보여질 수록 관심도가 높은 정보가 된다. 만약에 미리 분류된 특 정 카테고리(화면상에는 '섹션'으로 표현)에 대한 정보를 원하는 경우에는 해당 섹션(화면상에서는 '경제'를 선택)을 클릭하면 된다.

본 실시 예에서는 초기 화면에서는 카테고리 또는 세션만을 선택하도록 되어 있다. 초기 화면부터 사용자의 관심 정보 또는 관심 정보들의 목록을 바로 제시할 수도 있다. 그러나 일반적으로 사용자가 관심을 가지는 정보는 여러 가지가 포함될 수 있으므로 본 실시 예에서는 초기 화면부터 바로 관심 정보를 제시하지는 않도록 하였으며, 이는 단지 사용자 인터페이스를 구현하는 방법의 차이일 뿐이다.

도 7을 참조하면, 선택된 섹션에서 다시 관심도에 따른 카테고리들이 클러스터링맵으로 보여지며(화면상의 좌측), 사용자가 관심을 가지는 내용에 대한 포스트들의 목록이 관심도 순으로 나열된다(화면상의 우측). 이러한 관심도는 전술한 바와 같이 키워드단어벡터와 특성단어벡터의 거리를 측정함으로 구해진다. 이를 통하여 사용자가 관심을 많이 가지는 정보를 쉽게 확인할 수 있도록 한다. 본 실시 예에서는 섹션을 직접 선택하였으나, 미리 관심 섹션을 정해놓으면 초기 화면부터 도 7과 같이 정보들을 직접 제공할 수도 있다.

같은 방법으로 클러스터링맵에서 관심 카테고리를 클릭하여 더욱 세부적인 카테고리를 살펴보거나, 직접 목록에서 원하는 포스트를 클릭하여 볼 수도 있다. 그리고 단순히 클릭에 의하여 정보를 선택하는 것이 아니라 직접 검색어를 입력하여 정보를 검색할 수도 있다. 직접 검색어를 입력할 경우에는 입력한 검색어만이 아니라 입력한 검색어와 관련되는 특성단어들을 사용자 로그정보 및 관련 특성단어들을 참고하여 생성된 키워드단어벡터를 통하여 검색이 이루어지므로 검색어를 간 단하게 입력하여도 사용자에게 맞는 정보를 정확히 찾을 수 있다.

도 8 및 도 9를 참조하면, 시점에 따른 검색 결과의 차이를 볼 수 있다. 도 8은 현재 시점에서 관련되는 정보가 클러스터링맵으로 보여지나 도 9에서는 이전 시점에서 관련되는 정보가 클러스터링맵으로 보여진다(각 화면상의 좌측). 물론 제공되는 포스트 목록(각 화면상의 우측)도 시점에 따라서 달라지게 된다. 이것은 전술한 바와 같이 각 시점에서의 하나의 특성단어와 관련되는 특성단어가 달라지기 때문이며, 관련 특성단어벡터를 키워드단어벡터를 생성하는 데에 반영하였기 때문에 얻어지는 결과이다.

도 10 및 도 11을 참조하면, 관계 정도에 따른 검색 결과의 차이를 볼 수 있다. 전술한 바와 같이, 직접 검색어를 입력하여 검색을 한 경우에도 사용자 로그정보 및 관련 특성단어들을 포함하여 이루어진 검색 결과가 제공된다. 물론 직접 클러스터링맵 또는 섹션에서 선택한 경우에도 해당 카테고리 또는 섹션명에 사용자 로그정보 및 관련 특성단어들을 포함하여 이루어진 검색 결과가 제공된다. 이때 선택하거나 입력한 키워드(또는 카테고리나 섹션명)에 대한 가중치를 조절하는 것이 관계 정도를 의미한다. 즉 A를 검색한 경우에, A와 B에 대한 관련성이 높다면 B를 포함하는 검색 결과가 제공될 수 있다. 이럴 때에 B를 포함하는 검색 결과를 더욱 원하는지, B보다는 A 자체에 대한 검색 결과를 더욱 원하는지에 따라서 관계 정도를 조절하여 원하는 정보를 제공받을 수 있다.

도 6 내지 도 13은 본 발명의 실시 예에 따른 맞춤형 정보 제공 시스템에 의하여 사용자에게 블로그의 포스트를 맞춤형으로 제공하도록 구축된 인터넷 서비스의 모습을 보여주는 화면들이다.

<도면의 주요부분에 대한 설명>

1 : 사용자 맞춤형 정보 시스템, 100 : 인터넷 문서, 102 : 주변 정보, 200 : 외부 사용자 장치, 300 : 네트워크, 1000 : 제어부, 1100 : 수집부, 1200 : 분석부, 1300 : 조합부, 1400 : 색인부, 1500 : 관련 특성단어 추출부, 1600 : 검색부, 1700 : 개인화처리부, 1800 : 제공부, 2000 : 저장부, 2100 : 주 저장부, 2200 : 색인 저장부, 2300 : 관련 특성 단어 저장부, 2400 : 로그 저장부

Claims

네트워크와 연결되며, 주저장부 및 로그 저장부를 포함하는 저장부와 제어부를 포함하여 이루어지는 사용자 맞춤형 정보 시스템에 있어서,

상기 제어부는,

상기 네트워크를 통하여 인터넷 문서 및 상기 인터넷 문서와 연결된 주변 정보를 수집하여 상기 인터넷 문서별로 인터넷 문서 구조체를 생성하는 수집부,

상기 인터넷 문서 구조체를 텍스트마이닝으로 분석하여 특성단어벡터를 포함하는 분석정보를 생성하는 분석부,

사용자 로그정보를 포함하는 사용자 정보로부터 생성되는 키워드단어벡터를 생성하는 개인화처리부,

상기 키워드단어벡터와 상기 특성단어벡터를 비교하여 상기 키워드단어벡터에 관련되는 인터넷 문서 구조체를 검색하는 검색부 및

상기 검색된 인터넷 문서 구조체를 상기 네트워크와 연결되는 사용자 장치에 맞도록 가공하여 상기 사용자 장치에 제공하는 제공부를 포함하는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제1 항에 있어서,

상기 수집부는,

상기 인터넷 문서의 작성 언어를 판단하는 언어판단모듈,

상기 인터넷 문서 및 상기 연결된 주변 정보를 수집하는 수집모듈,

수집된 상기 인터넷 문서와 상기 연결된 주변 정보를 결합하는 콘텐츠 복원모듈,

상기 판단된 작성 언어 종류에 따라 상기 인터넷 문서 및 상기 연결된 주변 정보를 자동 번역하는 자동번역모듈 및

상기 콘텐츠 복원모듈에서 결합한 상기 인터넷 문서 및 상기 연결된 주변 정보에 상기 자동번역모듈에서 자동번역된 결과를 함께 결합하여 상기 인터넷 문서 구조체를 생성하는 단위 구조체 생성모듈을 포함하는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제1 항에 있어서,

상기 분석부는,

상기 인터넷 문서 구조체의 주요 개체명을 추출하는 개체명 분석모듈,

상기 인터넷 문서 구조체의 특성단어를 추출하는 특성 추출모듈,

미리 정의된 분류목록 및 상기 분류목록에 따른 기계학습데이터를 이용하여 상기 인터넷 문서 구조체를 상기 특성단어에 따라 자동 분류하는 자동분류모듈,

상기 자동 분류된 인터넷 문서 구조체를 카테고리별로 군집화하는 자동군집모듈 및

상기 군집화된 인터넷 문서 구조체의 정보량을 측정하는 정보량 측정모듈을 포함하는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제3 항에 있어서,

상기 자동분류모듈은 상기 분류목록의 최상위 카테고리에 따라 자동 분류하는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제1 항에 있어서,

상기 사용자 정보는 사용자의 로그정보 및 동일 카테고리에 대한 관심사용자의 로그정보를 더 포함하는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제1 항에 있어서,

상기 제어부는,

상기 인터넷 문서 구조체 및 상기 분석정보를 포함하여 하나의 조합 정보를 생성하는 조합부 및

상기 조합 정보를 색인하여 상기 특성단어벡터를 포함하는 색인 정보를 생성하는 색인부를 더 포함하고,

상기 검색부는 상기 키워드단어벡터와 상기 색인 정보에 포함된 특성단어벡터를 비교하는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제6 항에 있어서,

상기 제어부는 상기 색인 정보에 포함된 특성단어벡터로부터 관련 특성단어를 추출하는 관련 특성단어 추출부를 더 포함하고,

상기 개인화처리부는 상기 사용자 정보에 상기 관련 특성단어를 반영하여 상기 키워드단어벡터를 생성하는 것을 특징으로 하는 사용자 맞춤형 정보 시스템.
제1 항에 있어서,

상기 주저장부는 상기 수집된 인터넷 문서와 주변 정보, 상기 인터넷 문서 구조체 및 상기 분석정보가 저장되고,

상기 로그 저장부는 사용자 로그정보를 포함하는 사용자 정보가 저장되는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제6 항에 있어서,

상기 저장부는 색인 저장부를 더 포함하고,

상기 주저장부는 상기 조합정보가 더 저장되고,

상기 색인 저장부는 상기 색인 정보가 저장되는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제7 항에 있어서,

상기 저장부는 관련 특성단어 저장부를 더 포함하고,

상기 관련 특성단어 저장부는 상기 관련 특성단어가 저장되는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
제1 항에 있어서,

상기 주변 정보는 댓글 또는 트랙백을 포함하는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
삭제
삭제