KR20230071312A - 맞춤정보 제공 시스템 및 방법 - Google Patents

맞춤정보 제공 시스템 및 방법 Download PDF

Info

Publication number
KR20230071312A
KR20230071312A KR1020210157371A KR20210157371A KR20230071312A KR 20230071312 A KR20230071312 A KR 20230071312A KR 1020210157371 A KR1020210157371 A KR 1020210157371A KR 20210157371 A KR20210157371 A KR 20210157371A KR 20230071312 A KR20230071312 A KR 20230071312A
Authority
KR
South Korea
Prior art keywords
information
unit
user
internet
internet document
Prior art date
Application number
KR1020210157371A
Other languages
English (en)
Inventor
윤정남
Original Assignee
주식회사 에이클립
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이클립 filed Critical 주식회사 에이클립
Priority to KR1020210157371A priority Critical patent/KR20230071312A/ko
Publication of KR20230071312A publication Critical patent/KR20230071312A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

사용자에게 맞는 인터넷 정보를 검색하여 제공하는 사용자 맞춤형 정보 제공 시스템 및 그 방법을 개시한다. 본발명에 따른 사용자 맞춤형 정보 제공 시스템은 네트워크와 연결되며, 주저장부 및 로그 저장부를 포함하는 저장부와 제어부를 포함하며, 제어부는 네트워크를 통하여 인터넷 문서 및 인터넷 문서와 연결된 주변 정보를 수집하여 인터넷 문서별로 인터넷 문서 구조체를 생성하는 수집부, 인터넷 문서 구조체를 텍스트마이닝으로 분석하여특성단어벡터를 포함하는 분석정보를 생성하는 분석부, 사용자 로그정보를 포함하는 사용자 정보로부터 생성되는키워드단어벡터를 생성하는 개인화처리부, 키워드단어벡터와 특성단어벡터를 비교하여 키워드단어벡터에 관련되는 인터넷 문서 구조체를 검색하는 검색부 및 검색된 인터넷 문서 구조체를 네트워크와 연결되는 사용자 장치에맞도록 가공하여 사용자 장치에 제공하는 제공부를 포함한다.

Description

맞춤정보 제공 시스템 및 방법{SYSTEM AND METHOD FOF PROVIDING CUSTOMIZED INFORMATION}
본 발명은 인터넷 정보를 검색하여 제공하는 정보 제공 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 인터넷 정보 중 사용자에 따른 관심 정보를 제공하는 정보 시스템 및 그 방법에 관한 것이다.
인터넷 상의 정보를 담고 있는 문서(이하 인터넷 문서)는 기하급수적으로 늘고 있다. 그러나 이러한 인터넷 문서는 유용한 정보와 또한 그렇지 않은 정보가 매우 다양한 형태로 혼재되어 있다. 특히 많은 사용자가 원하는 정보가 특히 많은 양을 차지하며, 쉽게 찾아볼 수 있으므로, 특정 사용자가 원하는 정보를 쉽고 빠르게 찾는 것은 매우 어렵다.
정보검색을 위해 초창기에는 야후(YAHOO)에서와 같이 분류전문가에 의해 분류된 디렉토리 형태로 사이트들을 분류하고 이를 사용자가 네비게이션 형태로 원하는 정보를 찾아가는 방식이 등장하였다. 하지만 인터넷 문서의 양이 폭발적으로 증가하면서, 모든 정보를 이러한 분류체계에 나누는 것은 매우 어렵고 비용이 많이 들게 되었다.이에 따라 키워드를 입력하여 해당 키워드가 존재하는 인터넷 문서를 찾아주는 검색엔진을 기반으로 한 다양한 종류의 검색 서비스들이 등장하게 되었다.
하지만 검색 서비스는 불특정 다수를 대상으로 일원화된 정보를 제공하므로 특정 사용자가 원하는 정보를 찾는 것은 매우 어려운 문제이다. 특히 특정 사용자가 원하는 정보를 찾기 위한 검색 키워드를 선택하는 것도 쉬운일이 아니다. 따라서 검색을 여러 번 시도하여야 원하는 정보를 찾을 수 있거나, 불필요한 정보에 묻혀서 원하는 정보를 찾지 못하는 일도 많이 발생하고 있다.
또한 최근에는 단순한 인터넷 문서뿐만 아니라, 해당 정보를 읽고 의견을 남기는 댓글(덧글(comment) 또는 답글(reply))도 많이 사용이 되고 있다. 이러한 댓글이 활성화되면서 인터넷 문서 작성자와 댓글 작성자 사이의 의견 교환을 하는 것 외에도, 다른 사람이 남긴 댓글에서도 유용한 정보를 얻을 수 있는 경우가 많아지고 있다.
또한 최근 급속히 증가하고 있는 블로그(blog)에는 댓글 외에도 트랙백(trackback)이 널리 사용되고 있다. 이러한 댓글, 트랙백 등과 같은 주변 정보들은 직접 해당 인터넷 문서에 접근을 해야만 확인을 할 수 있으며 검색을 통해서는 찾아보기 힘들다는 문제점을 가지고 있다. 특히 특정 사용자에게 인터넷 문서를 제공하는 경우에는 이러한 주변 정보들은 함께 제공되지 못하고 있다. 또한 이러한 블로그는 블로그와 관련된 검색 서비스 또는 해당블로그 서비스 내에서를 제외하면 체계적인 검색 또는 정보의 제공이 어려운 문제점을 가지고 있다.
본 발명이 해결하고자 하는 기술적 과제는 상기 문제점을 해결하기 위하여 특정 사용자가 원하는 인터넷 문서를 맞춤형으로 제공하는 사용자 맞춤형 정보 제공 시스템을 제공하는 데에 있다.
또한 본 발명이 해결하고자 하는 다른 기술적 과제는 상기 문제점을 해결하기 위하여 특정 사용자가 원하는 인터넷 문서를 맞춤형으로 제공할 수 있는 사용자 맞춤형 정보 제공 방법을 제공하는 데에 있다
상기 기술적 과제를 해결하기 위하여 본 발명은 다음과 같은 사용자 맞춤형 정보 제공 시스템을 제공한다.
본 발명에 의한 사용자 맞춤형 정보 시스템은 네트워크와 연결되며, 주저장부 및 로그 저장부를 포함하는 저장부와 제어부를 포함하여 이루어지며, 상기 제어부는, 상기 네트워크를 통하여 인터넷 문서 및 상기 인터넷 문서와 연결된 주변 정보를 수집하여 상기 인터넷 문서별로 인터넷 문서 구조체를 생성하는 수집부, 상기 인터넷 문서 구조체를 텍스트마이닝으로 분석하여 특성단어벡터를 포함하는 분석정보를 생성하는 분석부, 사용자 로그정보를 포함하는 사용자 정보로부터 생성되는 키워드단어벡터를 생성하는 개인화처리부, 상기 키워드단어벡터와 상기 특성단어벡터를 비교하여 상기 키워드단어벡터에 관련되는 인터넷 문서 구조체를 검색하는 검색부 및 상기 검색된 인터넷 문서 구조체를 상기 네트워크와 연결되는 사용자 장치에 맞도록 가공하여 상기 사용자 장치에 제공하는 제공부를 포함한다
본 발명에 따른 사용자 맞춤형 정보 제공 시스템 및 그 방법은 사용자가 미리 선택해놓은 관심 카테고리, 사용자가 관심을 가진 정보 또는 사용자가 입력한 키워드에 맞춰 인터넷 문서를 사용자에 따라 맞춤형으로 제공할 수 있다. 이때 특정 사용자뿐만 아니라 특정 사용자와 관심 분야가 비슷한 다수의 사용자의 관심 정보를 함께 반영하여, 검색 키워드를 사용하지 않거나, 최소한의 키워드를 사용하여도 사용자가 원하는 정보를 정확하게 검색하여 제공할 수 있다. 또한 언어의 종류와 상관없이 번역된 정보를 제공할 수 있으므로 사용자가 해당 정보를 손쉽게 이용할 수 있다.
특히 시점에 따른 정보들의 관련성을 함께 반영하여, 사용자가 원하는 시점 즉 현재 시점 또는 과거의 특정 시점의 정보들을 정확하게 검색하여 제공할 수 있다. 이를 통하여 불필요한 정보가 제거되어 사용자가 원하는 정확한 정보를 검색하여 제공할 수 있다.
도 1은 본 발명의 실시 예에 따른 사용자 맞춤형 정보 제공 시스템의 구성을 나타내는 개략도이다.
도 2는 본 발명의 실시 예에 따른 수집부의 구성을 나타내는 개략도이다.
도 3은 본 발명의 실시 예에 따른 분석부의 구성을 나타내는 개략도이다.
도 4는 본 발명의 실시 예에 따른 조합부 및 주 저장부의 구성 및 기능을 나타내는 개략도이다.
도 5는 본 발명의 실시 예에 따른 개인화 처리부, 검색부 및 제공부의 구성과 기능을 나타내는 개략도이다.
이하에서는 바람직한 실시 예를 통해 당업자가 본 발명을 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다. 그러나 다음에 예시하는 본 발명의 실시 예는 동일한 발명의 범위 내에서 여러 가지 다른 형태로 변형될 수 있으며 본 발명의 범위가 다음에 상술하는 실시 예 및 첨부 도면에 도시된 바에 한정되는 것은 아니다.
이하의 설명에서 어떤 구성 요소가 다른 구성 요소의 연결된다고 기술될 때, 이는 다른 구성 요소의 바로 연결될 수도 있고, 그 사이에 제3의 구성 요소가 개재될 수도 있다. 또한, 도면에서 각 구성 요소의 모양이나 크기는 설명의 편의 및 명확성을 위하여 과장되었고, 설명과 관계없는 부분은 생략되었다. 도면상에서 동일 부호는 동일한 요소를 지칭한다. 한편, 사용되는 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다.
도 1은 본 발명의 실시 예에 따른 사용자 맞춤형 정보 제공 시스템의 구성을 나타내는 개략도이다.
도 1을 참조하면, 사용자 맞춤형 정보 시스템(1)은 네크워크(300)를 통하여 연결되며 크게 제어부(1000)와 저장부(2000)로 구성되어 있다. 제어부(1000)는 수집부(1100), 분석부(1200), 조합부(1300), 색인부(1400), 관련특성 단어 추출부(1500), 검색부(1600), 개인화 처리부(1700), 제공부(1800) 등을 포함할 수 있다. 저장부(200)는 주 저장부(2100), 색인 저장부(2200), 관련 특성 단어 저장부(2300), 로그 저장부(2400) 등을 포함할 수있다. 제어부(1000)는 네트워크(300)를 통하여 인터넷 문서(100) 또는 외부 사용자 장치(200)와 연결되어 정보를 수집하고 제공하도록 구성되어 있다.
수집부(1100)는 네트워크(300)를 통하여 인터넷 문서(100)들을 수집하여 번역하여 각각의 인터넷 문서(100)별로 인터넷 문서 구조체를 생성한다. 수집부(1100)의 자세한 기능과 구성은 후술하도록 한다. 인터넷 문서(100)는 인터넷 상에 텍스트를 포함하는 정보를 담고 있는 각종 웹페이지(web page) 등을 포괄하여 통칭하는 의미이다. 구체적으로 살펴보면 인터넷 문서(100)에는 예를 들면, 통상적인 웹페이지(110), 블로그(120), 뉴스 기사(130) 등이 포함된다. 이 외에는 텍스트(text)를 포함하는 정보를 담고 있는 것은 모두 해당될 수 있다. 예를 들면 특정 커뮤니티(community, 예를 들면 카페, 클럽, 동호회 등의 이름으로 불리운다)의 각종 게시물, 각종 회사 또는 개인의 웹 사이트(web site)에 포함된 웹 페이지, 언론사 또는 포털 사이트(portal site) 등에 기재된 뉴스기사, 각종 블로그(blog)에 게시된 포스트(post) 등이 인터넷 문서(100)에 포함될 수 있다. 또한 인터넷 문서 (100)는 텍스트 정보 뿐만 아니라, 그림, 동영상, 음악 등 각종 멀티미디어 데이터(multimedia data)를 포함할수 있음은 물론이다. 특히, 주로 멀티미디어 데이터로 구성되는 인터넷 문서(100)의 경우에도 제목 등 텍스트로 이루어진 정보를 포함할 수 있다.
분석부(1200)는 수집된 인터넷 문서(100), 구체적으로는 수집부(1100)에서 생성한 인터넷 문서 구조체들을 분석하여 특성단어벡터 등을 포함하는 분석정보들을 각각 생성한다. 조합부(1300)는 인터넷 문서 구조체 및 각 인터넷 문서 구조체에 해당하는 분석정보 등을 포함하는 조합 정보를 각 인터넷 문서 구조체별로 생성한다. 색인부(1400)는 조합 정보를 색인(index)하여 특성단어벡터를 포함하는 색인 정보를 생성한다. 수집된 인터넷 문서(100), 인터넷 문서 구조체, 분석 정보, 조합 정보 및 색인 정보는 주 저장부(2100)에 저장될 수 있으며, 분석부(1200), 조합부(1300) 또는 색인부(1400)는 각각 수집부(1100), 분석부(1200) 또는 조합부(1300)로부터 정보를 받거나, 주 저장부(2100)에 저장된 정보를 사용할 수 있다. 분석부(1200), 조합부(1300) 및 색인부(1400)의자세한 기능과 구성은 후술하도록 한다.
특성단어벡터는 인터넷 문서(100), 구체적으로는 개별 인터넷 문서 구조체별로 생성되어, 개별 인터넷 문서(100)가 담고 있는 정보의 특성을 단어 벡터(vector)의 형식으로 나타낸다. 단어 벡터는 개별 인터넷 문서(100)의 특성을 나타내는 특성단어 및 각 특성단어의 가중치를 포함하고 있다. 가중치는 각 특성단어의 단어빈도(TF, Term Frequency) 및 각 특성단어가 인터넷 문서 집합에서 나타나는 빈도의 역인 역문서빈도(IDF, InverseDocument Frequency) 등을 이용하여 구한다. 단어빈도는 개별 인터넷 문서에 특정 특성단어의 출현횟수로써 특정 특성단어가 인터넷 문서의 내용을 얼마나 대표하는가에 대한 척도이다. 또한 역문서빈도는 인터넷 문서 집합에서 특정 특성단어가 출연하는 인터넷 문서 수의 비율의 역으로, 적은 인터넷 문서에서 나타나는 특성단어는그 특성단어가 나타나는 인터넷 문서를 다른 인터넷 문서들과 구별할 수 있는 능력이 크게 된다.
관련 특성단어 추출부(1500)는 특성단어벡터들을 분석하여 관련 특성단어를 생성한다. 관련 특성단어 또한 단어벡터의 형식으로 나타낼 수도 있다. 관련 특성단관련이 있는 특성단어들 및 가중치를 포함하고 있다. 예를 들면, A라는 단어와 B라는 단어가 하나의 인터넷 문서에서 함께 나타나는 경우가 자주 있을 경우에, A와 B는 관련성을 가지고 있다고 볼 수 있다. 이를 통하여 관련성이 있는 특성 단어들을 관련 특성단어로 생성한다. 그러나 이러한 특성 단어들의 관련성은 시간 의존성을 가지고 있다. 따라서 관련 특성단어는 시간이 지나면서 계속누적되는 특성단어벡터들을 분석하여 시간에 맞는 관련성이 있는 특성단어들 및 가중치를 포함하도록 할 수 있다.
검색부(1600)는 개인화처리부(1700)에서 생성된 키워드단어벡터와 특성단어벡터를 비교하여 사용자에 맞는 인터넷 문서, 구체적으로는 인터넷 문서 구조체를 검색한다. 검색부(1600)에서는 단어벡터인 키워드단어벡터와 특성 단어벡터의 거리를 구하여 해당 키워드단어벡터에 가까운 특성단어벡터를 가지는 인터넷 문서들을 검색하게 된다. 개인화처리부(1700)는 사용자의 로그정보를 포함하는 사용자 정보로부터 키워드단어벡터를 생성한다. 이때 관련 특성단어를 함께 적용하면 시간에 맞는 키워드단어벡터를 생성할 수 있다. 검색부(1600)와 개인화처리부(1700)의 자세한 기능 및 구성은 후술하도록 한다.제공부(1800)는 검색부(1600)에서 얻어진 검색 결과, 즉 키워드단어벡터에 가까운 특성단어벡터를 가지는 인터넷 문서들을 외부 사용자 장치(200)에 제공한다. 편의상, 외부 사용자 장치(200)는 특정한 정보들에 관심을 가지는 하나의 사용자가 사용하는 장치인 사용자 장치(210)와 상기 하나의 사용자와 유사한 관심도를 가지는 사용자(또는 사용자들)이 사용하는 장치인 관심 사용자 장치(220)로 구분한다. 관심 사용자 장치(220)는 특정한 사용자들이 사용하는 장치가 아니라 다양한 사용자들이 사용하는 사용자 장치(200)들 중에서 관심 분야에 공통점이 있는 사용자들이 사용하는 장치를 개념적으로 나타낸다.
저장부(2000)는 주 저장부(2100) 외에도 색인정보를 저장하는 색인 저장부(2200), 관련 특성단어를 저장하는 관련 특성단어 저장부(2300), 사용자들의 로그정보를 포함하는 사용자 정보를 저장하는 로그 저장부(2400)를 포함한다. 이들 주 저장부(2100), 색인 저장부(2200), 관련 특성단어 저장부(2300) 및 로그 저장부(2400)는 각각 물리적으로 구분되는 저장 장치일 수도 있으나, 하나 또는 복수의 저장 장치를 논리적으로 구분하는 구분 단위일수도 있다.
도 2는 본 발명의 실시 예에 따른 수집부의 구성을 나타내는 개략도이다.
도 2를 참조하면, 수집부(1100)는 네트워크(300)를 통하여 인터넷 문서(100)를 수집한다. 이하에서는 하나의 인터넷 문서(100)를 수집하는 것을 기준으로 설명하나, 실제로는 도 1에서 보인 것과 같이 다양한 인터넷 문서(100)들을 연속적으로 수집한다. 하나의 인터넷 문서(100)는 예를 들면, 블로그(120)를 구성하는 개개의 포스트(post)일 수 있다. 인터넷 문서(100)에는 예를 들면, 댓글(102a), 트랙백(102b) 등 다양한 종류의 주변 정보(102)가 연결되어 있을 수 있다. 또한 주변 정보(102)에는 도시하지는 않았으나, 해당 인터넷 문서(100)의제목, 인터넷 서비스(웹사이트, 포털 사이트, 또는 블로그 등)의 해당 인터넷 문서(100)가 개재된 카테고리 등이 포함될 수 있다. 수집부(1100)는 인터넷 문서를 수집하면서 이러한 주변 정보(102)도 함께 수집한다. 이하에서 수집부(1100)의 구체적인 구성을 설명한다.
인터넷 문서(100) 및 주변 정보(102)는 다양한 언어로 기술될 수 있기 때문에 먼저 언어판단모듈(1110)에서 한국어, 일본어, 중국어, 영어 등의 작성 언어를 판단한다. 그리고 인터넷 문서 수집모듈(1122) 및 주변 정보 수집모듈(1124)로 구성된 수집 모듈에서 인터넷 문서(100) 및 주변 정보(102)를 각각 수집한다. 인터넷 문서(100)가 예를 들면, 블로그의 하나의 포스트인 경우 인터넷 문서 수집 모듈(1122)은 블로그에서 제공하는 RSS/ATOM등의 피딩(feeding)을 제공하는 주소를 판단하여 인터넷 문서(100)를 수집할 수 있다. 그러나 모든 인터넷 문서(100)가 피딩을 제공하는 주소가 제공되는 것이 아니다. 예를 들면, 대다수의 블로그는 최근의 포스트의 일부만을 제공하므로 이러한 경우에는 포스트 본문 추출을 통하여 인터넷 문서(100)를 수집할 수 있다. 마찬가지로 주변 정보 수집모듈(1124)에서는 댓글(102a), 트랙백(102b)을 포함하는 주변 정보(102)를 추출하여 수집한다.
이와 같이 수집된 인터넷 문서(100) 및 주변 정보(102)는 원래 형태와 달리 개별적으로 수집된 상태이므로 콘텐츠 복원모듈(230)을 통해 구조화 과정을 거치게 된다. 예를 들면 블로그의 포스트를 수집하는 경우, 포스트 전체 본문 추출, 댓글, 트랙백 정보 연결, 기존 HTML 포스트 내용 추출 및 RSS/ATOM 형식으로의 구조화 등의 과정을 통하여 분석되고 복원된다. 또한 언어판단모듈(1110)에서 판단된 언어에 따라 자동번역모듈(1140)은 제공하고자 하는 언어와 다른 언어로 작성된 인터넷 문서(100) 및 주변 정보(102)를 제공하고자 하는 언어로 자동 번역을 통하여 번역한다. 콘텐츠 복원모듈(1130)에서 복원된 인터넷 문서(100) 및 주변 정보(102)와 자동번역모듈(1140)의 번역 결과는 단위 구조체 생성모듈(1150)에서 하나의 인터넷 문서(100), 예를 들면 블로그의 경우 하나의 포스트별로 인터넷 문서 구조체로 생성된다. 인터넷 문서 구조체는 예를 들면, XML 형식 또는 RSS 형식 등컴퓨터와 같은 기계가 처리할 수 있는 형식으로 생성할 수 있다.<33> 이와 같이 생성된 인터넷 문서 구조체는 주 저장부(2100)에 저장되며, 분석부(1200)는 직접 수집부(1100)로부터인터넷 문서 구조체를 받거나 주 저장부(2100)에 저장된 인터넷 문서 구조체를 불러서 분석 작업을 하게 된다.
도 3은 본 발명의 실시 예에 따른 분석부의 구성을 나타내는 개략도이다.
도 3을 참조하면, 분석부(1200)는 수집부(1100)에 의하여 수집되고 생성된 인터넷 문서 구조체를 텍스트 마이닝기법으로 분석하여 분석 정보를 생성한다. 분석부(1200)는 수집부(1100)에서 생성된 인터넷 문서 구조체 또는주 저장부(2100)에 저장된 인터넷 문서 구조체를 받아서 개체명 분석모듈(1210)에서 개체명 분석을 하여 주요 개체명을 추출한다. 개체명 분석은 인터넷 문서 구조체가 가지고 있는 텍스트를 분석하여 사람이름, 기업명, 상품명, 서비스명, 날짜 등 의미를 가진 단어를 추출하는 것으로 개체명 사전과 추출규칙을 통해 추출한다. 그런후 추출된 주요 개체명과 인터넷 문서 구조체에 포함된 정보를 특성추출모듈(1220)에서 통계적으로 분석하여 인터넷 문서 구조체를 대표하는 특성단어를 추출한다. 이러한 특성단어는 후술할 자동분류모듈과 자동군집모듈에서 분류와 군집을 하기 위한 기본 정보로 활용된다.
자동분류모듈(1230)은 인터넷 문서 구조체들을 자동으로 분류한다. 이러한 자동 분류는 미리 정의된 분류목록(435)과 분류목록(435)에 따른 기계학습데이터(436)을 기반으로 분류된다. 자동 분류는 분류대상의 차이가 명확할 경우에 그 성능이 높으며, 비슷한 군에서의 분류는 성능이 낮아지는 경향이 있다. 특히 다단계 분류의 경우는 분석률이 떨어진다. 예를 들어 스포츠, 사회, 경제 등의 큰 카테고리의 분류는 시스템으로는 어느 정도 가능하지만, 스포츠의 구기종목을 야구, 배구, 농구 등으로 분류하는 것은 전자에 비해 상대적으로 분석률이 떨어진다. 자동분류모듈(1230)은 예를 들면, 베이지언(Bayesian), SVM(Support Vector Machine)과 같은 알고리즘을통해 구현될 수 있다. 이때 본 자동분류모듈(1230)은 최상위 카테고리만으로 자동분류하는 것이 바람직하다. 다단계 카테고리로 자동분류를 하는 경우 정확도가 떨어지고 기계학습을 하기 위한 시스템의 부담이 커지기 때문이다.
자동군집모듈(1240)은 자동분류된 인터넷 문서 구조체들을 각 분류 카테고리 별로 군집화 과정을 거친다. 자동군집은 인터넷 문서 구조체들을 시스템이 통계적으로 임의의 단위로 군집한다. 자동군집모듈(1240)은 예를들면, K-means 알고리즘 등을 사용하여 구현될 수 있다. 이렇게 군집된 인터넷 문서 구조체들은 정보량 측정모듈(1250)에서 특성단어 등에 대한 정보량 지수가 측정된다. 특성단어와 이러한 정보량 지수를 결합하여 생성되는 특성단어벡터는 각 인터넷 문서 구조체를 대표하는 단어벡터로 검색을 위하여 사용될 수 있다. 생성된 특성단어벡터를 포함하는 분석 정보는 다시 주 저장부(2100)에 저장된다.
도 4는 본 발명의 실시 예에 따른 조합부 및 주 저장부의 구성 및 기능을 나타내는 개략도이다.
도 4를 참조하면, 조합부(1300)는 인터넷 문서 구조체(150)와 분석 정보(160)를 구조화된 메타정보(metadata)로조합한다. 수집부(1100)에서 수집되어 만들어진 인터넷 문서(100) 및 주변 정보(102)를 포함하는 인터넷 문서구조체(150) 및 분석부(1200)에서 만들어진 분석 정보를 포함하여 포맷 전환모듈(1320)에서 조합 정보(170)를생성한다. 이때 조합 정보(170)를 생성하기 위해 전환규칙(570)이 사용될 수 있으며, 이를 통하여 마크업(markup) 형식인 조합정보(170)가 생성된다. 로그 저장부(2400)에 저장된 사용자 정보들을 통계 추출모듈(1310)에서통계처리하여 조합 정보(170)와 함께 반영하여 조합 정보(170)를 생성할 수 있다. 즉 조합 정보(170)에는 수집된 인터넷 문서(100), 주변 정보(102) 및 자동번역 정보(104)와 함께 특성단어벡터(162)가 하나의 형식을 가지도록 포함되게 된다.
도 5는 본 발명의 실시 예에 따른 개인화 처리부, 검색부 및 제공부의 구성과 기능을 나타내는 개략도이다.
도 5를 참조하면, 개인화 처리부(1700)의 키워드단어벡터 생성모듈(1710)은 관련 특성단어(1710), 사용자 로그정보(2410), 관심 사용자 로그정보(2420)을 토대로 키워드단어벡터를 생성한다. 로그 저장부(2400)에 저장된 하나의 사용자 로그정보(2410)는 사용자가 미리 선택한 관심 카테고리, 제공된 정보 중 사용자가 선택한 정보들에 대한 기록, 상기 하나의 사용자가 입력한 검색어 등이 포함된다. 로그 저장부(2400)는 복수의 사용자들의 로그정보가 모두 포함되어 있다. 그 중에서 하나의 사용자와 동일하거나 유사한 카테고리 또는 정보에 관심이 있는 사용자들의 사용자 로그정보를 상기 하나의 사용자에 대한 관심 사용자 로그정보(2420)라고 한다.
로그인을 하거나, 사용자 장치(210)에 사용자의 식별이 가능한 정보가 있는 경우에는 이러한 해당 사용자의 사용자 로그정보(2410) 및 관심 사용자 로그정보(2420)를 통하여 키워드단어벡터를 생성한다. 즉, 키워드단어벡터는 예를 들면, 관심있는 카테고리나 정보, 입력한 검색어들로부터 키워드들을 추출하고, 이들 키워드들의 중요도 또는 접근 빈도 등을 가중치로 구하여 단어벡터 형식으로 생성될 수 있다. 만일 로그인을 하지 않는 등 특정사용자임을 확인할 수 없는 경우에는 로그 저장부(2400)에 저장된 로그정보들을 통계처리하여 다수의 사용자가 관심을 가지는 카테고리 또는 키워드를 토대로 키워드단어벡터를 생성한다.
관련 특성단어 저장부(1700)에는 전술한 바와 같이 관련 특성단어(1710)들이 저장되어 있다. 관련 특성단어(1710)는 어떠한 특성단어와 관련이 있는 다른 특성단어들이 단어벡터 형식으로 포함된다. 관련 특성단어(1710)는 시간의 흐름에 따라서 관련이 있는 다른 특성단어들이 바뀌거나 가중치가 변화하게 된다. 따라서 키워드단어벡터 생성모듈(1710)에서는 이러한 관련 특성단어(1710)를 함께 반영하여 키워드단어벡터를 생성할 수 있다.
이처럼 관련 특성단어(1710)가 반영된 키워드단어벡터는 동일한 키워드에 대하여 시간의 경과에 맞는 더욱 정확한 정보를 검색할 수 있도록 할 수 있다.
관련 특성단어(1710)는 현재 시점에 대한 특성단어들의 관련성을 나타내기 위하여 수집된 정보들로부터 실시간업데이트가 될 수 있고, 또는 특정 시점에 대한 특성단어들의 관련성을 나타내기 위하여 요청 시에 생성될 수도있다.
색인 저장부(2200)에는 색인부(1400)에서 조합정보(170)를 색인하여 생성한 색인정보(2210)가 저장되어 있다.검색부(1600)는 개인화 처리부(1700)에서 생성한 키워드단어벡터와 색인 정보(2210)에 포함된 특성단어벡터
(2212)들의 거리를 계산하여 사용자에게 맞는 맞춤형 정보를 검색한다.
제공부(1800)에서는 검색부(1600)에서 검색한 결과를 토대로 사용자에게 정보를 제공한다. 이때 키워드단어벡터와 거리가 가까운 특성단어벡터(2212)에 해당하는 인터넷 문서 구조체(150)는 거리가 먼 인터넷 문서 구조체(150)보다 사용자가 관심을 많이 가지는 정보이므로 우선적으로 제공할 수 있다. 콘텐츠 제공모듈(1810)은 사용자들이 사용하는 화면크기, 해상도, 표현문자, 컬러 등이 포함된 생성규칙(1820)을 이용하여 사용자 장치(210)에 맞는 정보를 제공할 수 있다. 콘텐츠 제공모듈(1810)은 예를 들면, 별도의 인터넷 서비스(웹사이트, 포털사이트 등)를 통하여 정보를 제공할 수도 있다. 일반적인 개인용 컴퓨터 사용자에게는 RSS 문서를 볼 수 있는 RSS리더기에서 살펴볼 수 있도록 RSS 형식으로 정보를 생성하여 피딩과 같은 형태로 제공할 수 있으며, 이동통신단말기 사용자에게는 해당 이동통신단말기의 대기화면에 맞는 형식으로 정보를 생성하여 제공할 수 있다.

Claims (1)

  1. 네트워크와 연결되며, 주저장부 및 로그 저장부를 포함하는 저장부와 제어부를 포함하여 이루어지는 사용자 맞춤형 정보 시스템에 있어서,
    상기 제어부는,
    상기 네트워크를 통하여 인터넷 문서 및 상기 인터넷 문서와 연결된 주변 정보를 수집하여 상기 인터넷 문서별로 인터넷 문서 구조체를 생성하는 수집부,
    상기 인터넷 문서 구조체를 텍스트마이닝으로 분석하여 특성단어벡터를 포함하는 분석정보를 생성하는 분석부,
    사용자 로그정보를 포함하는 사용자 정보로부터 생성되는 키워드단어벡터를 생성하는 개인화처리부,
    상기 키워드단어벡터와 상기 특성단어벡터를 비교하여 상기 키워드단어벡터에 관련되는 인터넷 문서 구조체를 검색하는 검색부 및
    상기 검색된 인터넷 문서 구조체를 상기 네트워크와 연결되는 사용자 장치에 맞도록 가공하여 상기 사용자 장치에 제공하는 제공부를 포함하는 것을 특징으로 하는 사용자 맞춤형 정보 제공 시스템.
KR1020210157371A 2021-11-16 2021-11-16 맞춤정보 제공 시스템 및 방법 KR20230071312A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210157371A KR20230071312A (ko) 2021-11-16 2021-11-16 맞춤정보 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210157371A KR20230071312A (ko) 2021-11-16 2021-11-16 맞춤정보 제공 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20230071312A true KR20230071312A (ko) 2023-05-23

Family

ID=86544868

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210157371A KR20230071312A (ko) 2021-11-16 2021-11-16 맞춤정보 제공 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20230071312A (ko)

Similar Documents

Publication Publication Date Title
KR102158352B1 (ko) 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
KR100974064B1 (ko) 사용자 맞춤형 정보 제공 시스템 및 그 방법
US20210382927A1 (en) System and method for hierarchically organizing documents based on document portions
Yanbe et al. Can social bookmarking enhance search in the web?
Pu et al. Subject categorization of query terms for exploring Web users' search interests
Sharoff Open-source corpora: Using the net to fish for linguistic data
US7783644B1 (en) Query-independent entity importance in books
TWI529549B (zh) 補充文章內容之方法、電腦可讀取紀錄媒體以及裝置
US20130110839A1 (en) Constructing an analysis of a document
Aletras et al. Evaluating topic representations for exploring document collections
Geçkil et al. A clickbait detection method on news sites
KR101059557B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
Schedl # nowplaying Madonna: a large-scale evaluation on estimating similarities between music artists and between movies from microblogs
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
Yulianti et al. Tweet‐biased summarization
Iacobelli et al. Finding new information via robust entity detection
Wu et al. A new approach to query segmentation for relevance ranking in web search
KR20230071312A (ko) 맞춤정보 제공 시스템 및 방법
Iinuma et al. Automatic summarization of multiple travel blog entries focusing on travelers’ behavior
Rahimi et al. Building a multi-domain comparable corpus using a learning to rank method
KR101057075B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
KR101440385B1 (ko) 인디케이터를 이용한 정보 관리 장치
KR20040098889A (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JP2007052693A (ja) Webページ情報表示装置,処理方法およびプログラム
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
E601 Decision to refuse application