KR102244298B1 - 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법 - Google Patents

의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법 Download PDF

Info

Publication number
KR102244298B1
KR102244298B1 KR1020140052838A KR20140052838A KR102244298B1 KR 102244298 B1 KR102244298 B1 KR 102244298B1 KR 1020140052838 A KR1020140052838 A KR 1020140052838A KR 20140052838 A KR20140052838 A KR 20140052838A KR 102244298 B1 KR102244298 B1 KR 102244298B1
Authority
KR
South Korea
Prior art keywords
web page
topic
semantic
graph
node
Prior art date
Application number
KR1020140052838A
Other languages
English (en)
Other versions
KR20150125442A (ko
Inventor
홍석진
우경구
노요한
유상현
이지현
이호동
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140052838A priority Critical patent/KR102244298B1/ko
Priority to CN201510187758.5A priority patent/CN105022775A/zh
Priority to US14/696,104 priority patent/US10521474B2/en
Priority to EP15165653.5A priority patent/EP2940604A1/en
Priority to JP2015092601A priority patent/JP6611458B2/ja
Publication of KR20150125442A publication Critical patent/KR20150125442A/ko
Application granted granted Critical
Publication of KR102244298B1 publication Critical patent/KR102244298B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법이 개시된다. 일 양상에 따른 의미 기반 웹 페이지 접근 기록 구조화 장치는, 사용자가 접근한 적어도 하나의 웹 페이지를 분석하여 웹 페이지 별로 적어도 하나의 토픽을 추출하는 토픽 추출부와, 추출된 적어도 하나의 토픽을 온톨로지의 노드에 맵핑하는 맵핑부와, 매핑된 노드를 포함하는 서브 그래프를 온톨로지에서 추출하고, 추출된 서브 그래프를 기반으로 요약 그래프를 생성하는 요약 그래프 생성부를 포함할 수 있다.

Description

의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법{Apparatus and Method for structuring web page access history based on semantics}
의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법과 관련된다.
최근 휴대용 스마트 기기의 광범위한 보급으로 인하여, 누구든지 휴대용 스마트 기기를 이용하여 언제 어디에서든 원하는 정보를 쉽게 검색할 수가 있게 되었다.
일반적으로 사용자들은 웹 브라우저를 통해 다양한 유형의 정보가 담긴 웹 페이지들을 자유롭게 탐색한다. 웹 페이지를 탐색하면서 웹 페이지에 포함된 정보들은 사용자의 머리에 기억되지만, 많은 웹 페이지를 탐색하거나 탐색 후 많은 시간이 흐르게 되는 경우, 인간 기억의 한계로 인하여 사용자는 습득했던 정보나 접근했던 웹 페이지들을 잊어버리게 된다.
이러한 기억의 휘발성을 보완하기 위해, 사용자는 정보 검색 도중에 필요한 내용을 메모하기도 하고, 과거에 습득한 지식이나 접근한 웹 페이지 정보에 대한 기억을 복원하기 위해 웹 탐색 히스토리 등을 검색하기도 한다. 그러나, 이러한 방법은 정보를 정리하기 위한 노력이 필요하거나, 정리되지 않은 기록으로부터 필요한 정보를 복원해야 하는 불편함이 있다.
의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법을 제공하는 것을 목적으로 한다.
일 양상에 따른 의미 기반 웹 페이지 접근 기록 구조화 장치는, 사용자가 접근한 적어도 하나의 웹 페이지를 분석하여 웹 페이지 별로 적어도 하나의 토픽을 추출하는 토픽 추출부와, 추출된 적어도 하나의 토픽을 온톨로지의 노드에 맵핑하는 맵핑부와, 매핑된 노드를 포함하는 서브 그래프를 온톨로지에서 추출하고, 추출된 서브 그래프를 기반으로 요약 그래프를 생성하는 요약 그래프 생성부를 포함할 수 있다.
여기서, 토픽 추출부는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis) 및 Full blown Bayesian topic models 중 적어도 하나를 이용하여 웹 페이지 별 토픽을 추출할 수 있다.
여기서, 온톨로지는 장치의 외부에 미리 구축된 온톨로지일 수 있다.
여기서, 요약 그래프 생성부는 각 토픽이 추출된 웹 페이지에 접근하기 위한 정보를 각 토픽이 맵핑된 서브 그래프의 해당 노드에 각각 저장하여 요약 그래프를 생성할 수 있다.
여기서, 웹 페이지에 접근하기 위한 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name) 및 URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 중 적어도 하나를 포함할 수 있다.
추가적 양상에 따르면, 의미 기반 웹 페이지 접근 기록 구조화 장치는 요약 그래프가 세션 단위로 생성될 수 있도록, 적어도 하나의 웹 페이지를 세션 단위로 관리하는 세션 관리부를 더 포함할 수 있다.
추가적 양상에 따르면, 적어도 하나의 웹 페이지의 접근 기록을 수집하는 접근 기록 수집부를 더 포함할 수 있다.
추가적 양상에 따르면, 복수의 요약 그래프를 통합하여 통합 요약 그래프를 생성하는 요약 그래프 통합부를 더 포함할 수 있다.
다른 양상에 따른 의미 기반 웹 페이지 접근 기록 구조화 방법은, 사용자가 접근한 적어도 하나의 웹 페이지를 분석하여 웹 페이지 별로 적어도 하나의 토픽을 추출하는 단계와, 추출된 적어도 하나의 토픽을 온톨로지의 노드에 맵핑하는 단계와, 매핑된 노드를 포함하는 서브 그래프를 상기 온톨로지에서 추출하는 단계와, 추출된 서브 그래프를 기반으로 요약 그래프를 생성하는 단계를 포함할 수 있다.
여기서, 웹 페이지 별로 적어도 하나의 토픽을 추출하는 단계는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis) 및 Full blown Bayesian topic models 중 적어도 하나를 이용하여 웹 페이지 별로 적어도 하나의 토픽을 추출할 수 있다.
여기서, 요약 그래프를 생성하는 단계는 각 토픽이 추출된 웹 페이지에 접근하기 위한 정보를 각 토픽이 맵핑된 서브 그래프의 해당 노드에 각각 저장하여 요약 그래프를 생성할 수 있다.
여기서, 웹 페이지에 접근하기 위한 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name) 및 URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 중 적어도 하나를 포함할 수 있다.
추가적 양상에 따르면, 의미 기반 웹 페이지 접근 기록 구조화 방법은 웹 페이지 별로 적어도 하나의 토픽을 추출하는 단계 이전에, 적어도 하나의 웹 페이지의 접근 기록을 수집하는 단계를 더 포함할 수 있다.
추가적 양상에 따르면, 의미 기반 웹 페이지 접근 기록 구조화 방법은 요약 그래프를 생성하는 단계 이후에, 생성된 요약 그래프를 타 요약 그래프와 통합하는 단계를 더 포함할 수 있다.
또 다른 양상에 따른 의미 기반 웹 페이지 접근 기록 구조화 장치는, 사용자가 접근한 적어도 하나의 웹 페이지를 분석하여 웹 페이지 별로 적어도 하나의 토픽을 추출하는 토픽 추출부와, 추출된 적어도 하나의 토픽간의 의미 관계를 분석하는 의미 관계 분석부와, 의미 관계 분석 결과를 기반으로 요약 그래프를 생성하는 요약 그래프 생성부를 포함할 수 있다.
여기서, 토픽 추출부는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis) 및 Full blown Bayesian topic models 중 적어도 하나를 이용하여 웹 페이지 별 토픽을 추출할 수 있다.
여기서, 의미 관계 분석부는 미리 구축된 온톨로지를 기반으로 토픽간의 의미 관계를 분석할 수 있다.
여기서, 요약 그래프 생성부는, 분석된 토픽간의 의미 관계를 기반으로 각 토픽은 노드에 대응시키고, 토픽간 의미 관계는 그 토픽들에 대응되는 노드들을 연결하는 에지에 대응시켜 의미 관계 그래프를 생성하고, 각 토픽이 추출된 웹 페이지에 접근하기 위한 정보를 각 토픽에 대응하는 의미 관계 그래프의 해당 노드에 저장하여 요약 그래프를 생성할 수 있다.
여기서, 웹 페이지에 접근하기 위한 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name) 및 URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 중 적어도 하나를 포함할 수 있다.
추가적 양상에 따르면, 의미 기반 웹 페이지 접근 기록 구조화 장치는 요약 그래프가 세션 단위로 생성될 수 있도록, 적어도 하나의 웹 페이지를 세션 단위로 관리하는 세션 관리부를 더 포함할 수 있다.
추가적 양상에 따르면, 의미 기반 웹 페이지 접근 기록 구조화 장치는 적어도 하나의 웹 페이지의 접근 기록을 수집하는 접근 기록 수집부를 더 포함할 수 있다.
추가적 양상에 따르면, 의미 기반 웹 페이지 접근 기록 구조화 장치는 복수의 요약 그래프를 통합하여 통합 요약 그래프를 생성하는 요약 그래프 통합부를 더 포함할 수 있다.
웹 페이지의 접근 기록을 의미를 기반으로 요약하고 구조화하여 정리해 줌으로써, 해당 탐색 세션에서 어떠한 내용을 주로 검색하였는지, 검색 대상을 충실히 검색하였는지 확인할 수 있다.
과거에 수행하였던 검색의 내용을 기반으로 웹 페이지의 추가 탐색 비용을 줄일 수 있고, 보다 효율적인 웹 탐색을 유도할 수 있다.
도 1은 웹 페이지 접근 기록 구조화 장치의 일 실시예를 도시한 블록도이다.
도 2a는 사용자가 접근한 웹 사이트로부터 토픽을 추출하는 예를 도시한 도면이다.
도 2b는 추출된 토픽을 온톨로지의 노드에 맵핑하는 예를 도시한 도면이다.
도 2c는 온토롤지로부터 서브 그래프를 추출하고 요약 그래프를 생성하는 예를 도시한 도면이다.
도 3은 요약 그래프가 표시되는 사용자 인터페이스 화면의 예를 도시한 도면이다.
도 4는 웹 페이지 접근 기록 구조화 장치의 다른 실시예를 도시한 블록도이다.
도 5는 웹 페이지 접근 기록 구조화 장치의 또 다른 실시예를 도시한 블록도이다.
도 6는 웹 페이지 접근 기록 구조화 장치의 또 다른 실시예를 도시한 블록도이다.
도 7은 웹 페이지 접근 기록 구조화 방법의 일 실시예를 도시한 흐름도이다.
도 8은 웹 페이지 접근 기록 구조화 방법의 다른 실시예를 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
온톨로지는 어떤 관심의 대상이 되는 분야의 개념화를 하기 위해 명시적이고 정형화한 상세 내역(an explicit and formal specification)이다. 온톨로지는 구체적으로 어떤 엘리먼트를 그 속성이나 관계로 정의함으로써 그 엘리먼트에 관한 지식을 저장한다. 예를 들어, "남자는 사람이다"라는 지식이 있을 때에 "남자", "사람"은 일반적인 개념으로서 클래스라고 하는데, "남자" 클래스는 "사람" 클래스에 포함되는 개념이다. 따라서 두 클래스는 좀더 넓은 클래스와 좁은 클래스 사이의 계층을 표현하는 관계 속성으로 설명될 수 있다. 이러한 관계 속성을 "isA"라고 표현한다. 또한 이러한 포함 관계는 여러 계층으로 형성될 수 있다.
속성은 여러 가지 형태가 있는데, 예를 들어 "운동을 하면 건강해진다"라는 지식이 있다면, "운동"과 "건강" 사이에는 인과 관계가 있는 것이고 이를 통상적으로 "cause"라고 한다. 예를 들어, "여름은 덥다"와 같이 어떤 개념이 어떤 특성을 가지는 경우에는 "여름"과 "덥다"는 "hasProperty"라는 관계 속성으로 관계 지을 수 있다. 관계 속성은 정해진 것이 아니며, 작성자가 해당 온톨로지의 목적에 맞게 정의할 수 있다.
온톨로지는 방향성이 있는 그래프 구조로 복수의 노드 및 에지로 구성될 수 있다. 여기서, 노드는 클래스에 에지는 클래스간의 관계 속성에 대응될 수 있다.
한편, 웹 페이지는 인터넷 상에 있는 개개의 문서를 말하며, 본 명세서에서 웹 페이지와 페이지는 동일한 의미로 사용되며, 혼용될 수 있다.
도 1은 웹 페이지 접근 기록 구조화 장치의 일 실시예를 도시한 블록도이다.
일 실시예에 따른 웹 페이지 접근 기록 구조화 장치(100)는 사용자가 접근한 웹 페이지들을 의미(semantics)에 기반하여 구조적으로 요약 정리를 할 수 있는 장치로, 고정 단말 또는 이동 단말로 구현될 수 있다. 그러나, 이에 한정되는 것은 아니며, 웹 페이지 접근 기록 구조화 장치(100)가 별개의 장치로 구현되어 고정 단말 또는 이동 단말에 탑재되는 것도 가능하다.
여기서, 고정 단말은 디지털 TV, 스마트 TV, 데스크탑 컴퓨터 등을 포함할 수 있고, 이동 단말은 휴대폰, 스마트폰, 태블릿 PC, 노트북 컴퓨터(laptop computer), 디지털 방송용 단말기, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 네이게이션 등을 포함할 수 있다.
도 1을 참조하면, 일 실시예에 따른 웹 페이지 접근 기록 구조화 장치(100)는 토픽 추출부(110), 맵핑부(120) 및 요약 그래프 생성부(130)를 포함할 수 있다.
토픽 추출부(110)는 웹 브라우저를 통하여 사용자가 접근한 웹 페이지들을 분석하여, 페이지별로 적어도 하나의 토픽을 추출할 수 있다.
예를 들면, 토픽 추출부(110)는 웹 페이지에 포함된 텍스트 데이터를 구문 분석(syntactic analysis)하고, 그 결과 추출된 명사를 토픽으로 추출할 수 있다.
다른 예를 들면, 토픽 추출부(110)는 웹 페이지에서 출현 빈도가 높은 단어를 토픽으로 추출할 수 있다.
이를 위해, 토픽 추출부(110)는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis), Full blown Bayesian topic models 등을 이용할 수 있으나, 이에 한정되는 것은 아니며, 문서에서 토픽을 추출하기 위한 다양한 토픽 추출 알고리즘을 이용할 수 있다.
맵핑부(120)는 토픽 추출부(110)에서 추출한 토픽을 개념의 계층 구조로 구성된 온톨로지의 노드에 맵핑할 수 있다.
예를 들어, 토픽 추출부(110)가 웹 페이지 1에서는 "캠핑용품"을, 웹 페이지 2에서는 "캠핑용품", "침낭" 및 "텐트"를 토픽으로 추출한 경우, 맵핑부(120)는 "캠핑용품"클래스에 대응하는 온톨로지 노드에는 "캠핑용품"토픽을, "침낭"클래스에 대응하는 온톨로지 노드에는 "침낭"토픽을, "텐트"클래스에 대응하는 온톨로지 노드에는 "텐트"토픽을 각각 맵핑할 수 있다.
이때, 온톨로지는 웹 페이지 접근 기록 구조화 장치(100)의 외부 서버에 미리 구축되어 있을 수 있으며, 웹 페이지 접근 기록 구조화 장치(100)의 내부에 미리 구축되어 있을 수도 있다.
요약 그래프 생성부(130)는 각 토픽이 맵핑된 노드들을 포함하는 서브 그래프를 온톨로지에서 추출하고, 추출된 서브 그래프를 기반으로 요약 그래프를 생성할 수 있다.
전술한 바와 같이 온톨로지는 방향성이 있는 그래프 구조로 복수의 노드들로 구성되므로, 요약 그래프 생성부(130)는 각 토픽이 맵핑된 노드들을 포함하는 서브 그래프를 온톨로지로부터 추출할 수 있다.
또한, 요약 그래프 생성부(130)는 각 토픽이 추출된 웹 페이지에 접근할 수 있는 정보를 서브 그래프의 해당 노드에 각각 저장하여 요약 그래프를 생성할 수 있다.
예를 들어, 상기의 예에서 웹 페이지 1의 토픽은 "캠핑용품"이고, 웹 페이지 2의 토픽은 "캠핑용품", "침낭" 및 "텐트"인 경우, 요약 그래프 생성부(130)는 "캠핑용품"토픽이 맵핑된 노드(이하, 캠핑용품 노드), "침낭"토픽이 맵핑된 노드(이하, 침낭 노드) 및 "텐트"토픽이 맵핑된 노드(이하, 텐트 노드)을 포함하는 서브 그래프를 온톨로지에서 추출한다. 그 후, 요약 그래프 생성부(130)는 서브 그래프의 캠핑용품 노드에는 "캠핑용품"토픽이 추출된 웹 페이지 1 및 웹 페이지 2에 접근할 수 있는 정보를 저장하고, 서브 그래프의 침낭 노드에는 "침낭"토픽이 추출된 웹 페이지 2에 접근할 수 있는 정보를 저장하고, 서브 그래프의 텐트 노드에는 "텐트"토픽이 추출된 웹 페이지 2에 접근할 수 있는 정보를 각각 저장함으로써, 요약 그래프를 생성한다.
여기서, 웹 페이지에 접근할 수 있는 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name), URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
도 2a 내지 도 2c는 웹 페이지 접근 기록 구조화 과정을 설명하기 위한 도면이다. 자세하게는, 도 2a는 사용자가 접근한 웹 사이트로부터 토픽을 추출하는 예를 도시한 도면이고, 도 2b는 추출된 토픽을 온톨로지의 노드에 맵핑하는 예를 도시한 도면이고, 도 2c는 온토롤지로부터 서브 그래프를 추출하고 요약 그래프를 생성하는 예를 도시한 도면이다.
도 2a를 참조하면, 사용자가 웹 브라우저를 이용하여 6개의 웹 페이지들(211 내지 216)을 순차적으로 접근하면, 토픽 추출부(110)는 사용자가 접근한 웹 페이지(211 내지 216)를 분석하여 각 페이지의 토픽(220)을 추출한다.
도 2a에 도시된 예와 같이, 토픽 추출부(110)는 웹 페이지 1(211)을 분석하여 토픽 1를, 웹 페이지 2(212)를 분석하여 토픽 1, 토픽 2 및 토픽 3을, 웹 페이지 3(213)을 분석하여 토픽 4를, 웹 페이지 4(214)를 분석하여 토픽 5, 토픽 6, 토픽 7 및 토픽 8을, 웹 페이지 5(215)를 분석하여 토픽 5 및 토픽 6을, 웹 페이지 6(216)을 분석하여 토픽 6을 추출한다.
이때, 토픽 추출부(110)는 전술한 바와 같이, 토픽 워드 접근법, 어휘 사슬 접근법, 잠재 의미 분석, 확률적 잠재 의미 분석, Full blown Bayesian topic models 등 다양한 토픽 추출 알고리즘을 이용하여 각 페이지에서 토픽을 추출할 수 있다.
도 2b를 참조하면, 맵핑부(120)는 토픽 추출부(110)에 의해 추출된 토픽(220)을 각 토픽에 대응하는 온톨로지(230)의 노드에 각각 맵핑한다.
이때, 온톨로지(230)는 방향성이 있는 그래프 구조로 클래스에 대응되는 노드 및 클래스 간의 관계 속성에 대응되는 에지로 구성된다. 온톨로지(230)는 웹 페이지 접근 기록 구조화 장치(100) 외부에 미리 구축되어 있을 수도 있고, 웹 페이지 접근 기록 구조화 장치(100) 내부에 미리 구축되어 있을 수도 있다.
도 2c를 참조하면, 요약 그래프 생성부(130)는 토픽이 맵핑된 노드를 포함하는 서브 그래프(240)를 온톨로지(230)에서 추출하고, 각 토픽이 추출된 웹 페이지에 접근할 수 있는 정보를 추출된 서브 그래프(240)의 해당 노드에 각각 저장하여 요약 그래프(250)를 생성한다.
도 2a 내지 도2c에 도시된 예에서, 요약 그래프 생성부(130)는 온톨로지(230)에서 토픽 1이 맵핑된 노드(241), 토픽 2가 맵핑된 노드(242), 토픽 3이 맵핑된 노드(243), 토픽 4가 맵핑된 노드(244), 토픽 5가 맵핑된 노드(245), 토픽 6이 맵핑된 노드(246), 토픽 7이 맵핑된 노드(247) 및 토픽 8이 맵핑된 노드(248)을 포함하는 서브 그래프(240)를 추출한다. 이때, 서브 그래프(240)는 온톨로지(230)와 유사하게 각 토픽이 맵핑된 노드(230) 및 각 토픽간의 관계 속성을 나타내는 에지로 구성될 수 있다.
또한, 요약 그래프 생성부(130)는 토픽 1이 맵핑된 노드(241)에는 토픽 1이 추출된 웹 페이지 1(211) 및 웹 페이지 2(212)에 접근할 수 있는 정보를, 토픽 2가 맵핑된 노드(242)에는 토픽 2가 추출된 웹 페이지 2(212)에 접근할 수 있는 정보를, 토픽 3이 맵핑된 노드(243)에는 토픽 3이 추출된 웹 페이지 2(212)에 접근할 수 있는 정보를, 토픽 4가 맵핑된 노드(244)에는 토픽 4가 추출된 웹 페이지 3(213)에 접근할 수 있는 정보를, 토픽 5가 맵핑된 노드(245)에는 토픽 5가 추출된 웹 페이지 4(214) 및 웹 페이지 5(215)에 접근할 수 있는 정보를, 토픽 6이 맵핑된 노드(246)에는 토픽 6이 추출된 웹 페이지 4(214), 웹 페이지 5(215) 및 웹 페이지 6(216)에 접근할 수 있는 정보를, 토픽 7이 맵핑된 노드(247)에는 토픽 7이 추출된 웹 페이지 4(214)에 접근할 수 있는 정보를, 토픽 8이 맵핑된 노드(214)에는 토픽 8이 추출된 웹 페이지 4(214)에 접근할 수 있는 정보를 각각 저장하여, 요약 그래프(250)를 생성한다.
이때, 웹 페이지에 접근할 수 있는 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name), URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
도 3은 요약 그래프가 표시되는 사용자 인터페이스 화면의 예를 도시한 도면이다.
도 3을 참조하면, 사용자 인터페이스 화면(300)은 요약 그래프가 표시되는 영역(310) 및 사용자가 선택한 노드에 저장된 정보가 표시되는 영역(320)을 포함한다. 또한, 영역(310)에는 검색하고자 하는 웹 접근 기록의 기간을 설정하기 위한 사용자 인터페이스(311)가 표시된다.
도시된 예에서, 사용자가 검색 기간을 2014년 4월 18일부터 2014년 4월 24일로 설정하면, 웹 페이지 접근 기록 구조화 장치(100)는 사용자가 설정한 검색 기간 동안의 웹 사이트 접근 기록을 기반으로 요약 그래프를 실시간으로 생성하여 영역(310)에 표시하거나 사용자가 설정한 검색 기간 동안의 웹 사이트 접근 기록을 기반으로 생성되어 기 저장되어 있는 요약 그래프를 영역(310)에 표시한다.
그 후, 사용자가 영역(310)에 표시된 요약 그래프 중에서 토픽 6에 대응되는 노드(312)를 선택하면, 노드(312)에 저장된 정보, 즉, 2014년 4월 18일부터 2014년 4월 24일까지의 기간 동안 사용자가 접근한 웹 페이지 중 토픽 6에 관한 내용을 포함한 웹 페이지(웹 페이지 4, 웹 페이지 5 및 웹 페이지 6)에 접근할 수 있도록 하이퍼링크된 각 페이지의 썸네일 이미지(321 내지 323)를 표시한다.
사용자가 표시된 썸네일 이미지(321 내지 323) 중에서 웹 페이지 4의 썸네일 이미지(321)를 선택하면, 웹 페이지 4가 사용자 인터페이스 화면(300) 또는 영역(320)에 표시된다.
도 4는 웹 페이지 접근 기록 구조화 장치의 다른 실시예를 도시한 블록도이다.
도 4를 참조하면, 다른 실시예에 따른 웹 페이지 접근 기록 구조화 장치(400)는 웹 페이지 접근 기록 구조화 장치(100)에서 세션 관리부(410), 접근 기록 수집부(420) 및 요약 그래프 통합부(430)를 선택적으로 더 포함할 수 있다.
세션 관리부(410)는 요약 그래프가 세션 단위로 생성될 수 있도록 사용자가 웹 브라우저를 통해 탐색한 웹 페이지의 묶음을 세션 단위로 관리할 수 있다. 여기서, 세션은 사용자가 웹 브라우저를 통해 탐색을 수행한 일련의 작업 단위를 말한다.
접근 기록 수집부(420)는 사용자가 웹 브라우저를 통해 접근한 웹 페이지들의 접근 기록을 수집할 수 있다.
요약 그래프 통합부(430)는 복수의 요약 그래프를 통합할 수 있다.
웹 페이지 접근 기록 구조화 장치(400)는 기본적으로 개념의 계층 구조로 구성된 온톨로지를 기반으로 웹 접근 기록 요약을 수행한다. 따라서, 하위 개념 탐색을 수행한 토픽들에 대해서는 온톨로지 상의 하위 수준의 노드들이 요약 그래프에 많이 포함되지만, 하위 개념 탐색을 수행하지 못한 토픽들은 하위 수준의 노드가 요약 그래프에 포함되지 않는다.
따라서, 일 실시예에 따르면, 웹 페이지 접근 기록 구조화 장치(400)는 탐색을 많이 하지 않은 노드들에 대해 추가 탐색의 힌트가 될 수 있는 정보를 주는 용도로도 요약 그래프를 활용될 수 있다. 예컨대, 웹 페이지 접근 기록 구조화 장치(400)는 탐색을 많이 하지 않은 노드에 대해 미리 정보를 검색해서 보여주는 데에 활용될 수도 있으며, 해당 노드에 대해 다른 사용자들이 탐색한 정보를 모아서 보여주는 데에 활용될 수도 있다. 이를 위해, 요약 그래프 통합부(430)는 다수의 요약 그래프를 모아서 하나의 통합된 요약 그래프를 생성할 수 있다.
도 5는 웹 페이지 접근 기록 구조화 장치의 또 다른 실시예를 도시한 블록도이다.
도 5를 참조하면, 웹 페이지 접근 기록 구조화 장치(510)는 토픽 추출부(510), 의미 관계 분석부(520) 및 요약 그래프 생성부(530)를 포함할 수 있다.
토픽 추출부(510)는 웹 브라우저를 통하여 사용자가 접근한 웹 페이지들을 분석하여, 페이지별로 적어도 하나의 토픽을 추출할 수 있다.
예를 들면, 토픽 추출부(510)는 웹 페이지에 포함된 텍스트 데이터를 구문 분석(syntactic analysis)하고, 그 결과 추출된 명사를 토픽으로 추출할 수 있다.
다른 예를 들면, 토픽 추출부(510)는 웹 페이지에서 출현 빈도가 높은 단어를 토픽으로 추출할 수 있다.
이를 위해, 토픽 추출부(510)는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis), Full blown Bayesian topic models 등을 이용할 수 있으나, 이에 한정되는 것은 아니며, 문서에서 토픽을 추출하기 위한 다양한 토픽 추출 알고리즘을 이용할 수 있다.
의미 관계 분석부(520)는 토픽 추출부(510)에서 추출된 토픽간의 의미 관계(semantic relation)를 온톨로지를 기반으로 분석할 수 있다. 이때, 온톨로지는 웹 페이지 접근 기록 구조화 장치(500)의 외부 서버에 미리 구축되어 있을 수 있으며, 웹 페이지 접근 기록 구조화 장치(500)의 내부에 미리 구축되어 있을 수도 있다.
온톨로지가 웹 페이지 접근 기록 구조화 장치(500)의 외부 서버에 미리 구축되어 있는 경우, 의미 관계 분석부(520)는 웹 페이지 접근 기록 구조화 장치(500)가 탑재되는 단말의 통신 모듈을 통하여, 외부 서버와 통신할 수 있다. 즉, 의미 관계 분석부(520)는 단말의 통신 모듈을 통하여 외부 서버에 토픽간 의미 관계 분석을 요청하고 외부 서버로부터 토픽간 의미 관계 분석 결과를 수신할 수 있다. 이 경우, 외부 서버는 토픽간 의미 관계 분석 요청을 수신하여, 미리 구축된 온톨로지를 기반으로 토픽간 의미 관계를 분석하여 그 결과를 단말의 통신 모듈을 통하여 의미 관계 분석부(520)에 전송할 수 있다.
일 실시예에 따르면, 웹 페이지 접근 기록 구조화 장치는 외부 서버와 통신하기 위한 통신부(미도시)를 더 포함할 수 있다. 이 경우, 의미 관계 분석부(520)는 웹 페이지 접근 기록 구조화 장치의 통신부를 통하여 외부 서버와 통신한다.
요약 그래프 생성부(530)는 의미 관계 분석부(520)의 분석 결과를 기반으로 요약 그래프를 생성할 수 있다.
요약 그래프 생성부(530)는 의미 관계 분석부(520)에서 분석된 토픽간 의미 관계를 기반으로 각 토픽은 노드에, 토픽간 의미 관계는 그 토픽들에 대응되는 노드들을 연결하는 에지에 각각 대응시켜 의미 관계 그래프를 생성할 수 있다.
요약 그래프 생성부(530)는 각 토픽이 추출된 페이지에 접근할 수 있도록 의미 관계 그래프의 각 노드에 해당 노드의 토픽이 추출된 페이지에 접근할 수 있는 정보를 저장하여, 요약 그래프를 생성할 수 있다.
여기서, 웹 페이지에 접근할 수 있는 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name), URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
도 6는 웹 페이지 접근 기록 구조화 장치의 또 다른 실시예를 도시한 블록도이다.
도 6을 참조하면, 또 다른 실시예에 따른 웹 페이지 접근 기록 구조화 장치(600)는 웹 페이지 접근 기록 구조화 장치(500)에서 세션 관리부(610), 접근 기록 수집부(620) 및 요약 그래프 통합부(630)를 선택적으로 더 포함할 수 있다.
세션 관리부(610)는 요약 그래프가 세션 단위로 생성될 수 있도록 사용자가 웹 브라우저를 통해 탐색한 웹 페이지의 묶음을 세션 단위로 관리할 수 있다. 여기서, 세션은 사용자가 웹 브라우저를 통해 탐색을 수행한 일련의 작업 단위를 말한다.
접근 기록 수집부(620)는 사용자가 웹 브라우저를 통해 접근한 웹 페이지들의 접근 기록을 수집할 수 있다.
요약 그래프 통합부(630)는 복수의 요약 그래프를 통합할 수 있다.
도 7은 웹 페이지 접근 기록 구조화 방법의 일 실시예를 도시한 흐름도이다.
도 7을 참조하면, 일 실시예에 따른 웹 페이지 접근 기록 구조화 방법(700)은 먼저, 사용자가 접근한 웹 페이지들을 분석하여 페이지별로 적어도 하나의 토픽을 추출한다(710). 예를 들면, 토픽 추출부(110)는 웹 페이지에 포함된 텍스트 데이터를 구문 분석(syntactic analysis)하고, 그 결과 추출된 명사를 토픽으로 추출할 수 있다. 다른 예를 들면, 토픽 추출부(110)는 웹 페이지에서 출현 빈도가 높은 단어를 토픽으로 추출할 수 있다. 이를 위해, 토픽 추출부(110)는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis), Full blown Bayesian topic models 등을 이용할 수 있으나, 이에 한정되는 것은 아니며, 문서에서 토픽을 추출하기 위한 다양한 토픽 추출 알고리즘을 이용할 수 있다.
그 후, 추출된 토픽을 개념의 계층 구조로 구성된 온톨로지의 노드에 맵핑한다(720). 예를 들면, 맵핑부(120)는 추출된 각 토픽을 개념의 계층 구조로 구성된 온톨로지의 대응 노드에 각각 맵핑할 수 있다.
그 후, 각 토픽이 맵핑된 노드들을 포함하는 서브 그래프를 온톨로지에서 추출한다(730). 예를 들어, 요약 그래프 생성부(130)는 각 토픽이 맵핑된 노드들만을 포함하는 서브 그래프를 온톨로지로부터 추출할 수 있다.
그 후, 추출된 서브 그래프를 기반으로 요약 그래프를 생성한다(740). 예를 들면, 요약 그래프 생성부(130)는 각 토픽이 추출된 웹 페이지에 접근할 수 있는 정보를 서브 그래프의 해당 노드에 각각 저장하여 요약 그래프를 생성할 수 있다.
여기서, 웹 페이지에 접근할 수 있는 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name), URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이때, 요약 그래프는 세션 단위로 생성될 수 있다. 이때, 세션은 사용자가 웹 브라우저를 통해 탐색을 수행한 일련의 작업 단위를 말한다.
한편, 추가적 실시예에 따르면, 웹 페이지 접근 기록 구조화 방법(700)은 사용자가 웹 브라우저를 통해 접근한 웹 페이지들의 접근 기록을 수집하는 단계(705)를 더 포함할 수 있다.
한편, 추가적 실시예에 따르면, 웹 페이지 접근 기록 구조화 방법(700)은 생성된 요약 그래프를 타 요약 그래프와 통합하는 단계(745)를 더 포함할 수 있다.
도 8은 웹 페이지 접근 기록 구조화 방법의 다른 실시예를 도시한 흐름도이다.
도 8을 참조하면, 다른 실시예에 따른 웹 페이지 접근 기록 구조화 방법(800)은 먼저, 웹 브라우저를 통해 사용자가 접근한 웹 페이지들을 분석하여, 페이지별로 적어도 하나의 토픽을 추출한다(810). 예를 들면, 토픽 추출부(510)는 웹 페이지에 포함된 텍스트 데이터를 구문 분석(syntactic analysis)하고, 그 결과 추출된 명사를 토픽으로 추출할 수 있다. 다른 예를 들면, 토픽 추출부(510)는 웹 페이지에서 출현 빈도가 높은 단어를 토픽으로 추출할 수 있다. 이를 위해, 토픽 추출부(510)는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis), Full blown Bayesian topic models 등을 이용할 수 있으나, 이에 한정되는 것은 아니며, 문서에서 토픽을 추출하기 위한 다양한 토픽 추출 알고리즘을 이용할 수 있다.
그 후, 추출된 토픽간의 의미 관계(semantic relation)를 계념의 계층 구조로 구성된 온톨로지를 기반으로 분석할 수 있다(820). 예를 들면, 의미 관계 분석부(520)는 웹 페이지 접근 기록 구조화 장치(500)의 외부 서버 또는 내부에 미리 구축되어 있는 온톨로지를 기반으로 토픽간의 의미 관계를 분석할 수 있다.
그 후, 의미 관계 분석 결과를 기반으로 의미 관계 그래프를 생성한다(830). 예를 들면, 요약 그래프 생성부(530)는 의미 관계 분석부(520)의 분석 결과를 기반으로 각 토픽은 노드에, 토픽간 의미 관계는 그 토픽들에 대응되는 노드들을 연결하는 에지에 각각 대응시켜 의미 관계 그래프를 생성할 수 있다.
그 후, 생성된 의미 관계 그래프를 기반으로 요약 그래프를 생성한다(840). 예를 들면, 요약 그래프 생성부(530)는 각 토픽이 추출된 페이지에 접근할 수 있도록 의미 관계 그래프의 각 노드에 해당 노드의 토픽이 추출된 페이지에 접근할 수 있는 정보를 저장하여, 요약 그래프를 생성할 수 있다.
여기서, 웹 페이지에 접근할 수 있는 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name), URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
한편, 추가적 실시예에 따르면, 웹 페이지 접근 기록 구조화 방법(800)은 사용자가 웹 브라우저를 통해 접근한 웹 페이지들의 접근 기록을 수집하는 단계(805)를 더 포함할 수 있다.
한편, 추가적 실시예에 따르면, 웹 페이지 접근 기록 구조화 방법(800)은 생성된 요약 그래프를 타 요약 그래프와 통합하는 단계(845)를 더 포함할 수 있다.
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
100: 웹 페이지 접근 기록 구조화 장치
110: 토픽 추출부
120: 맵핑부
130: 요약 그래프 생성부

Claims (22)

  1. 사용자가 접근한 적어도 하나의 웹 페이지를 분석하여 웹 페이지 별로 적어도 하나의 토픽을 추출하는 토픽 추출부;
    추출된 적어도 하나의 토픽을 온톨로지의 노드에 맵핑하는 맵핑부;
    매핑된 노드를 포함하는 서브 그래프를 상기 온톨로지에서 추출하고, 추출된 서브 그래프를 기반으로 요약 그래프를 생성하는 요약 그래프 생성부; 및
    상기 요약 그래프 및 사용자가 선택한 노드에 저장된 정보를 디스플레이 하는 사용자 인터페이스;를 포함하고,
    상기 온톨로지는 각 토픽에 대응하는 노드와 노드들 사이의 계층적 관계에 대응하는 에지를 포함하는 방향성 있는 그래프 구조인, 의미 기반 웹 페이지 접근 기록 구조화 장치.
  2. 제1항에 있어서,
    상기 토픽 추출부는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis) 및 Full blown Bayesian topic models 중 적어도 하나를 이용하여 웹 페이지 별 토픽을 추출하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  3. 제1항에 있어서,
    상기 온톨로지는 상기 장치의 외부에 미리 구축된 온톨로지인 의미 기반 웹 페이지 접근 기록 구조화 장치.
  4. 제1항에 있어서,
    상기 요약 그래프 생성부는 각 토픽이 추출된 웹 페이지에 접근하기 위한 정보를 상기 각 토픽이 맵핑된 서브 그래프의 해당 노드에 각각 저장하여 요약 그래프를 생성하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  5. 제4항에 있어서,
    상기 웹 페이지에 접근하기 위한 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name) 및, URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 중 적어도 하나를 포함하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  6. 제1항에 있어서,
    상기 요약 그래프가 세션 단위로 생성될 수 있도록, 상기 적어도 하나의 웹 페이지를 세션 단위로 관리하는 세션 관리부; 를 더 포함하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  7. 제1항에 있어서,
    상기 적어도 하나의 웹 페이지의 접근 기록을 수집하는 접근 기록 수집부; 를 더 포함하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  8. 제1항에 있어서,
    복수의 요약 그래프를 통합하여 통합 요약 그래프를 생성하는 요약 그래프 통합부; 를 더 포함하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  9. 사용자가 접근한 적어도 하나의 웹 페이지를 분석하여 웹 페이지 별로 적어도 하나의 토픽을 추출하는 단계;
    추출된 적어도 하나의 토픽을 온톨로지의 노드에 맵핑하는 단계;
    매핑된 노드를 포함하는 서브 그래프를 상기 온톨로지에서 추출하는 단계;
    추출된 서브 그래프를 기반으로 요약 그래프를 생성하는 단계; 및
    상기 요약 그래프 및 사용자가 선택한 노드에 저장된 정보를 디스플레이 하는 단계;를 포함하고,
    상기 온톨로지는 각 토픽에 대응하는 노드와 노드들 사이의 계층적 관계에 대응하는 에지를 포함하는 방향성 있는 그래프 구조인, 의미 기반 웹 페이지 접근 기록 구조화 방법.
  10. 제9항에 있어서,
    상기 웹 페이지 별로 적어도 하나의 토픽을 추출하는 단계는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis) 및 Full blown Bayesian topic models 중 적어도 하나를 이용하여 웹 페이지 별로 적어도 하나의 토픽을 추출하는 의미 기반 웹 페이지 접근 기록 구조화 방법.
  11. 제9항에 있어서,
    상기 요약 그래프를 생성하는 단계는 각 토픽이 추출된 웹 페이지에 접근하기 위한 정보를 상기 각 토픽이 맵핑된 서브 그래프의 해당 노드에 각각 저장하여 요약 그래프를 생성하는 의미 기반 웹 페이지 접근 기록 구조화 방법.
  12. 제11항에 있어서,
    상기 웹 페이지에 접근하기 위한 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name) 및, URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 중 적어도 하나를 포함하는 의미 기반 웹 페이지 접근 기록 구조화 방법.
  13. 제9항에 있어서,
    상기 웹 페이지 별로 적어도 하나의 토픽을 추출하는 단계 이전에,
    상기 적어도 하나의 웹 페이지의 접근 기록을 수집하는 단계; 를 더 포함하는 의미 기반 웹 페이지 접근 기록 구조화 방법.
  14. 제9항에 있어서,
    상기 요약 그래프를 생성하는 단계 이후에,
    상기 생성된 요약 그래프를 타 요약 그래프와 통합하는 단계; 를 더 포함하는 의미 기반 웹 페이지 접근 기록 구조화 방법.
  15. 사용자가 접근한 적어도 하나의 웹 페이지를 분석하여 웹 페이지 별로 적어도 하나의 토픽을 추출하는 토픽 추출부;
    추출된 적어도 하나의 토픽간의 의미 관계를 분석하는 의미 관계 분석부;
    의미 관계 분석 결과를 기반으로 요약 그래프를 생성하는 요약 그래프 생성부; 및
    상기 요약 그래프 및 사용자가 선택한 노드에 저장된 정보를 디스플레이 하는 사용자 인터페이스;를 포함하고,
    상기 요약 그래프는 각 토픽에 대응하는 노드와 노드들 사이의 계층적 관계에 대응하는 에지를 포함하는 방향성 있는 그래프 구조인 온톨로지 기반의 데이터 구조를 포함하는, 의미 기반 웹 페이지 접근 기록 구조화 장치.
  16. 제15항에 있어서,
    상기 토픽 추출부는 토픽 워드 접근법(Topic word approach), 어휘 사슬 접근법(Lexical chain approach), 잠재 의미 분석(LSA: Latent Semantic Analysis), 확률적 잠재 의미 분석(PLSA: Probabilistic Latent Semantic Analysis) 및 Full blown Bayesian topic models 중 적어도 하나를 이용하여 웹 페이지 별 토픽을 추출하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  17. 제15항에 있어서,
    상기 의미 관계 분석부는 미리 구축된 온톨로지를 기반으로 상기 토픽간의 의미 관계를 분석하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  18. 제15항에 있어서,
    상기 요약 그래프 생성부는,
    분석된 토픽간의 의미 관계를 기반으로 각 토픽은 노드에 대응시키고, 토픽간 의미 관계는 그 토픽들에 대응되는 노드들을 연결하는 에지에 대응시켜 의미 관계 그래프를 생성하고,
    각 토픽이 추출된 웹 페이지에 접근하기 위한 정보를 상기 각 토픽에 대응하는 상기 의미 관계 그래프의 해당 노드에 저장하여 요약 그래프를 생성하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  19. 제18항에 있어서,
    상기 웹 페이지에 접근하기 위한 정보는 URL(Uniform Resource Locators), URN(Uniform Resource Name) 및, URL 또는 URN에 연결되도록 하이퍼링크된 웹 페이지의 썸네일 이미지 중 적어도 하나를 포함하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  20. 제15항에 있어서,
    상기 요약 그래프가 세션 단위로 생성될 수 있도록, 상기 적어도 하나의 웹 페이지를 세션 단위로 관리하는 세션 관리부; 를 더 포함하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  21. 제15항에 있어서,
    상기 적어도 하나의 웹 페이지의 접근 기록을 수집하는 접근 기록 수집부; 를 더 포함하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
  22. 제15항에 있어서,
    복수의 요약 그래프를 통합하여 통합 요약 그래프를 생성하는 요약 그래프 통합부; 를 더 포함하는 의미 기반 웹 페이지 접근 기록 구조화 장치.
KR1020140052838A 2014-04-30 2014-04-30 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법 KR102244298B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020140052838A KR102244298B1 (ko) 2014-04-30 2014-04-30 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법
CN201510187758.5A CN105022775A (zh) 2014-04-30 2015-04-20 用于构建网页访问历史的设备和方法
US14/696,104 US10521474B2 (en) 2014-04-30 2015-04-24 Apparatus and method for web page access
EP15165653.5A EP2940604A1 (en) 2014-04-30 2015-04-29 Apparatus and method for web page access
JP2015092601A JP6611458B2 (ja) 2014-04-30 2015-04-30 ウェブページアクセスのための装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140052838A KR102244298B1 (ko) 2014-04-30 2014-04-30 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150125442A KR20150125442A (ko) 2015-11-09
KR102244298B1 true KR102244298B1 (ko) 2021-04-23

Family

ID=53040382

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140052838A KR102244298B1 (ko) 2014-04-30 2014-04-30 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법

Country Status (5)

Country Link
US (1) US10521474B2 (ko)
EP (1) EP2940604A1 (ko)
JP (1) JP6611458B2 (ko)
KR (1) KR102244298B1 (ko)
CN (1) CN105022775A (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160070446A1 (en) * 2014-09-04 2016-03-10 Home Box Office, Inc. Data-driven navigation and navigation routing
US10552008B2 (en) * 2015-06-24 2020-02-04 International Business Machines Corporation Managing a domain specific ontology collection
TWI537751B (zh) * 2015-08-12 2016-06-11 國立雲林科技大學 非揮發性電腦可讀取儲存媒體、影像自動描述系統與方法
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
US11711372B2 (en) 2020-03-16 2023-07-25 AVAST Software s.r.o. Network resource privacy negotiation system and method
US20220012365A1 (en) * 2020-07-11 2022-01-13 AVAST Software s.r.o. System and method for differentiated privacy management of user content
KR102232927B1 (ko) * 2020-11-23 2021-03-26 주식회사 하비비커뮤니케이션 토탈 캠핑 앱 기반의 토탈 캠핑 플랫폼 제공 시스템
US11842153B2 (en) * 2021-07-28 2023-12-12 Microsoft Technology Licensing, Llc Computing system for auto-identification of secondary insights using reverse extraction
KR102600305B1 (ko) * 2022-10-07 2023-11-09 주식회사 커피챗 머신러닝 기반 학습된 모델을 이용한 사용자 맞춤형 대화 파트너 매칭 제공 추천 시스템 및 그 동작 방법
KR102600307B1 (ko) * 2022-10-11 2023-11-09 주식회사 커피챗 사용자별 대표 활동 로그 추출 방법과 머신러닝 모델의 병합을 적용한 사용자 및 대화 파트너 매칭 제공 최적화 시스템 및 그 동작 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033221A1 (en) 1999-06-15 2007-02-08 Knova Software Inc. System and method for implementing a knowledge management system
US20090240682A1 (en) * 2008-03-22 2009-09-24 International Business Machines Corporation Graph search system and method for querying loosely integrated data
JP2009252145A (ja) 2008-04-10 2009-10-29 Toshiba Corp データ作成装置及び方法
JP2010086343A (ja) 2008-09-30 2010-04-15 Toshiba Corp ウェブ閲覧目的分類装置、ウェブ閲覧目的分類方法、及びウェブ閲覧目的分類プログラム
JP2010205265A (ja) 2009-03-05 2010-09-16 Nhn Corp オントロジを用いたコンテンツ検索システムおよび方法
US20110191344A1 (en) * 2010-02-03 2011-08-04 Jing Jin Automatic organization of browsing histories

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050257400A1 (en) * 1998-11-06 2005-11-24 Microsoft Corporation Navigating a resource browser session
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network
KR20060034187A (ko) 2004-10-18 2006-04-21 원인호 솔라셀판 커텐과 이를 내장한 틀
JP4576211B2 (ja) 2004-11-22 2010-11-04 日立オムロンターミナルソリューションズ株式会社 文書情報検索システム
KR100704508B1 (ko) 2004-12-14 2007-04-09 한국전자통신연구원 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
US9817902B2 (en) 2006-10-27 2017-11-14 Netseer Acquisition, Inc. Methods and apparatus for matching relevant content to user intention
CN100449547C (zh) * 2006-12-06 2009-01-07 华为技术有限公司 一种媒体内容管理***及方法
KR100771577B1 (ko) 2007-02-16 2007-10-30 드림아이 커뮤니케이션즈(주) 웹페이지 접속 이력정보 관리방법
KR101087224B1 (ko) 2008-11-20 2011-11-25 후레쉬푸드주식회사 락토바실러스 퍼멘텀 js 균주를 함유하는 소스
JP5077210B2 (ja) 2008-12-04 2012-11-21 富士通モバイルコミュニケーションズ株式会社 携帯型情報処理装置
KR101082814B1 (ko) 2008-12-29 2011-11-11 한양대학교 산학협력단 키워드를 이용한 온톨로지 정보 검색 방법 및 장치
JP5289573B2 (ja) 2009-07-27 2013-09-11 株式会社東芝 関連性提示装置、方法およびプログラム
KR101074505B1 (ko) 2010-01-25 2011-10-17 주식회사 엘지화학 광전지 모듈
US9135354B2 (en) * 2010-04-07 2015-09-15 Yahoo! Inc. Method and system for topical browser history
US8880514B2 (en) 2010-04-27 2014-11-04 Snu R&Db Foundation Terminology-based system for supporting data object definition
KR101097191B1 (ko) 2010-04-27 2011-12-21 서울대학교산학협력단 용어체계에 기반하는 데이터 개체 정의지원 시스템
WO2012031239A2 (en) * 2010-09-02 2012-03-08 Compass Labs, Inc. User interest analysis systems and methods
JP5741242B2 (ja) 2011-06-21 2015-07-01 コニカミノルタ株式会社 プロファイル更新装置およびその制御方法、ならびに、プロファイル更新用プログラム
KR101144371B1 (ko) 2011-07-15 2012-05-10 엔에이치엔비즈니스플랫폼 주식회사 웹페이지에 대한 방문기록을 도식화하는 방법 및 시스템 그리고 상기 방문기록을 이용한 추가정보 제공 방법 및 시스템
GB2498762A (en) * 2012-01-27 2013-07-31 Qatar Foundation Computing user traffic at the website based on user actions
CN103455487B (zh) * 2012-05-29 2018-07-06 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
KR20120119885A (ko) 2012-09-17 2012-10-31 삼성전자주식회사 사용자의 검색 히스토리를 이용한 컨텐츠 분류 방법 및 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033221A1 (en) 1999-06-15 2007-02-08 Knova Software Inc. System and method for implementing a knowledge management system
US20090240682A1 (en) * 2008-03-22 2009-09-24 International Business Machines Corporation Graph search system and method for querying loosely integrated data
JP2009252145A (ja) 2008-04-10 2009-10-29 Toshiba Corp データ作成装置及び方法
JP2010086343A (ja) 2008-09-30 2010-04-15 Toshiba Corp ウェブ閲覧目的分類装置、ウェブ閲覧目的分類方法、及びウェブ閲覧目的分類プログラム
JP2010205265A (ja) 2009-03-05 2010-09-16 Nhn Corp オントロジを用いたコンテンツ検索システムおよび方法
US20110191344A1 (en) * 2010-02-03 2011-08-04 Jing Jin Automatic organization of browsing histories

Also Published As

Publication number Publication date
EP2940604A1 (en) 2015-11-04
US20150317408A1 (en) 2015-11-05
JP6611458B2 (ja) 2019-11-27
US10521474B2 (en) 2019-12-31
KR20150125442A (ko) 2015-11-09
CN105022775A (zh) 2015-11-04
JP2015212947A (ja) 2015-11-26

Similar Documents

Publication Publication Date Title
KR102244298B1 (ko) 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법
Hyvönen Semantic portals for cultural heritage
US11989662B2 (en) Methods and systems for base map and inference mapping
Bedi et al. Focused crawling of tagged web resources using ontology
KR100868187B1 (ko) 사진 기반 통합 컨텐츠 생성 및 제공 시스템 그리고 그방법.
Albanese et al. A multimedia recommender integrating object features and user behavior
Coccoli et al. Interacting with annotated objects in a semantic web of things application
Hu et al. Enabling semantic search and knowledge discovery for ArcGIS Online: A linked-data-driven approach
Aksac et al. A novel semantic web browser for user centric information retrieval: PERSON
CN103257975A (zh) 一种搜索方法、装置及***
Hoque et al. CIDER: Concept-based image diversification, exploration, and retrieval
Sridharan et al. Computational models for experiences in the arts, and multimedia
Fung et al. Discover information and knowledge from websites using an integrated summarization and visualization framework
Florczyk et al. Automatic generation of geospatial metadata for web resources
Beard A semantic web based gazetteer model for VGI
Torre Interaction with Linked Digital Memories.
Rástočný et al. Web search results exploration via cluster-based views and zoom-based navigation
Walther et al. Federated product search with information enrichment using heterogeneous sources
Yuan Spatializing text for deep mapping
Sah et al. Building and managing personalized semantic portals
Liu et al. Learning animal concepts with semantic hierarchy-based location-aware image browsing and ecology task generator
Scharl et al. Media Watch on Climate Change: Building and Visualizing Contextualized Information Spaces.
Rasli et al. Survey on optimizing image, video, and audio query retrieval in multimedia databases
Boll et al. A Web more geospatial: insights into the location inside
Bosch et al. Semantic Web Applications for the Social Sciences

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant