KR100463835B1 - 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법 - Google Patents

무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법 Download PDF

Info

Publication number
KR100463835B1
KR100463835B1 KR10-2002-0063497A KR20020063497A KR100463835B1 KR 100463835 B1 KR100463835 B1 KR 100463835B1 KR 20020063497 A KR20020063497 A KR 20020063497A KR 100463835 B1 KR100463835 B1 KR 100463835B1
Authority
KR
South Korea
Prior art keywords
tag
content
html
index
tree
Prior art date
Application number
KR10-2002-0063497A
Other languages
English (en)
Other versions
KR20040034861A (ko
Inventor
김범호
마평수
신희숙
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0063497A priority Critical patent/KR100463835B1/ko
Priority to US10/365,489 priority patent/US20040078362A1/en
Publication of KR20040034861A publication Critical patent/KR20040034861A/ko
Application granted granted Critical
Publication of KR100463835B1 publication Critical patent/KR100463835B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 무선 단말기에 탑재된 브라우저가 PC(Pernonal Computer)를 대상으로 제작된 웹 컨텐츠(web contents)를 갖고 있는 웹 페이지(web page)에서 인덱스 정보(index information)를 추출하여 사용자에게 최적의 디스플레이(display) 방식으로 보여주는 인덱스 추출 시스템 및 그 방법에 관한 것이다. 특히, 본 발명은 HTML(HyperText Markup Language) 태그 패턴 분석뿐만 아니라 컨텐츠 정보의 속성 분석을 통하여 실시간 분석으로 웹 문서 변환에 필요한 인덱스 정보를 추출한다. 따라서, 웹 문서 변환에 있어서 변환의 유연성이 향상된다.

Description

무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템 및 그 방법{INDEX EXTRACTION METHOD OF WEB CONTENTS TRANSCODING SYSTEM FOR SMALL DISPLAY DEVICES}
본 발명은 무선 단말기에서의 웹 컨텐츠 변환(web contents transcoding)을 위한 인덱스 추출(index extraction) 시스템 및 그 방법에 관한 것으로, 특히, 무선 단말기에 탑재된 브라우저가 PC(Pernonal Computer)를 대상으로 제작된 웹 컨텐츠를 갖고 있는 웹 페이지(web page)에서 인덱스 정보를 추출하여 사용자에게 최적의 디스플레이(display) 방식으로 보여주는 인덱스 추출 시스템 및 그 방법에 관한 것이다.
오늘날 웹은 엄청난 속도로 확산되어 거의 모든 정보들을 웹을 통해 얻을 수 있게 되었다. 이러한 웹 정보들은 HTML(HyperText Markup Language)이라는 마크업 언어를 통하여 웹 문서로 작성되어 웹 브라우저에 의해 해석되고, PC 모니터(Pernonal Computer monitor)를 통하여 각 사용자에게 전달된다. 최근에 무선 기술과 인터넷(internet)의 통합으로 사용자들은 다양한 휴대전화, PDA, 인터넷 TV, 스마트 폰, 웹 패드(WebPad) 등과 같이 PC가 아닌 다양한 스크린 크기를 갖는 단말기를 통해서 인터넷에 액세스할 수 있게 되었다. 하지만 이와 같은 무선 단말기들의 디스플레이 화면의 물리적 크기는 대부분의 기존 웹 페이지가 포함하고 있는 데이터의 양을 지원하지 못하고 데이터 입력이 제한적이기 때문에 브라우저의 기능에 제약을 받는다.
그러므로 유선망에 접속된 PC를 대상으로 제작된 기존의 웹 컨텐츠를 다양한 디스플레이 크기의 단말기에서 사용할 수 있도록 자동으로 변환하여 추가 투자비용 없이 유무선 환경에서 웹 서비스를 제공할 수 있도록 하는 기술이 필요하다.
웹 컨텐츠를 변환함에 있어서의 제약은, HTML 태그는 정보의 시각적 표시 방법만을 나타낼 뿐 XML 태그처럼 정보에 대한 의미를 포함하고 있지 않기 때문에 컨텐츠를 분리하기가 어렵다는 점이다. 그러므로 웹 컨텐츠를 변환하기 이전에 웹 컨텐츠를 분석해 의미 있는 정보를 추출해 내야 한다. 이 때 가장 유용한 정보가 웹 문서의 구조에 대한 정보이다. 보통의 웹 문서는 일정한 구조를 가지고 있기 때문에 웹 문서의 구조를 파악한다면 효율적인 웹 문서 변환을 수행할 수 있다.
웹 문서의 구조 중에서 가장 중요하고 파악하기 쉬운 부분이 메뉴, 게시판, 테이블 등의 인덱스 구조이다. 메뉴는 컨텐츠로의 랜덤한 접근까지 지원하는 원격 네비게이션의 중요한 요소이다. 게시판은 커뮤니티나 자료실 등의 사이트 등에서 사용자가 주로 이용하는 구조이다. 테이블 구조는 웹 문서의 내용 중에서 중요한 데이터나 정보를 계층적으로 표현한 구조이다. 위의 메뉴, 게시판, 테이블 등의 인덱스 구조는 일정한 형식의 컨텐츠가 나열된 형태라는 공통된 특징을 가지고 있다. 이러한 공통된 특징을 바탕으로 웹 컨텐츠에서 인덱스 정보를 추출함으로써 무선 단말기상의 브라우저가 컨텐츠를 표현하기 적당한 형식으로 웹 페이지 형식을 최적화시킬 수 있다.
이를 위해 기존의 기술에서는 HTML 태그 패턴 분석을 통하여 문서의 구조를 파악하였다. 이와 같은 방식은 태그 중심의 분석이므로 컨텐츠 속성을 파악하지 못하므로 인덱스 정보 추출의 정확도가 떨어지게 된다. 또 다른 기존의 기술에서는 웹 문서에의 유용한 정보를 추출하기 위해 HTML 태그 패턴과 추출하고자 하는 정보와 관계되는 컨텐츠 분석하는 방식을 이용한다. 하지만 임의의 웹 문서 구조를 파악하기 위해서는 컨텐츠의 속성 분석이 필요하다.
본 발명은 상술한 결점을 해결하기 위하여 안출한 것으로, HTML 태그 패턴 분석 및 컨텐츠 정보의 속성 분석을 통하여 실시간 분석으로 웹 문서 변환에 필요한 인덱스 정보를 추출하는 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법을 제공하는 데 그 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명은, 웹 컨텐츠를 갖고 있는 웹 서버에 연결된 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템에서 인덱스 추출 방법에 있어서, HTML 문서로부터 HTML 태그 트리를 생성해 내는 제 1 단계; 상기 생성된 HTML 태그 트리에서 분리 태그를 추출하는 제 2 단계; 상기 추출된 분리 태그에서 컨텐츠가 포함된 서브 태그 트리를 추출하는 제 3 단계; 상기 추출된 서브 태그 트리에서 HTML 태그 패턴 및 컨텐츠 속성을 분석하는 제 4 단계; 및 상기 분석된 결과로부터 인덱스 컨텐츠 정보를 추출하는 제 5 단계를 포함하는 것을 특징으로 한다.
또한, 웹 컨텐츠를 갖고 있는 웹 서버에 연결된 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템에 있어서, 상기 웹 서버로부터 제공되는 HTML 문서를 받아 HTML 태그 트리를 생성하는 HTML 태그 트리 생성기; 상기 HTML 태그 트리 생성기로부터 제공되는 상기 HTML 태그 트리에서 분리 태그를 추출하는 분리 태그 추출기; 상기 분리 태그 추출기로부터 제공되는 분리 태그에서 컨텐츠가 포함된 서브 태그 트리를 추출하는 서브 태그 트리 추출기; 상기 서브 태그 트리 추출기로부터 제공되는 상기 서브 태그 트리를 받아 HTML 태그 패턴 및 컨텐츠 속성을 분석하는 HTML 태그 패턴 및 컨텐츠 속성 분석기; 및 상기 HTML 태그 패턴 및 컨텐츠 속성 분석기에서 제공되는 상기 분석 결과로부터 인덱스 컨텐츠 정보를 추출하는 인덱스 정보 추출기를 포함하는 것을 특징으로 한다.
도 1은 본 발명에 따른 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템의 일 실시예를 나타낸 블록도,
도 2는 도 1에 도시된 인덱스 추출기의 일 실시예를 나타낸 블록도,
도 3은 도 2에 도시된 HTML 태그 트리 생성기가 HTML 문서를 읽은 후 생성한 HTML 태그 트리의 예를 나타낸 도면,
도 4는 도 2에 도시된 분리 태그 추출기가 HTML 태그 트리 생성기로부터 제공되는 HTML 태그 트리를 분석한 후 분리 태그를 추출하는 과정을 단계별로 나타낸 순서도,
도 5는 도 2에 도시된 분리 태그 추출기가 추출한 분리 태그의 예를 나타낸 도면,
도 6은 도 2에 도시된 서브 태그 트리 추출기가 분리 태그 추출기에서 추출된 분리 태그를 기준으로 컨텐츠를 추출하기 전에 컨텐츠가 포함되어 있는 서브 트리를 추출한 결과를 나타낸 도면,
도 7은 도 2에 도시된 HTML 태그 패턴 분석기의 동작을 단계별로 나타낸 순서도,
도 8은 도 2에 도시된 컨텐츠 속성 분석기가 서브 태그 트리에 포함되어 있는 실제적인 컨텐츠의 다양한 속성을 분석하여 컨텐츠 분석 점수를 계산하는 동작을 단계별로 나타낸 순서도,
도 9는 도 2에 도시된 인덱스 정보 추출기의 동작에 의해 추출된 인덱스 정보의 예를 나타낸 도면.
<도면의 주요부분에 대한 부호의 설명>
102 : 무선 단말기 104 : 인덱스 추출기
106 : 인터넷 108 : 웹 서버
202 : HTML 태그 트리 생성기
204 : 분리 태그 추출기 205 : 서브 태그 트리 추출기
206 : HTML 태그 패턴 분석기
207 : 컨텐츠 속성 분석기 208 : 인덱스 정보 추출기
우선 본 발명에서 추출하고자 하는 인덱스의 종류를 표 1과 같이 구분한다.
특성인덱스 종류 컨텐츠의 길이 컨텐츠 길이의 표준편차 컨텐츠 개체 속성 컨텐츠 속성 태그
메뉴형 인덱스 짧음 적음 텍스트, 이미지, etc 일정
게시판형 인덱스 비교적 길고 다양함 텍스트 다양
테이블형 인덱스 중간 중간 텍스트, 이미지, etc 일정
먼저, 메뉴형 인덱스는 웹 문서에서 네비게이션을 위한 메뉴 형태의 인덱스이다. 특징으로는 인덱스 컨텐츠의 길이가 짧고 텍스트 길이의 표준편차도 작다. 인덱스 컨텐츠는 텍스트뿐만이 아니라 이미지나 기타 다른 개체로 구성될 수 있고 인덱스 컨텐츠의 속성은 동일하다.
게시판형 인덱스는 웹 문서의 게시판 등에서 보여지는 인덱스 형태로 인덱스 컨텐츠의 길이가 비교적 길고 표준편차 또한 크다. 컨텐츠 개체는 대부분이 텍스트로 이루어져 있고 컨텐츠의 속성은 게시자에 따라 다양하게 나타난다.
테이블형 인덱스는 웹 문서의 테이블 등에서 보여지는 인덱스 형태이다. 테이블형 인덱스의 특징은 인덱스 컨텐츠의 길이가 메뉴형 인덱스보다는 긴 반면에 게시판형 인덱스에 비해서는 짧다. 컨텐츠 길이의 표준편차 또한 메뉴형 인덱스와 게시판형 인덱스의 중간이고 컨텐츠 개체는 텍스트, 이미지, 또는 기타 다른 개체로 구성될 수 있고 인덱스 컨텐츠의 속성은 일정하다.
이와 같은 메뉴, 게시판, 테이블 등의 인덱스 구조는 일정한 형식의 컨텐츠가 나열된 형태라는 공통된 특징을 가지고 있으므로 이러한 공통된 특징을 바탕으로 웹 컨텐츠에서 인덱스 정보를 추출한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세히 설명하면 다음과 같다.
도 1은 본 발명에 따른 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템의 일 실시예를 나타낸 블록도로, 무선 단말기(102), 인덱스 추출기(104), 인터넷(106), 및 웹 서버(108)로 구성된다.
동 도면에 있어서, 무선 단말기(102)는 무선망에 연결되어 있으며, 인터넷(106) 상의 웹 서버(108)와 인덱스 추출기(104)를 통해 연결된다. 사용자가 무선 단말기(102)에 탑재된 웹 브라우저를 사용해서 웹 서버(108)에게 HTML 문서를 인덱스 추출기(104) 및 인터넷(106)을 통해 요청하면 웹 서버(108)는 요청한 HTML 문서를 인덱스 추출기(103)로 인터넷(106)을 통해 전송한다. 인덱스 추출기(104)는 웹 서버(108)로부터 전송된 HTML 문서에서 인덱스 정보를 추출해서 HTML 문서와 함께 요청한 무선 단말기(102)로 전송한다. 무선 단말기(102)에 탑재된 웹 브라우저는 인덱스 추출기(104)로부터 HTML 문서와 인덱스 정보를 받아 HTML 문서를 디스플레이 성능에 적합하게 디스플레이해서 사용자가 볼 수 있도록 한다.
도 2는 도 1에 도시된 인덱스 추출기(104)의 일 실시예를 나타낸 블록도로, HTML 태그 트리 생성기(202), 분리 태그 추출기(204), 서브 태그 트리 추출기(205), HTML 태그 패턴 분석기(206), 컨텐츠 속성 분석기(207), 및 인덱스 정보 추출기(208)로 구성된다.
동 도면에 있어서, HTML 태그 트리 생성기(202)는 웹 서버(108)로부터 인터넷(106)을 통해 제공되는 HTML 문서를 받아 HTML 태그 트리를 생성하여 분리 태그추출기(204)로 제공한다.
분리 태그 추출기(204)는 HTML 태그 트리 생성기(202)로부터 제공되는 HTML 태그 트리에서 분리 태그를 추출하여 서브 태그 트리 추출기(205)로 제공한다.
서브 태그 트리 추출기(205)는 분리 태그 추출기(204)로부터 제공되는 분리 태그에서 컨텐츠가 포함된 서브 태그 트리를 추출하여 HTML 태그 패턴 분석기(206) 및 컨텐츠 속성 분석기(207)로 제공한다.
HTML 태그 패턴 분석기(206)는 서브 태그 트리 추출기(205)로부터 제공되는 서브 태그 트리를 받아 HTML 태그 패턴을 분석해서 태그 패턴의 반복 정도와 태그 속성을 분석하여 이 분석 결과를 인덱스 정보 추출기(208)로 제공한다.
컨텐츠 속성 분석기(207)는 서브 태그 트리 추출기(205)로부터 제공되는 서브 태그 트리를 받아 이 서브 태그 트리에 포함되어 있는 컨텐츠의 여러 속성을 분석하여 이 분석 결과를 인덱스 정보 추출기(208)로 제공한다.
인덱스 정보 추출기(208)는 HTML 태그 패턴 분석기(206) 및 컨텐츠 속성 분석기(207)에서 각기 제공되는 분석 결과로부터 인덱스 컨텐츠 정보를 추출한다.
도 3은 도 2에 도시된 HTML 태그 트리 생성기(202)가 HTML 문서를 읽은 후 생성한 HTML 태그 트리의 예를 나타낸 도면으로, HTML 문서의 일부 태그 트리만 생성한 결과이다. HTML 문서를 태그 트리 구조로 구성하는 이유는 태그 트리 구조가 HTML 문서 구조를 분석하기 용이하기 때문이다. 이 때 HTML 문서에 포함되어 있는 컨텐츠도 하나의 태그 요소로 간주해 태그 트리 구조에 포함한다. 도 3에서 <text1, text2, text3, text4, text5, text6>은 HTML 태그가 아닌 HTML 문서에 포함된 컨텐츠이다. 컨텐츠를 포함시키는 이유는 인덱스를 추출하는 기준으로 HTML 태그 트리에서 태그 분석뿐만 아니라 컨텐츠의 속성 분석도 병행하기 때문이다.
도 4는 도 2에 도시된 분리 태그 추출기(204)가 HTML 태그 트리 생성기(202)로부터 제공되는 HTML 태그 트리를 분석한 후 분리 태그를 추출하는 과정을 단계별로 나타낸 순서도이다.
먼저, 분리 태그 추출기(204)는 HTML 태그 트리 생성기(202)로부터 제공되는 HTML 태그 트리를 입력한다(단계 301).
입력된 HTML 태그 트리를 DFS(Depth First Search) 방식으로 탐색한다(단계 302).
상기 탐색 중에 분리 태그가 나타나면 분리된 서브 트리가 컨텐츠를 포함하는지 여부를 판단한다(단계 303).
상기 단계 303의 판단 결과, 분리된 서브 트리가 컨텐츠를 포함하는 경우 이 때의 분리 태그를 추출한다(단계 304).
상기 추출된 분리 태그 정보를 최종 분리 태그 정보로 추출한다(단계 305).
상술한 분리 태그란 HTML 문서를 분석하기 위해 서브 트리로 구분할 때 사용되는 태그를 말한다. 웹 저작 툴을 이용해 만들어진 웹 문서들의 경우, 웹 문서의 형식은 규칙적이다. 또한 웹 저작 툴을 이용하지 않고 HTML 태그를 이용해 만들어진 웹 문서들의 경우에도, 웹 문서의 제작자가 일정한 배치와 설계 형식을 사용한다. 그러므로 인덱스의 구조에 있어서도 인덱스를 구분해주는 몇 가지의 일정한 태그를 이용해 이루어지게 된다. 이와 같은 분리 태그들의 빈도와 패턴의 정보를 얻어냄으로써 인덱스 정보 추출의 정확도를 높일 수 있게 된다. 다음은 분리 태그들을 나열한 것이다.
분리 태그 = {
<HR> 선 그리기
<TABLE> 표 정의
<LI> 목록을 정리해 주는 태그
<MENU> 메뉴 목록
<Hn> 머리글의 수준
}
도 5는 도 2에 도시된 분리 태그 추출기가 추출한 분리 태그의 예를 나타낸 도면으로, 도 3의 HTML 태그 트리를 DFS 방식으로 탐색하여 추출된 컨텐츠를 포함하는 분리 태그로 추출된 태그는 <table> 태그가 된다.
도 6은 도 2에 도시된 서브 태그 트리 추출기(205)가 분리 태그 추출기(204)에서 추출된 분리 태그를 기준으로 컨텐츠를 추출하기 전에 컨텐츠가 포함되어 있는 서브 트리를 추출한 결과를 나타낸 도면이다. 서브 태그 트리 추출기(205)는 분리 태그 추출기(204)에서 추출된 분리 태그를 기준으로 전체 트리 구조에서 컨텐츠를 포함한 서브 트리를 추출해 낸다.
도 7은 도 2에 도시된 HTML 태그 패턴 분석기(206)의 동작을 단계별로 나타낸 순서도로, 서브 태그 트리 추출기(205)에서 추출된 서브 트리들 중에서 일관성 있게 반복적으로 나타나는 태그 쌍들과 태그 속성들이 존재할 수 있는데, 이 태그패턴들을 이용하여 태그 패턴의 정도를 계산한다.
먼저, HTML 태그 패턴 분석기(206)는 서브 태그 트리 추출기(205)로부터 제공되는 추출된 서브 태그 트리를 입력한다(단계 401).
입력된 서브 태그 트리를 DFS 방식으로 탐색한다(단계 402).
상기 탐색 중에 최소 분리 태그가 나타나면 분리된 서브 트리가 컨텐츠를 포함하는지 여부를 판단한다(단계 403).
상기 단계 403의 판단 결과, 분리된 서브 트리가 컨텐츠를 포함하는 경우 최소 분리 태그를 추출한다(단계 404).
분리된 최소 분리 태그 트리를 탐색한다(단계 405).
반복적으로 나타나는 태그들의 일관성을 조사해서 태그 패턴 점수 속성 점수를 계산한다(단계 406, 407).
태그 분석 점수(Tag Analysis Score : TAS)를 계산(단계 408, 409)한다.
여기서, 서브 트리는 최소 분리 태그 트리 단위로 나누어진다. 최소 분리 태그는 컨텐츠 단위의 태그 분석을 위해 서브 트리를 하나의 컨텐츠를 포함하는 트리로 구분하는, 각 컨텐츠의 시작점과 끝점을 구분하는 태그이다. 다음은 최소 분리 태그를 나열한 것이다.
최소 분리 태그 = {
<BR> 줄 바꾸기
<TR> 행 만들기
<TD> 열 만들기
<UL> 순서가 없는 목록
<OL> 순서가 있는 목록
}
위의 분리 태그를 기준으로 서브 트리를 분석해 하나의 컨텐츠를 포함하는 최소 분리 태그 트리를 추출한다. 분리된 최소 분리 태그 트리를 탐색하면서 반복적으로 나타나는 태그들의 일관성과 속성을 조사해서 태그 분석 점수를 계산한다. 수학식 1은 서브 트리 S의 태그 분석 점수를 계산하는 공식이다.
(단,)
RPS(T, S)는 반복 패턴의 점수(Repetition Pattern Score : RPS)이고 AS(T, S)는 속성 태그의 점수(Attribute Score : AS)이다. 매개 변수인 α는 반복 패턴의 점수와 속성 태그 점수 사이의 비중을 조절하는데 쓰인다. 각 RPS와 AS를 구하는 공식은 다음과 같다.
먼저, 서브 트리 S의 반복 패턴 점수인 RPS(T, S)는 수학식 2의 공식으로 구한다.
위의 식에서 RPS(T, S)는 태그 트리에서 일관성 있게 반복적으로 나타나는태그 쌍들의 반복되는 정도를 점수로 환산한 값이다. RP(T, Si)는 반복되는 태그의 리스트이고 (RP(T, Si) / RP(T, S1)) 의 값은 첫 번째 최소 분리 태그 트리의 태그 패턴에 대한 i번째 최소 분리 태그 트리의 태그 패턴의 일치되는 비율이다.
서브트리 S의 속성 태그 점수 AS(T, S)는, 글자의 속성 태그나 단어와 구절에 효과를 주는 태그의 경우에 다음 속성 태그가 나올 때까지 그 속성이 그대로 유지되므로 반복 패턴으로 분석되지 못하는 경우에 속성들의 일관성을 점수로 계산한 것이다. 게시판형 인덱스의 경우에는 태그 속성이 다양할 수 있으므로 매개 변수 α 값을 조정함으로써 속성 태그 점수의 비중을 낮출 수 있다.
속성 태그에는 컨텐츠의 글자 크기, 폰트, 색상, 정렬 정도를 정의하는 글자 속성 태그, 컨텐츠의 논리적인 스타일을 지정하는 논리적 스타일 태그, 컨텐츠가 웹 브라우저에서 물리적으로 표현되는 속성을 지정하는 물리적 속성 태그로 구분된다. 다음은 속성 태그를 분류한 것이다.
글자 속성 태그 = {
<font size = " 1 ~ 7 "> 글자 크기 조절
<font face = "글꼴 이름"> 글자 폰트
<font color = "RGB 색상 값"> 글자 색상
<div align = "left | center | right"> 글자 정렬
}
논리적 속성 태그 = {
<EM> 강조
<STRONG> 강한 강조
<DFN> 단어의 정의
<VAR> 변수의 이름
<CODE> 프로그램 소스코드
<CITE> 인용구
<KBD> 키보드에서 입력한 내용
<SAMP> 문자열
}
물리적 속성 태그 = {
<B> 진하게
<I> 기울여서
<TT> 타자체
<U> 밑줄 사용하지 말 것
<S> 가운데에 줄
<Strike> 가운데에 줄
<BIG> 크게
<SMALL> 작게
<SUB> 아래 첨자
<SUP> 위 첨자
}
서브트리 S의 태그 속성 점수인 AS(T, S)는 다음과 같은 수학식 3으로 구한다.
수학식 3에서 AS(T, S)는 서브 태그 트리 S에서 속성 태그를 비교해 값으로 환산한 값으로 구해진다. A(T, Si)는 첫 번째 최소 분리 태그 트리의 태그 속성 리스트이고 (A(T, Si) / A(T, S1)) 의 값은 첫 번째 최소 분리 태그 트리의 태그 속성에 대한 i번째 최소 분리 태그 트리의 태그 속성의 일치되는 비율이다.
도 8은 도 2에 도시된 컨텐츠 속성 분석기(207)가 서브 태그 트리에 포함되어 있는 실제적인 컨텐츠의 다양한 속성을 분석하여 컨텐츠 분석 점수(Contents Analysis Score : CAS)를 계산하는 동작을 단계별로 나타낸 순서도이다.
먼저, 컨텐츠 속성 분석기(207)는 서브 태그 트리 추출기(105)가 제공하는 서브 태그 트리를 입력한다(단계 501).
입력된 서브 태그 트리를 탐색한다(단계 502).
다음의 세가지 방법을 조합하여 컨텐츠의 속성을 분석한다.
추출된 각각의 컨텐츠 리스트의 길이를 비교함으로써 유사한 길이의 컨텐츠를 인덱스로 결정한다(단계 503). 이는 메뉴형 인덱스의 경우 인덱스 컨텐츠가 비교적 동일한 길이로 이루어졌기 때문이다. 컨텐츠 길이 비교 방법의 인덱스 추출의정확도를 높이기 위해 컨텐츠 리스트 길이의 표준편차를 비교한다(단계 504). 컨텐츠의 속성을 비교함으로써 텍스트로 이루어진 인덱스뿐만 아니라 다른 개체로 이루어진 컨텐츠를 추출할 때 정확성을 높인다(단계 505).
상기 세 가지 각 방법으로 점수를 구한 후 다음의 수학식 4에 의해서 컨텐츠 분석 점수를 구한다(단계 506, 507).
(단, α + β + γ = 1)
LS(C, S)는 컨텐츠의 길이 점수이고 SD(C, S)와 A(C, S)는 각각 컨텐츠의 길이의 표준편차 점수 컨텐츠의 속성 점수를 나타낸다. 세 가지 매개 변수인 α, β, γ는 각각 컨텐츠 길이 점수, 컨텐츠 길이의 표준편차 점수, 컨텐츠 속성 점수 사이의 비중을 조절하는 데 쓰인다.
α의 값을 조절하는 것은 추출하고자 하는 인덱스 정보가 게시판형 인덱스와 같은 인지 인덱스 정보인지를 조절하는 것과 관계가 있다. α의 값이 클 경우에는 게시판형 인덱스와 가까운 경우이고 α의 값이 작을 경우에는 메뉴형 인덱스에 가까운 경우이다. β의 값은 컨텐츠의 길이의 표준편차 점수의 비중을 결정하는 매개 변수로 β 값이 큰 경우에는 게시판형 인덱스와 유사한 경우이고 β의 값이 작을 경우에는 메뉴형 인덱스와 유사한 경우이다. γ의 값을 조절하는 것은 추출하고자 하는 인덱스 컨텐츠가 텍스트인지 이미지 인지 또는 그 외 다른 개체인지를 결정하는 것과 관계가 있다. 예를 들어 α + β = 0인 경우에는 인덱스가 텍스트가 아닌그림 등의 다른 형식일 경우이다. 이 경우에는 L(C, S)의 값과 SD(C, S)의 값을 구할 수 없기 때문에 A(C, S)의 값에 의해 CAS의 값이 구해진다.
서브트리 S의 컨텐츠 길이 점수(Length Score)인 LS(C, S)는 서브트리 S에서 각 최소 분리 태그 트리의 텍스트 컨텐츠의 길이의 평균값으로 수학식 5와 같은 공식으로 구한다.
컨텐츠 길이의 표준편차 점수(Standard Deviation Score)인 SDS(C, S)는 서브트리 S의 각 최소 분리 태그 트리의 텍스트 컨텐츠의 길이의 표준편차로 다음의 수학식 6에 의해 구해진다.
컨텐츠 속성 점수(Attribute Score)인 AS(C, S)는 다음과 같은 수학식 7에 의해 구해진다.
수학식 7에서 A(C,S_i )는 서브 태그 트리 S에서 컨텐츠의 속성을 비교해 값으로 환산한 값으로 구해진다. A(C, Si)는 첫 번째 최소 분리 태그 트리의 컨텐츠속성 리스트이고 (A(C, Si) / A(C, S1)) 의 값은 첫 번째 최소 분리 태그 트리의 컨텐츠 속성에 대한 i번째 최소 분리 태그 트리의 컨텐츠 속성의 일치되는 비율이다.
상기 HTML 태그 패턴 분석기(206)와 컨텐츠 속성 분석기(207)에서 계산된 점수를 종합해 인덱스 정보 추출기(208)에서 실제적인 인덱스를 추출하게 된다. 각각의 분석기(206, 207)에서 구해진 TAS 값과 CAS 값을 이용해 다음과 같은 공식으로 각 서브 태그 트리 S의 인덱스 점수(Index Score : IS) 값을 구한 후 최종적으로 수학식 8과 같은 인덱스 정보를 추출한다.
매개 변수인 α는 태그 분석 점수와 컨텐츠 분석 점수 사이의 비중을 조절하는 변수이다. α 의 값이 클 경우에는 태그 분석 점수의 비중이 높아지게 되므로 게시판형 인덱스 컨텐츠를 추출하는 경우이다. 반면 α의 값이 작을 경우에는 컨텐츠 분석 점수의 비중이 높아지게 되므로 메뉴형 인덱스 컨텐츠를 추출하는 경우이다.
도 9는 도 2에 도시된 인덱스 정보 추출기(208)의 동작에 의해 추출된 인덱스 정보의 예를 나타낸 도면이다. 도 9의 예에서 추출되는 인덱스 정보는 {text1, text2, text3, text4} 이 된다.
이상에서 설명한 바와 같이, 본 발명은 유선망에 접속된 PC를 대상으로 제작된 기존의 웹 컨텐츠가 무선환경의 단말기 상의 소형 디스플레이에서 최적의 디스플레이 방식으로 표현될 수 있도록 웹 컨텐츠를 자동 변환하는 데 있어서 필요한 인덱스 정보를 추출하는 기능을 제공한다. 본 발명을 통하여 웹 문서의 인덱스 정보를 추출함으로써 웹 문서 변환에 있어서 콘텍스트(context)를 제공하고 변환의 유연성을 향상시킨다. 추출된 메뉴, 게시판, 테이블의 인덱스 정보를 이용해 단말기의 디스플레이의 크기에 따라 별도의 인덱스 페이지를 만들고 인덱스에 해당되는 컨텐츠를 링크시킴으로써 웹 페이지의 효율적인 네비게이션을 제공할 수 있다. 또한, 컨텐츠 헤더나 텍스트 블록의 첫 문장을 링크로 대체해 웹 문서를 계층적 구조로 구성할 수 있다.

Claims (6)

  1. 웹 컨텐츠를 갖고 있는 웹 서버에 연결된 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템에서 인덱스 추출 방법에 있어서,
    HTML 문서로부터 HTML 태그 트리를 생성해 내는 제 1 단계;
    상기 생성된 HTML 태그 트리에서 분리 태그를 추출하는 제 2 단계;
    상기 추출된 분리 태그에서 컨텐츠가 포함된 서브 태그 트리를 추출하는 제 3 단계;
    상기 추출된 서브 태그 트리에서 HTML 태그 패턴 및 컨텐츠 속성을 분석하는 제 4 단계; 및
    상기 분석된 결과로부터 인덱스 컨텐츠 정보를 추출하는 제 5 단계를 포함하는 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 방법.
  2. 제 1 항에 있어서, 상기 제 2 단계는,
    상기 HTML 태그 트리를 DFS 방식으로 탐색하는 제 21 단계;
    상기 탐색 중에 분리 태그가 나타나면 분리된 서브 트리가 컨텐츠를 포함하는지 여부를 판단하는 제 22 단계; 및
    상기 단계 22의 판단 결과, 분리된 서브 트리가 컨텐츠를 포함하는 경우 이 때의 분리 태그를 추출하는 제 23 단계를 포함하는 것을 특징으로 하는 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 방법.
  3. 제 1 항에 있어서, 상기 제 4 단계의 상기 HTML 태그 패턴 분석 단계는,
    상기 서브 태그 트리를 DFS 방식으로 탐색하는 제 31 단계;
    상기 탐색 중에 최소 분리 태그가 나타나면 분리된 서브 트리가 컨텐츠를 포함하는지 여부를 판단하는 제 32 단계;
    상기 단계 32의 판단 결과, 분리된 서브 트리가 컨텐츠를 포함하는 경우 최소 분리 태그를 추출하는 제 33 단계;
    분리된 최소 분리 태그 트리를 탐색하는 제 34 단계;
    반복적으로 나타나는 태그들의 일관성을 조사해서 태그 패턴 점수 속성 점수를 계산하는 제 35 단계; 및
    태그 분석 점수를 계산하는 제 36 단계를 포함하는 것을 특징으로 하는 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 방법.
  4. 제 1 항에 있어서, 상기 제 4 단계의 컨텐츠 속성 분석 단계는,
    상기 서브 태그 트리를 탐색하는 제 41 단계;
    추출된 각각의 컨텐츠 리스트의 길이를 비교함으로써 유사한 길이의 컨텐츠를 인덱스로 결정하는 제 42 단계;
    컨텐츠 길이 비교 방법의 인덱스 추출의 정확도를 높이기 위해 컨텐츠 리스트 길이의 표준편차를 비교하는 제 43 단계;
    컨텐츠의 속성을 비교함으로써 텍스트로 이루어진 인덱스 및 다른 개체로 이루어진 컨텐츠를 추출할 때 정확성을 높이도록 하는 제 44 단계; 및
    수학식에 의해서 컨텐츠 분석 점수(CAS)를 구하는 제 45 단계를 포함하는 것을 특징으로 하는 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 방법.
    [수학식]
    (단, α + β + γ = 1)
  5. 웹 컨텐츠를 갖고 있는 웹 서버에 연결된 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템에 있어서,
    상기 웹 서버로부터 제공되는 HTML 문서를 받아 HTML 태그 트리를 생성하는 HTML 태그 트리 생성기;
    상기 HTML 태그 트리 생성기로부터 제공되는 상기 HTML 태그 트리에서 분리 태그를 추출하는 분리 태그 추출기;
    상기 분리 태그 추출기로부터 제공되는 분리 태그에서 컨텐츠가 포함된 서브 태그 트리를 추출하는 서브 태그 트리 추출기;
    상기 서브 태그 트리 추출기로부터 제공되는 상기 서브 태그 트리를 받아 HTML 태그 패턴 및 컨텐츠 속성을 분석하는 HTML 태그 패턴 및 컨텐츠 속성 분석기; 및
    상기 HTML 태그 패턴 및 컨텐츠 속성 분석기에서 제공되는 상기 분석 결과로부터 인덱스 컨텐츠 정보를 추출하는 인덱스 정보 추출기를 포함하는 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템.
  6. 제 5 항에 있어서, 상기 분리 태그 추출기는 상기 HTML 태그 트리를 DFS 방식으로 탐색하여 분리 태그가 나타났을 때 분리된 서브 트리가 컨텐츠를 포함하면 이 때의 분리 태그를 추출하는 것을 특징으로 하는 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 시스템.
KR10-2002-0063497A 2002-10-17 2002-10-17 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법 KR100463835B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2002-0063497A KR100463835B1 (ko) 2002-10-17 2002-10-17 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법
US10/365,489 US20040078362A1 (en) 2002-10-17 2003-02-13 System and method for extracting an index for web contents transcoding in a wireless terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0063497A KR100463835B1 (ko) 2002-10-17 2002-10-17 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20040034861A KR20040034861A (ko) 2004-04-29
KR100463835B1 true KR100463835B1 (ko) 2004-12-29

Family

ID=32089723

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0063497A KR100463835B1 (ko) 2002-10-17 2002-10-17 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법

Country Status (2)

Country Link
US (1) US20040078362A1 (ko)
KR (1) KR100463835B1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA04004909A (es) * 2001-11-23 2004-09-03 Research In Motion Ltd Sistema y metodo para procesar documentos de lenguaje extensible para el analisis de documetos (xml).
KR100600506B1 (ko) * 2004-11-24 2006-07-13 에스케이 텔레콤주식회사 무선 인터넷 컨텐츠 품질 관리 시스템
KR100594572B1 (ko) * 2004-11-24 2006-06-30 에스케이 텔레콤주식회사 무선인터넷 컨텐츠 품질 관리 방법
US8001456B2 (en) * 2005-02-28 2011-08-16 International Business Machines Corporation Methods for maintaining separation between markup and data at a client
US7627571B2 (en) * 2006-03-31 2009-12-01 Microsoft Corporation Extraction of anchor explanatory text by mining repeated patterns
KR100859270B1 (ko) * 2006-11-30 2008-09-19 건국대학교 산학협력단 웹 페이지 분할을 이용한 모바일 인터넷 기반의 웹 콘텐츠제공방법 및 제공시스템
WO2008141427A1 (en) * 2007-05-17 2008-11-27 Fat Free Mobile Inc. Method and system for automatically generating web page transcoding instructions
KR101041662B1 (ko) * 2011-01-24 2011-06-14 박영자 코팅지의 분리 및 수거장치
US9811664B1 (en) * 2011-08-15 2017-11-07 Trend Micro Incorporated Methods and systems for detecting unwanted web contents
CN103116591B (zh) * 2011-11-17 2016-04-20 北大方正集团有限公司 论坛贴内容抽取方法和装置
KR101547918B1 (ko) * 2014-11-25 2015-08-28 김준모 광고 차단 방법 및 장치
CN104462532B (zh) * 2014-12-23 2017-07-07 北京奇虎科技有限公司 网页正文提取的方法和装置
US10572577B2 (en) 2017-10-02 2020-02-25 Xerox Corporation Systems and methods for managing documents containing one or more hyper texts and related information

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222275A (ja) * 1999-01-29 2000-08-11 Internatl Business Mach Corp <Ibm> ウェブ・ペ―ジ・コンテンツ調整方法、システムおよび記憶媒体
KR20010035111A (ko) * 2000-12-28 2001-05-07 홍병기 무선 단말언어 실시간 자동 변환 시스템 및 자동 변환 방법
KR20010106666A (ko) * 2000-05-22 2001-12-07 복인근 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체
KR20020054248A (ko) * 2000-12-27 2002-07-06 오길록 엑스엠엘 시스템과 비-엑스엠엘 시스템간의 데이터 전달을위한 아답터 장치 및 그를 이용한 데이터 전달 방법
KR20020061887A (ko) * 2001-01-18 2002-07-25 장문성 문서변환 방법 및 그 프로그램의 기록매체

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6857102B1 (en) * 1998-04-07 2005-02-15 Fuji Xerox Co., Ltd. Document re-authoring systems and methods for providing device-independent access to the world wide web
US6430624B1 (en) * 1999-10-21 2002-08-06 Air2Web, Inc. Intelligent harvesting and navigation system and method
JP3824298B2 (ja) * 2001-07-26 2006-09-20 インターナショナル・ビジネス・マシーンズ・コーポレーション サーバ、ウェブコンテンツ編集装置、コンピュータを用いてこれらを実現するプログラム、及びそのウェブコンテンツ編集方法並びに提供方法
US7203901B2 (en) * 2002-11-27 2007-04-10 Microsoft Corporation Small form factor web browsing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222275A (ja) * 1999-01-29 2000-08-11 Internatl Business Mach Corp <Ibm> ウェブ・ペ―ジ・コンテンツ調整方法、システムおよび記憶媒体
KR20010106666A (ko) * 2000-05-22 2001-12-07 복인근 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체
KR20020054248A (ko) * 2000-12-27 2002-07-06 오길록 엑스엠엘 시스템과 비-엑스엠엘 시스템간의 데이터 전달을위한 아답터 장치 및 그를 이용한 데이터 전달 방법
KR20010035111A (ko) * 2000-12-28 2001-05-07 홍병기 무선 단말언어 실시간 자동 변환 시스템 및 자동 변환 방법
KR20020061887A (ko) * 2001-01-18 2002-07-25 장문성 문서변환 방법 및 그 프로그램의 기록매체

Also Published As

Publication number Publication date
US20040078362A1 (en) 2004-04-22
KR20040034861A (ko) 2004-04-29

Similar Documents

Publication Publication Date Title
US8572482B2 (en) Methods and apparatus for summarizing document content for mobile communication devices
US7246041B2 (en) Computer evaluation of contents of interest
US7730395B2 (en) Virtual tags and the process of virtual tagging
US8554786B2 (en) Document information management system
US20020013792A1 (en) Virtual tags and the process of virtual tagging
US7228495B2 (en) Method and system for providing an index to linked sites on a web page for individuals with visual disabilities
US8196037B2 (en) Method and device for extracting web information
US20020143821A1 (en) Site mining stylesheet generator
KR100463835B1 (ko) 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법
JP2004145794A (ja) 構造化・階層化コンテンツ用処理装置、構造化・階層化コンテンツ用処理方法、及びプログラム
CN103166981B (zh) 一种无线网页转码方法及装置
DE102004003878A1 (de) System und Verfahren zum Identifizieren eines speziellen Wortgebrauchs in einem Dokument
KR20030042523A (ko) 마크업 문서 자동 요약 방법
JP2003308327A (ja) 構造化文書種別判定システム及び構造化文書種別判定方法
CN115687572A (zh) 一种数据信息的检索方法、装置、设备及存储介质
CN111339457A (zh) 用于从网页抽取信息的方法和设备及存储介质
US9298675B2 (en) Smart document import
CA2479305C (en) System and method for dynamically generating a textual description for a visual data representation
JP2010205060A (ja) 文書内画像検索方法および文書内画像検索システム
US8832547B2 (en) Managing keyboard navigation in a table
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
US6934907B2 (en) Method for providing a description of a user&#39;s current position in a web page
CN111666479A (zh) 搜索网页的方法和计算机可读存储介质
US11514241B2 (en) Method, apparatus, and computer-readable medium for transforming a hierarchical document object model to filter non-rendered elements
KR20020061443A (ko) 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121101

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20131114

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20141117

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee