KR20210120203A - 웹 페이지에 기반한 메타데이터 생성방법 - Google Patents

웹 페이지에 기반한 메타데이터 생성방법 Download PDF

Info

Publication number
KR20210120203A
KR20210120203A KR1020200036591A KR20200036591A KR20210120203A KR 20210120203 A KR20210120203 A KR 20210120203A KR 1020200036591 A KR1020200036591 A KR 1020200036591A KR 20200036591 A KR20200036591 A KR 20200036591A KR 20210120203 A KR20210120203 A KR 20210120203A
Authority
KR
South Korea
Prior art keywords
web page
metadata
text
generating
extracted
Prior art date
Application number
KR1020200036591A
Other languages
English (en)
Inventor
현윤아
최주은
김나운
Original Assignee
엔에이치엔 주식회사
엔에이치엔애드 (주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔 주식회사, 엔에이치엔애드 (주) filed Critical 엔에이치엔 주식회사
Priority to KR1020200036591A priority Critical patent/KR20210120203A/ko
Publication of KR20210120203A publication Critical patent/KR20210120203A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 컴퓨팅 디바이스의 프로세서에서 실행되는 메타데이터 생성 어플리케이션이 웹 페이지에 기반한 메타데이터 생성하는 방법으로서, 상기 웹 페이지에 포함된 텍스트를 추출하는 단계; 상기 웹 페이지에 포함된 이미지 내 글자를 기초로 텍스트를 추출하는 단계; 상기 추출된 텍스트에 대한 자연어 처리를 수행하여 상기 추출된 텍스트의 일부를 유효 텍스트로 추출하는 단계; 상기 추출된 유효 텍스트의 중요도를 산출하고, 산출된 중요도에 따라서 상기 추출된 유효 텍스트의 일부를 핵심 키워드로 결정하는 단계; 및 상기 결정된 핵심 키워드에 기반하여 상기 메타데이터를 생성하는 단계를 포함한다.

Description

웹 페이지에 기반한 메타데이터 생성방법{METHOD FOR GENERATING METADATA BASED ON WEB PAGE}
본 발명은 웹 페이지(Web page)에 기반한 메타데이터(Metadata) 생성방법에 관한 것이다. 보다 상세하게는, 웹 페이지 내의 텍스트(Text)와 이미지(Image)에 기반하여 메타데이터를 생성하는 방법에 관한 것이다.
웹 사이트에서 검색에 필요한 데이터를 수집하는 크롤링(crawling)은 큰 이슈 중에 하나이다. 크롤링은 무수히 많은 웹 사이트의 각 페이지에서 제공하는 텍스트를 수집하여 검색 대상의 색인으로 포함시키는 기술을 일컫는다. 
웹 페이지 크롤링 시, 페이지의 전체 내용을 본문으로서 저장할 경우 중복 메뉴, 광고, 불필요한 태그 등이 같이 저장되어 검색 시 불필요한 검색 결과가 제공될 수 있으므로 검색 데이터로서의 효용성이 떨어진다.
그래서 페이지의 본문 내용만 자동으로 추출하기 위한 필터링 알고리즘이 개발되어 왔지만 어느 하나의 필터링만으로는 아직 부족한 부분이 있으며, 이를 해결하기 위해 다양한 필터를 결합하여 사용하고 있다.
그럼에도 불구하고 검색어를 입력하여 검색한 경우에 검색 대상과는 무관한 부분에서 크롤링된 데이터에 의한 검색 결과가 제공되어 만족스러운 검색 효율을 얻지 못하는 실정이다.
또한, 종래의 알고리즘은, 웹 사이트 관리자가 여러 페이지의 태그 속성에 엑세스할 수 있도록 하고, 검색에 필요한 데이터인 메타데이터를 편집할 수 있는 관리 시스템을 제공하고 있으나, 해당 시스템은 웹 사이트 관리자가 SEO(검색엔진최적화)를 위해 적절한 메타데이터를 지정할 때 유용할 뿐, 메타데이터를 일일이 작성해야 하고, 페이지를 업데이트할 때마다 새로 편집해야 하는 불편함이 있다.
또한, SEO를 위해서는 실제로 웹 페이지와 연관 있는 메타데이터를 작성하는 것이 중요하나, 웹 페이지 내에 텍스트뿐만 아니라 이미지까지 존재하는 경우, 해당 이미지 내의 글자까지 모두 고려하여 의미 있는 키워드를 도출해주는 시스템이 미비한 실정이다.
그러므로, 웹 페이지의 이미지 내에 존재하는 텍스트까지 모두 추출하고, 추출된 웹 페이지 내 모든 텍스트에 기반하여 메타데이터를 생성할 수 있는 기술에 대한 개발이 요구되고 있다.
한편, 위와 같은 크롤링에 대한 관심이 증대되면서, 웹 페이지 문서의 핵심 키워드를 도출 및 요약하는 텍스트랭크(TextRank) 알고리즘이 개발되었다.
여기서, 텍스트랭크(TextRank) 알고리즘이란, 웹 페이지로부터 핵심 키워드를 도출하고 요약하는 기능을 수행하는 알고리즘이다.
자세히, 텍스트랭크 알고리즘은, 워드 그래프(Word graph) 또는 문장 그래프(Sentence graph)를 구축한 뒤, 그래프 랭킹(Graph ranking) 알고리즘인 페이지랭크(PageRank)를 이용하여 각각의 키워드 및/또는 핵심 문장을 선택할 수 있다. 그리고 텍스트랭크 알고리즘은, 선택된 키워드 및/또는 핵심 문장을 이용하여 주어진 웹 페이지의 텍스트 집합을 요약할 수 있다.
이때, 페이지랭크는, Brin and Page(1998)이 제안한 알고리즘으로 하이퍼링크를 가지는 웹 문서에 상대적 중요도에 따라 가중치를 부여하는 방법이다. 페이지랭크가 높은 웹 페이지는 다른 웹 사이트로 부터 링크를 많이 받은 것, 즉 다른 사이트가 참조를 많이한 것으로 해석할 수 있다.
이러한 페이지랭크 알고리즘을 활용한 것이 바로 텍스트랭크이며, 텍스트랭크는 페이지랭크의 중요도가 높은 웹 사이트는 다른 많은 사이트로부터 링크를 받는다는 점에 착안하여 웹 페이지 문서 내의 단어 및/또는 문장을 이용하여 중요도에 따른 랭킹(Ranking)을 계산하는 알고리즘이다.
다른 한편, 정보통신 기술의 발전과 이미지 분석에 대한 관심이 증가하면서, 이미지 내 글자를 감지 가능한 구글 클라우드의 비전 API 모델(Google cloud vision API model)이 개발되었다.
상세히, 비전 API 모델은, REST 및 RPC API를 통해 선행 학습된 강력한 머신러닝 모델을 제공하며, 이미지에 라벨을 할당하고 사전 정의된 수백만 개의 카테고리로 빠르게 분류할 수 있다.
이러한 비전 API 모델은, 이미지 내의 객체나 인쇄 또는 필기 텍스트 등을 감지할 수 있으며, 이로부터 유용한 데이터를 추출하여 이미지에 기반한 메타데이터 생성 프로세스를 보조할 수 있다.
KR 10-2017-0094829 A
본 발명은, 상술된 문제점을 해결하기 위해 안출된 것으로서, 웹 페이지의 텍스트, 이미지 내 글자 및 이미지에 대한 대체 텍스트 중 어느 하나 이상을 기반으로 크롤링(crawling)을 수행하여, 상기 웹 페이지에 대한 속성을 설명하는 메타데이터를 생성하는 웹 페이지 기반 메타데이터 생성방법을 제공하는데 그 목적이 있다.
또한, 본 발명은, 웹 페이지로부터 크롤링된 텍스트의 속성을 기반으로 해당 웹 페이지에 대한 메타데이터를 생성하는 웹 페이지 기반 메타데이터 생성방법을 제공하고자 한다.
다만, 본 발명 및 본 발명의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 컴퓨팅 디바이스의 프로세서에서 실행되는 메타데이터 생성 어플리케이션이 웹 페이지에 기반한 메타데이터 생성하는 방법으로서, 상기 웹 페이지에 포함된 텍스트를 추출하는 단계; 상기 웹 페이지에 포함된 이미지 내 글자를 기초로 텍스트를 추출하는 단계; 상기 추출된 텍스트에 대한 자연어 처리를 수행하여 상기 추출된 텍스트의 일부를 유효 텍스트로 추출하는 단계; 상기 추출된 유효 텍스트의 중요도를 산출하고, 산출된 중요도에 따라서 상기 추출된 유효 텍스트의 일부를 핵심 키워드로 결정하는 단계; 및 상기 결정된 핵심 키워드에 기반하여 상기 메타데이터를 생성하는 단계를 포함한다.
이때, 상기 웹 페이지에 포함된 이미지 내 글자를 기초로 텍스트를 추출하는 단계는, 상기 웹 페이지 내 포함된 이미지를 추출하는 단계와, 상기 추출된 이미지 내에 글자를 추출하는 단계와, 상기 추출된 글자를 텍스트로 변환하는 단계를 포함한다.
또한, 상기 추출된 텍스트의 일부를 유효 텍스트를 추출하는 단계는, 상기 추출된 텍스트에서 불용어를 제거하는 단계와, 상기 추출된 텍스트에서 불용문장을 제거하는 단계를 포함한다.
또한, 상기 추출된 유효 텍스트의 일부를 핵심 키워드로 결정하는 단계는, 상기 유효 텍스트를 단어단위로 분리하는 단계와, 상기 분리된 단어들에 대한 중요도를 산출하는 단계와, 상기 중요도가 높은 순서에 따라서 선정된 핵심단어를 상기 핵심 키워드로 결정하는 단계를 포함한다.
또한, 상기 추출된 유효 텍스트의 일부를 핵심 키워드로 결정하는 단계는, 상기 유효 텍스트를 문장단위로 분리하는 단계와, 상기 분리된 문장들에 대한 중요도를 산출하는 단계와, 상기 중요도가 높은 순서에 따라서 선정된 핵심문장을 상기 핵심 키워드로 결정하는 단계를 포함한다.
또한, 상기 메타데이터는, 상기 웹 페이지의 제목으로 이용되는 제목 섹션에 포함되는 제목 메타데이터 개체와, 상기 웹 페이지에 대한 설명으로 이용되는 설명 섹션의 설명 메타데이터 개체와, 상기 웹 페이지의 태그어로 이용되는 태그어 섹션의 태그어 메타데이터 개체를 포함한다.
또한, 상기 메타데이터를 생성하는 단계는, 상기 핵심문장에 기초가되는 이미지 내 글자의 위치 또는 크기에 따라서 상기 핵심문장 중 적어도 하나 이상의 핵심문장을 상기 제목 메타데이터 개체로 설정하는 단계를 포함한다.
또한, 상기 메타데이터를 생성하는 단계는, 상기 핵심문장 중 적어도 일부를 상기 설명 메타데이터 개체로 설정하는 단계를 포함한다.
또한, 상기 메타데이터를 생성하는 단계는, 상기 핵심단어를 상기 중요도가 높은 순서에 따라서 제 k 개의 핵심단어를 추출하는 단계와, 상기 추출된 핵심단어를 상기 태그어 메타데이터 개체로 설정하는 단계를 포함한다.
또한, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 기 생성된 메타데이터에 대한 사용자 편집 인터페이스를 제공하는 단계를 더 포함한다.
본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 웹 페이지의 텍스트, 이미지 내 글자 및 이미지에 대한 대체 텍스트 중 어느 하나 이상을 기반으로 크롤링(crawling)을 수행하여 상기 웹 페이지에 대한 속성을 설명하는 메타데이터를 제공함으로써, 웹 페이지 내의 일반 텍스트뿐만 아니라 해당 웹 페이지가 포함하는 이미지에 대한 텍스트까지 고려한 메타데이터를 제공할 수 있다.
또한, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 웹 페이지 내의 일반 텍스트뿐만 아니라 해당 웹 페이지가 포함하는 이미지에 대한 텍스트까지 고려한 메타데이터를 제공함으로써, 제공되는 메타데이터의 정확성과 신뢰성을 보다 향상시킬 수 있는 효과가 있다.
또한, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 웹 페이지로부터 크롤링된 텍스트의 속성을 기반으로 해당 웹 페이지에 대한 메타데이터를 생성함으로써, 생성되는 메타데이터의 퀄리티를 증진시킬 수 있는 효과가 있다.
또한, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 웹 페이지에 대한 메타데이터를 자동으로 생성하고, 자동 생성된 메타데이터에 대한 편집 인터페이스를 제공함으로써, 자주 업데이트가 일어나며 개인이 관리하기 어려운 메타데이터를 손 쉽게 정의하고 관리할 수 있는 효과가 있다.
다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 명확하게 이해될 수 있다.
도 1은 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성 시스템의 개념도이다.
도 2는 본 발명의 실시예에 따른 모바일 타입 컴퓨팅 디바이스의 내부 블록도이다.
도 3은 본 발명의 실시예에 따른 데스크탑 타입 컴퓨팅 디바이스의 내부 블록도이다.
도 4는 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 이미지를 포함하는 웹 페이지를 나타내는 모습의 일례이다.
도 6은 본 발명의 실시예에 따른 이미지를 포함하는 웹 페이지에 기반하여 메타데이터를 생성하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 메타데이터에 대한 편집 인터페이스를 제공하는 모습의 일례이다.
도 8은 본 발명의 실시예에 따른 메타데이터에 기초하여 웹 페이지 검색호출 화면을 제공하는 모습의 일례이다.
도 9는 본 발명의 실시예에 따른 속성 적합도 인터페이스를 나타내는 모습의 일례이다.
도 10은 본 발명의 실시예에 따른 프리뷰(preview) 인터페이스를 나타내는 모습의 일례이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성 시스템의 개념도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성 시스템은, 컴퓨팅 디바이스(100), 메타데이터 서버(400) 및 네트워크(500)를 포함할 수 있다.
실시예에서, 컴퓨팅 디바이스(100), 메타데이터 서버(400) 및 네트워크(500)는, 상호 연동하여 웹 페이지에 대한 속성을 설명하는 메타데이터를 해당 웹 페이지 내의 이미지와 텍스트를 기반으로 생성하는 메타데이터 생성 어플리케이션을 구현할 수 있다.
자세히, 본 발명의 실시예에서 메타데이터 생성 어플리케이션(이하, 메타 어플리케이션)은, 웹 페이지에 접속하여 해당 웹 페이지 내의 텍스트를 추출할 수 있다.
또한, 실시예에서 메타 어플리케이션은, 추출된 텍스트에 대한 자연어 처리를 수행하여, 인터넷 검색 시 검색 색인으로 의미있는 텍스트인 유효 텍스트를 도출할 수 있다.
또한, 메타 어플리케이션은, 도출된 유효 텍스트에 기반하여 해당 웹 페이지를 요약할 수 있고, 이를 통해 상기 웹 페이지에 대한 핵심 키워드를 도출할 수 있다.
이때, 핵심 키워드란, 자연어 처리를 통해 획득된 유효 텍스트 중, 웹 페이지 상에서의 중요도가 소정의 기준 이상으로 높다고 판단된 텍스트일 수 있다. 이에 대한 자세한 설명은 후술하기로 한다.
또한, 실시예에서 메타 어플리케이션은, 도출된 핵심 키워드에 기반하여 메타데이터를 생성할 수 있고, 생성된 메타데이터에 대한 편집 인터페이스를 제공할 수 있다.
또한, 메타 어플리케이션은, 생성된 메타데이터에 기초하여 해당 웹 페이지에 대한 웹 페이지 검색호출 화면을 제공할 수 있다.
여기서, 웹 페이지 검색호출 화면이란, 검색엔진 상에서 메타데이터에 기초한 웹 페이지 검색이 수행된 경우, 검색결과로 출력되는 화면에 표시되는 상기 웹 페이지에 대한 정보 제공 인터페이스일 수 있다. 자세한 설명은 이하에서 후술하기로 한다.
한편, 도 1의 컴퓨팅 디바이스(100) 및 메타데이터 서버(400)는, 네트워크(500)를 통하여 연결될 수 있다.
여기서, 네트워크(500)는, 컴퓨팅 디바이스(100) 및 메타데이터 서버(400) 등과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(500)의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
- 컴퓨팅 디바이스(Computing device: 100)
본 발명의 실시예에서 컴퓨팅 디바이스(100)는, 웹 페이지에 대한 속성을 설명하는 메타데이터를 해당 웹 페이지 내의 이미지와 텍스트를 기반으로 생성하는 메타 어플리케이션을 실행할 수 있다.
또한, 실시예에서 컴퓨팅 디바이스(100)는, 메타 어플리케이션이 설치된 다양한 타입(예컨대, 모바일 타입 또는 데스크탑 타입)의 컴퓨팅 디바이스(100)를 포함할 수 있다.
1. 모바일 타입 컴퓨팅 디바이스
본 발명의 실시예에서 모바일 타입 컴퓨팅 디바이스(200)는, 메타 어플리케이션이 설치된 스마트 폰이나 테블릿 PC와 같은 모바일 장치일 수 있다.
예를 들어, 모바일 타입 컴퓨팅 디바이스(200)는, 스마트 폰(smart phone), 휴대폰, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC(tablet PC) 등이 포함될 수 있다.
도 2는 본 발명의 실시예에 따른 모바일 타입 컴퓨팅 디바이스(200)의 내부 블록도이다.
도 2를 참조하면, 예시적인 구현에 따른 모바일 타입 컴퓨팅 디바이스(200)는, 메모리(210), 프로세서 어셈블리(220), 통신 모듈(230), 인터페이스 모듈(240), 입력 시스템(250), 센서 시스템(260) 및 디스플레이 시스템(270)을 포함할 수 있다. 이러한 구성요소들은 모바일 타입 컴퓨팅 디바이스(200)의 하우징 내에 포함되도록 구성될 수 있다.
자세히, 메모리(210)에는, 메타 어플리케이션(211)이 저장되며, 메타 어플리케이션(211)에는 웹 페이지 기반의 메타데이터 생성 서비스를 제공하기 위한 각종 응용 프로그램, 데이터 및 명령어 중 어느 하나 이상을 저장할 수 있다.
예를 들면, 메모리(210)는, 웹 페이지 기반의 메타데이터 생성 서비스를 위한 웹 페이지 식별 데이터, 텍스트 버퍼, 이미지 버퍼, 위치 엔진, 디스플레이 엔진 등이 포함될 수 있다.
즉, 메모리(210)는 웹 페이지 기반의 메타데이터 생성 서비스 환경을 제공하기 위해 사용될 수 있는 명령 및 데이터를 저장할 수 있다.
또한, 메모리(210)는, 적어도 하나 이상의 비일시적 컴퓨터 판독 가능 저장매체와, 일시적 컴퓨터 판독 가능 저장매체를 포함할 수 있다. 예를 들어, 메모리(210)는, ROM, EPROM, 플래시 드라이브, 하드 드라이브 등과 같은 다양한 저장기기일 수 있고, 인터넷(internet)상에서 상기 메모리(210)의 저장 기능을 수행하는 웹 스토리지(web storage)를 포함할 수 있다.
프로세서 어셈블리(220)는, 웹 페이지 기반의 메타데이터 생성 서비스를 제공하기 위한 다양한 작업을 수행하기 위해, 메모리(210)에 저장된 메타 어플리케이션(211)의 명령들을 실행할 수 있는 적어도 하나 이상의 프로세서를 포함할 수 있다.
실시예에서 프로세서 어셈블리(220)는, 웹 페이지 기반의 메타데이터 생성 서비스를 제공하기 위하여 메모리(210)의 메타 어플리케이션(211)을 통해 구성요소의 전반적인 동작을 컨트롤할 수 있다.
이러한 프로세서 어셈블리(220)는, 중앙처리장치(CPU) 및/또는 그래픽 프로세서 장치(GPU)를 포함할 수 있다. 또한, 프로세서 어셈블리(220)는, ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세스(microprocessors), 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나를 포함하여 구현될 수 있다.
통신 모듈(230)은, 다른 컴퓨팅 장치(예컨대, 메타데이터 서버(400))와 통신하기 위한 하나 이상의 장치를 포함할 수 있다. 이러한 통신 모듈(230)은, 무선 네트워크를 통해 통신할 수 있다.
자세히, 통신 모듈(230)은, 웹 페이지 기반의 메타데이터 생성 서비스 환경을 구현하기 위한 컨텐츠 소스를 저장한 컴퓨팅 장치와 통신할 수 있으며, 사용자 입력을 받은 컨트롤러와 같은 다양한 사용자 입력 컴포넌트와 통신할 수 있다.
실시예에서 통신 모듈(230)은, 웹 페이지 기반의 메타데이터 생성 서비스와 관련된 각종 데이터를 메타데이터 서버(400) 및/또는 다른 컴퓨팅 디바이스(100)와 송수신할 수 있다.
이러한 통신 모듈(230)은, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced),5G NR(New Radio), WIFI) 또는 근거리 통신방식 등을 수행할 수 있는 통신장치를 통해 구축된 이동 통신망 상에서 기지국, 외부의 단말, 임의의 서버 중 적어도 하나와 무선으로 데이터를 송수신할 수 있다.
센서 시스템(260)은, 이미지 센서(261), 위치 센서(IMU, 263), 오디오 센서, 거리 센서, 근접 센서, 접촉 센서 등 다양한 센서를 포함할 수 있다.
이미지 센서(261)는, 모바일 타입 컴퓨팅 디바이스(200) 주위의 물리적 공간에 대한 이미지 및/또는 영상을 캡처할 수 있다.
실시예에서 이미지 센서(261)는, 웹 페이지 기반의 메타데이터 생성 서비스에 관련된 영상(예컨대, 웹 페이지에 포함되는 이미지 등)을 촬영하여 획득할 수 있다.
또한, 이미지 센서(261)는, 모바일 타입 컴퓨팅 디바이스(200)의 전면 또는/및 후면에 배치되어 배치된 방향측을 촬영하여 영상을 획득할 수 있으며, 모바일 타입 컴퓨팅 디바이스(200)의 외부를 향해 배치된 카메라를 통해 물리적 공간을 촬영할 수 있다.
이러한 이미지 센서(261)는, 이미지 센서장치와 영상 처리 모듈을 포함할 수 있다. 자세히, 이미지 센서(261)는, 이미지 센서장치(예를 들면, CMOS 또는 CCD)에 의해 얻어지는 정지영상 또는 동영상을 처리할 수 있다.
또한, 이미지 센서(261)는, 영상 처리 모듈을 이용하여 이미지 센서장치를 통해 획득된 정지영상 또는 동영상을 가공해 필요한 정보를 추출하고, 추출된 정보를 프로세서에 전달할 수 있다.
이러한 이미지 센서(261)는, 적어도 하나 이상의 카메라를 포함하는 카메라 어셈블리일 수 있다. 카메라 어셈블리는, 가시광선 대역을 촬영하는 일반 카메라를 포함할 수 있으며, 적외선 카메라, 스테레오 카메라 등의 특수 카메라를 더 포함할 수 있다.
IMU(263)는 모바일 타입 컴퓨팅 디바이스(200)의 움직임 및 가속도 중 적어도 하나 이상을 감지할 수 있다. 예를 들어, 가속도계, 자이로스코프, 자력계와 같은 다양한 위치 센서의 조합으로 이루어 질 수 있다. 또한, 통신 모듈(230)의 GPS와 같은 위치 통신 모듈(230)과 연동하여, 모바일 타입 컴퓨팅 디바이스(200) 주변의 물리적 공간에 대한 공간 정보를 인식할 수 있다.
또한, IMU(263)는, 검출된 위치 및 방향을 기초로 사용자의 시선 방향 및 머리 움직임을 검출 및 추적하는 정보를 검출할 수 있다.
또한, 일부 구현들에서, 메타 어플리케이션(211)은 이러한 IMU(263) 및 이미지 센서(261)를 사용하여 물리적 공간 내의 사용자의 위치 및 방향을 결정하거나 물리적 공간 내의 특징 또는 객체를 인식할 수 있다.
오디오 센서(265)는, 모바일 타입 컴퓨팅 디바이스(200) 주변의 소리를 인식할 수 있다.
자세히, 오디오 센서(265)는, 모바일 타입 컴퓨팅 디바이스(200) 사용자의 음성 입력을 감지할 수 있는 마이크로폰을 포함할 수 있다.
실시예에서 오디오 센서(265)는 웹 페이지 기반의 메타데이터 생성 서비스를 위해 필요한 음성 데이터를 사용자로부터 입력 받을 수 있다.
인터페이스 모듈(240)은, 모바일 타입 컴퓨팅 디바이스(200)를 하나 이상의 다른 장치와 통신 가능하게 연결할 수 있다. 자세히, 인터페이스 모듈(240)은, 하나 이상의 상이한 통신 프로토콜과 호환되는 유선 및/또는 무선 통신 장치를 포함할 수 있다.
이러한 인터페이스 모듈(240)을 통해 모바일 타입 컴퓨팅 디바이스(200)는, 여러 입출력 장치들과 연결될 수 있다.
예를 들어, 인터페이스 모듈(240)은, 헤드셋 포트나 스피커와 같은 오디오 출력장치와 연결되어, 오디오를 출력할 수 있다.
예시적으로 오디오 출력장치가 인터페이스 모듈(240)을 통해 연결되는 것으로 설명하였으나, 모바일 타입 컴퓨팅 디바이스(200) 내부에 설치되는 실시예도 포함될 수 있다.
이러한 인터페이스 모듈(240)은, 유/무선 헤드셋 포트(port), 외부 충전기 포트(port), 유/무선 데이터 포트(port), 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트(port), 오디오 I/O(Input/Output) 포트(port), 비디오 I/O(Input/Output) 포트(port), 이어폰 포트(port), 전력 증폭기, RF 회로, 송수신기 및 기타 통신 회로 중 적어도 하나를 포함하여 구성될 수 있다.
입력 시스템(250)은 웹 페이지 기반의 메타데이터 생성 서비스와 관련된 사용자의 입력(예를 들어, 제스처, 음성 명령, 버튼의 작동 또는 다른 유형의 입력)을 감지할 수 있다.
자세히, 입력 시스템(250)은 버튼, 터치 센서 및 사용자 모션 입력을 수신하는 이미지 센서(261)를 포함할 수 있다.
또한, 입력 시스템(250)은, 인터페이스 모듈(240)을 통해 외부 컨트롤러와 연결되어, 사용자의 입력을 수신할 수 있다.
디스플레이 시스템(270)은, 웹 페이지 기반의 메타데이터 생성 서비스와 관련된 다양한 정보를 그래픽 이미지로 출력할 수 있다.
실시예에서, 디스플레이 시스템(270)은, 웹 페이지가 포함하는 텍스트 및/또는 이미지 등을 그래픽 이미지로 표시할 수 있다.
이러한 디스플레이는, 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display) 중에서 적어도 하나를 포함할 수 있다.
이러한 모바일 타입 컴퓨팅 디바이스(200)의 하우징 내에는 상기 구성요소들이 배치될 수 있으며, 사용자 인터페이스는 사용자 터치 입력을 수신하도록 구성된 디스플레이(271) 상에 터치 센서(273)를 포함할 수 있다.
자세히, 디스플레이 시스템(270)은, 이미지를 출력하는 디스플레이(271)와, 사용자의 터치 입력을 감지하는 터치 센서(273)를 포함할 수 있다.
예시적으로 디스플레이(271)는 터치 센서(273)와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린으로 구현될 수 있다. 이러한 터치 스크린은, 모바일 타입 컴퓨팅 디바이스(200)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, 모바일 타입 컴퓨팅 디바이스(200)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
2. 데스크탑 타입 컴퓨팅 디바이스
도 3은 본 발명의 실시예에 따른 데스크탑 타입 컴퓨팅 디바이스(300)의 내부 블록도이다.
데스크탑 타입 컴퓨팅 디바이스(300)의 상기 구성요소에 대한 설명 중 중복되는 내용은 모바일 타입 컴퓨팅 디바이스(200)의 구성요소에 대한 설명으로 대체하기로 하며, 이하에서는 모바일 타입 컴퓨팅 디바이스(200)와의 차이점을 중심으로 설명한다.
도 3을 참조하면, 다른 예시에서 데스크탑 타입 컴퓨팅 디바이스(300)는, 메타 어플리케이션(311)이 설치된 고정형 데스크탑 PC, 노트북 컴퓨터(laptop computer), 울트라북(ultrabook)과 같은 퍼스널 컴퓨터 등과 같이 유/무선 통신을 기반으로 웹 페이지에 기반한 메타데이터 생성 서비스를 실행하기 위한 프로그램이 설치된 장치를 더 포함할 수 있다.
또한, 데스크탑 타입 컴퓨팅 디바이스(300)는, 유저 인터페이스 시스템(350)을 포함하여, 사용자 입력(예컨대, 터치 입력, 마우스 입력, 키보드 입력, 제스처 입력, 가이드 도구를 이용한 모션 입력 등)을 수신할 수 있다.
예시적으로, 데스크탑 타입 컴퓨팅 디바이스(300)는, 유저 인터페이스 시스템(350)을 다양한 통신 프로토콜로 마우스(351), 키보드(352), 제스처 입력 컨트롤러, 이미지 센서(361)(예컨대, 카메라) 및 오디오 센서(365) 등 적어도 하나의 장치와 연결되어, 사용자 입력을 획득할 수 있다.
또한, 데스크탑 타입 컴퓨팅 디바이스(300)는, 유저 인터페이스 시스템(350)을 통해 외부 출력 장치와 연결될 수 있으며, 예컨대, 디스플레이 장치(370), 오디오 출력 장치 등에 연결될 수 있다.
또한, 예시적인 구현에 따른 데스크탑 타입 컴퓨팅 디바이스(300)는, 메모리(310), 프로세서 어셈블리(320), 통신 모듈(330), 유저 인터페이스 시스템(350) 및 입력 시스템(340)을 포함할 수 있다. 이러한 구성요소들은 데스크탑 타입 컴퓨팅 디바이스(300)의 하우징 내에 포함되도록 구성될 수 있다.
다만, 본 발명의 실시예에서 도 2 및 3에 도시된 구성요소들은, 컴퓨팅 디바이스(100)를 구현하는데 있어 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 컴퓨팅 디바이스(100)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
- 메타데이터 서버(Metadata server: 400)
한편, 본 발명의 실시예에서 메타데이터 서버(400)는, 웹 페이지 기반 메타데이터 생성 서비스를 제공하기 위한 일련의 프로세스를 수행할 수 있다.
자세히, 실시예에서 메타데이터 서버(400)는, 웹 페이지의 텍스트, 이미지 내 글자 및 이미지에 대한 대체 텍스트 중 어느 하나 이상을 기반으로 크롤링(crawling)을 수행하여, 상기 웹 페이지에 대한 속성을 설명하는 메타데이터를 생성하는 메타데이터 생성 서비스를 제공할 수 있다.
보다 상세히, 도 1을 더 참조하면, 위와 같은 메타데이터 서버(400)는, 메타데이터 서비스 제공서버(410), 메타데이터 생성 서버(420) 및 데이터베이스 서버(430)를 포함할 수 있다. 이때, 실시예에 따라서 상기 각 구성요소는, 메타데이터 서버(400)와는 별도의 장치로서 구현될 수도 있고, 메타데이터 서버(400)에 포함되어 구현될 수도 있다. 이하, 각 구성요소가 메타데이터 서버(400)에 포함되어 구현되는 것으로 설명하나 이에 한정되는 것은 아니다.
여기서, 메타데이터 서비스 제공서버(410)는, 컴퓨팅 디바이스(100)에서 메타 어플리케이션(211, 311)이 동작할 수 있는 환경을 제공할 수 있다.
실시예에서, 메타데이터 서비스 제공서버(410)는, 웹 페이지에 대한 속성을 설명하는 메타데이터를 해당 웹 페이지 내의 이미지와 텍스트를 기반으로 생성하는 메타 어플리케이션(211, 311)을 구현하기 위한 응용 프로그램, 데이터 및/또는 명령어 등을 포함할 수 있다.
또한, 메타데이터 생성 서버(420)는, 소정의 기준에 따라서 웹 페이지로부터 도출된 핵심 키워드에 기반한 메타데이터를 생성할 수 있다.
실시예에서, 메타데이터 생성 서버(420)는, 웹 페이지로부터 도출된 핵심 키워드를 획득할 수 있고, 획득된 핵심 키워드의 웹 페이지 내 위치, 폰트 형태 및/또는 웹 페이지 내 등장 빈도 수 등을 포함하는 상기 소정에 기준에 기반하여, 해당 웹 페이지에 대한 메타데이터를 생성해 제공할 수 있다.
또한, 데이터베이스 서버(430)는, 웹 페이지 기반 메타데이터 생성 서비스를 구현하기 위한 각종 응용 프로그램, 어플리케이션, 명령어 및/또는 데이터 등을 저장하고 관리할 수 있다.
실시예에서, 데이터베이스 서버(430)는, 웹 페이지별 텍스트 정보, 이미지 정보(실시예로, 대체 텍스트 태그 정보 등), 유효 텍스트 정보, 핵심 키워드 정보, 메타데이터 정보 및/또는 웹 페이지 검색호출 화면 정보 등을 저장 및 관리할 수 있다.
한편, 위와 같은 구성요소들을 포함하는 메타데이터 서버(400)는, 적어도 하나 이상의 메타데이터 서비스 제공서버(410), 메타데이터 생성 서버(420) 및/또는 데이터베이스 서버(430)로 구성될 수 있으며, 데이터 처리를 위한 프로세서들과, 웹 페이지 기반의 메타데이터 생성 서비스 제공을 위한 명령어들을 저장하는 메모리들을 포함할 수 있다.
또한, 실시예에 따라서 메타데이터 서버(400)에서 수행하는 동작의 전체 또는 일부 기능은, 컴퓨팅 디바이스(100)에 의하여 수행될 수도 있는 등 다양한 실시예가 가능하다. 이하의 설명에서는, 상술된 메타데이터 서버(400)가 수행하는 일련의 동작을 컴퓨팅 디바이스(100)에서 수행하는 것으로 설명하나, 이에 한정되는 것은 아니다.
- 웹 페이지에 기반한 메타데이터 생성방법
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 웹 페이지 기반 메타데이터 생성방법에 대해 상세히 설명하고자 한다. 이하의 실시예에서는, 컴퓨팅 디바이스(100)를 모바일 타입 컴퓨팅 디바이스(200)에 기준하여 설명하기로 하나, 이에 한정되는 것은 아니다.
먼저, 본 발명의 실시예에서 모바일 타입 컴퓨팅 디바이스(200)는, 웹 페이지에 대한 속성을 설명하는 메타데이터를 해당 웹 페이지 내의 이미지와 텍스트를 기반으로 생성할 수 있는 메타 어플리케이션(211)을 실행할 수 있다.
도 4는 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 위와 같이 모바일 타입 컴퓨팅 디바이스(100)에서 실행된 메타 어플리케이션(211)은, 온라인 상의 웹 페이지(Web page)에 접속할 수 있다. (S101)
자세히, 웹 페이지란, 온라인으로 볼 수 있는 문서, 텍스트, 이미지 및/또는 비디오 등으로 구현되어 인터넷 검색을 통해 브라우저로 표시되는 인터넷 페이지일 수 있다. 이러한 웹 페이지는, 간단한 양식 또는 공백 등을 포함하며, 웹 페이지로의 접속을 유도하는 고유 URL(Uniform Resource Locator)을 제공할 수 있다.
즉, 본 발명의 실시예에서 메타 어플리케이션(211)은, 웹 페이지별로 제공되는 고유 URL을 기반으로, 메타데이터를 생성하고자 하는 웹 페이지에 접속할 수 있다.
여기서, 실시예에 따른 메타데이터란, 웹 페이지의 속성을 함축하여 나타내는 데이터로서, 웹 페이지의 데이터를 효율적으로 이용하기 위하여 구조화한 데이터 정보일 수 있다.
실시예에서, 이러한 메타데이터는, 검색엔진에서의 검색 시 활용되는 검색 색인으로 기능할 수 있다.
또한, 실시예에 따른 메타데이터는, 복수의 메타데이터 섹션에 포함된 메타데이터 개체들로 이루어질 수 있다.
여기서, 메타데이터 섹션이란, 웹 페이지를 설명하는 속성의 정보 유형을 정의하며, 실시예에서 웹 페이지에 대한 제목 섹션, 설명 섹션 및/또는 태그어 섹션 등을 포함할 수 있다. 또한, 메타데이터 섹션 각각은, 메타데이터 섹션메타데이터 개체를 포함할 수 있다.
이때, 메타데이터 개체란, 웹 페이지의 데이터의 동일한 측면을 설명하는 일련의 메타데이터 요소들을 의미한다. 메타데이터 섹션
실시예에서, 메타데이터 개체는, 웹 페이지를 이루는 요소들로부터 이루어질 수 있다. 예를 들어, 메타데이터 개체는, 웹 페이지 데이터에 포함된 텍스트 요소, 이미지 내에 표시된 글자를 추출하여 획득된 텍스트 요소들을 포함할 수 있다.
즉, 실시예에서 메타데이터 개체는, 웹 페이지 내에 텍스트 및 웹 페이지 내 이미지에 포함된 글자에 대한 텍스트 중 핵심 키워드로 추출된 텍스트 요소들을 기초로 생성될 수 있다.
이러한 실시예에서 메타데이터 개체는, 제목 메타데이터 섹션에 포함되는 제목 섹션, 설명 메타데이터 섹션에 포함되는 설명 섹션 및/또는 태그어 메타데이터 섹션에 포함되는 태그어 섹션 등을 포함할 수 있다.
또한, 본 발명의 실시예에서 위와 같은 웹 페이지에 접속한 메타 어플리케이션(211)은, 접속된 웹 페이지 내의 텍스트를 추출할 수 있다. (S103)
자세히, 메타 어플리케이션(211)은, 웹 페이지에 포함된 텍스트 데이터(text data)를 해당 웹 페이지로부터 수신 및/또는 추출하여 획득할 수 있다.
도 5는 본 발명의 실시예에 따른 이미지를 포함하는 웹 페이지를 나타내는 모습의 일례이다.
다만, 도 5를 참조하면, 일반적으로 웹 페이지를 구현할 시, 이미지 형태로 가공된 텍스트를 포함하는 경우가 다수 존재하고 있다.
그리하여, 도 5의 (1)과 같이 웹 페이지 전체가 이미지로 구현되거나, 또는 도 5의 (2)와 같이 웹 페이지의 적어도 일부가 이미지로 구현되는 경우가 발생하게 된다.
그러므로, 본 발명의 실시예에서 메타 어플리케이션(211)은, 웹 페이지에 대한 메타데이터를 보다 정확하게 생성하기 위하여, 접속된 웹 페이지 내의 텍스트를 추출할 시 해당 웹 페이지에 이미지가 존재하는 경우, 이미지 내의 글자까지 모두 고려하여 웹 페이지 내 텍스트를 추출할 수 있다.
이때, 메타 어플리케이션(211)은, 이미지 내의 글자를 추출하기 위하여 소정의 이미지 내 글자 추출 모델 및/또는 알고리즘을 이용할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 구글 클라우드의 비전 API(Google cloud vision API) 등과 같은 이미지 내 글자 추출 모델을 활용하여, 웹 페이지의 이미지 내 글자까지 추출할 수 있다.
참고적으로, 구글 클라우드의 비전 API는, REST 및 RPC API를 통해 선행 학습된 강력한 머신러닝 모델을 제공하며, 이미지에 라벨을 할당하고 사전 정의된 수백만 개의 카테고리로 빠르게 분류할 수 있다. 이러한 비전 API 모델은, 이미지 내의 객체나 인쇄 또는 필기 텍스트 등을 감지할 수 있으며, 이로부터 유용한 데이터를 추출하여 이미지에 기반한 메타데이터 생성 프로세스를 보조할 수 있다.
다만, 본 실시예에서 메타 어플리케이션(211)은, 상술된 구글 클라우드의 비전 API 이외에도 이미지 내의 글자를 추출하기 위하여 종래의 공지된 다양한 수학적 알고리즘을 이용할 수 있으며, 본 발명에서는 이미지 내의 글자 추출을 수행하는 알고리즘 자체를 한정하거나 제한하지는 않는다.
이때, 위와 같이 웹 페이지로부터 추출된 텍스트는, 단어 및/또는 문장의 형태일 수 있다.
이처럼, 본 발명의 실시예에서 메타 어플리케이션(211)은, 웹 페이지 내의 일반 텍스트뿐만 아니라 웹 페이지가 포함하는 이미지 내의 글자까지 추출하여 자동생성되는 메타데이터에 기초 자료로 활용함으로써, 추후 해당 웹 페이지에 대해 생성되는 메타데이터의 정확성과 신뢰성을 보다 향상시킬 수 있다.
한편, 다른 실시예에서 메타 어플리케이션(211)은, 웹 페이지의 이미지에 매칭되는 대체 텍스트 태그가 존재하는 경우, 해당 대체 텍스트 태그에 포함되는 단어 및/또는 문장을 텍스트로 추출할 수 있다.
여기서, 대체 텍스트 태그란, 이미지에 대하여 기설정된 주요 단어 및/또는 문장이 해당 이미지에 매칭되어 저장된 정보일 수 있다.
예를 들어, 메타 어플리케이션(211)은, 웹 페이지의 제 1 이미지에 매칭되어 '이 문장이 제 1 이미지에 대한 핵심문장입니다.'라는 대체 텍스트 태그가 존재하는 경우, 상기 대체 텍스트 태그로 기설정되어 있는 문장을 해당 웹 페이지로부터 추출되는 텍스트에 포함시킬 수 있다.
이와 같이, 실시예에서 메타 어플리케이션(211)은, 웹 페이지 내 이미지에 대한 주요 텍스트를 기설정한 정보인 대체 텍스트 태그를 활용하여 해당 웹 페이지 내의 텍스트를 추출함으로써, 메타데이터 생성 시의 효율성을 보다 증대시킬 수 있다.
또한, 본 발명의 실시예에서 메타 어플리케이션(211)은, 위와 같이 추출된 텍스트에 대한 자연어 처리(Natural Language Processing, NLP)를 수행할 수 있고, 이를 통해 유효 텍스트를 도출할 수 있다. (S105)
여기서, 실시예에 따른 자연어 처리란, 텍스트에서 의미있는 정보를 분석하여 추출하고 이해하는 일련의 기술집합에 의한 프로세스를 의미할 수 있다.
또한, 유효 텍스트란, 인터넷을 통한 웹 페이지 검색 시 검색 색인으로 의미있는 텍스트를 의미할 수 있다.
자세히, 메타 어플리케이션(211)은, 공지된 자연어 처리 기술(예컨대, 태뷸러 파싱(Tabular Parsing) 알고리즘, HMM(Hidden Markov Model) 및/또는 Bi-LSTM-CRF(Bidirectional Long Short-Term Memory with Conditional Random Fields) 등)에 기반하여, 웹 페이지로부터 추출된 텍스트에 대한 자연어 처리를 수행할 수 있고, 유효 텍스트를 설정할 수 있다.
다만, 본 실시예에서 메타 어플리케이션(211)은, 텍스트에서 의미있는 정보를 분석하여 추출하는 자연어 처리를 수행하기 위하여 상술된 기술 이외에도 종래의 공지된 다양한 수학적 알고리즘을 이용할 수 있으며, 본 발명에서는 텍스트에서 의미있는 정보를 분석하여 추출하여 자연어 처리를 수행하는 알고리즘 자체를 한정하거나 제한하지는 않는다.
이때, 예시적으로 메타 어플리케이션(211)은, 자연어 처리를 수행하여 텍스트에 대한 불용어(stopword)/불용문장 처리를 수행할 수 있다.
여기서, 불용어/불용문장 처리란, 인터넷 검색 시 검색 용어/문장으로 사용하지 않는 단어/문장인 불용어/불용문장을 웹 페이지로부터 추출된 텍스트로부터 제외시키는 처리일 수 있다.
예컨대, 불용어 처리는, 웹 페이지로부터 추출된 텍스트에 대한 품사 태깅(part-of-speech tagging)을 수행하여 검색 색인 단어로서 의미가 없는 관사, 전치사, 조사 및/또는 접속사 등을 제외시키는 처리일 수 있다.
또한, 불용문장 처리는, 웹 페이지로부터 추출된 텍스트를 기반으로 텍스트 분류 작업(예컨대, 웹 페이지와 무관한 광고 텍스트 분류 및/또는 메뉴 텍스트 분류 등) 및/또는 음소 표기법(Lemmatization: 전후 문맥에 기반하여 단어를 식별하는 기법) 등을 수행하여 검색 색인 단어로서 의미가 없는 문장을 제외시키는 처리일 수 있다.
실시예에서, 메타 어플리케이션(211)은, 웹 페이지로부터 추출된 단어 및/또는 문장의 형태인 텍스트에 대한 자연어 처리가 수행되면, 추출된 텍스트에서 불용어/불용문장이 제외되어 인터넷 검색 시 검색 색인으로 의미있는 텍스트만을 도출할 수 있다.
그리고 메타 어플리케이션(211)은, 도출된 텍스트를 유효 텍스트로 설정하여 웹 페이지로부터 추출된 텍스트를 정제할 수 있다.
또한, 본 발명의 실시예에서 메타 어플리케이션(211)은, 위와 같은 자연어 처리에 기초하여 획득된 유효 텍스트를 기반으로 웹 페이지를 요약할 수 있고, 이를 통해 핵심 키워드를 도출할 수 있다. (S107)
자세히, 메타 어플리케이션(211)은, 웹 페이지로부터 도출된 검색 색인으로 의미있는 텍스트인 유효 텍스트(즉, 웹 페이지에서 추출된 텍스트 중 불용어/불용문장이 제외된 텍스트)에 기반하여, 해당 웹 페이지를 요약할 수 있고, 핵심 키워드를 도출할 수 있다.
여기서, 실시예에 따른 핵심 키워드란, 자연어 처리를 통해 획득된 유효 텍스트 중, 웹 페이지 상에서의 중요도가 소정의 기준 이상(예컨대, 텍스트 간 유사도가 기설정된 수치 이상 등)으로 높다고 판단된 텍스트일 수 있다.
이러한 핵심 키워드는, 단어 형태의 유효 텍스트 중 웹 페이지 상에서의 중요도가 소정의 기준 이상이라고 판단된 핵심단어 및/또는 문장 형태의 유효 텍스트 중 웹 페이지 상에서의 중요도가 소정의 기준 이상이라고 판단된 핵심문장을 포함할 수 있다.
자세히, 메타 어플리케이션(211)은, 공지된 소정의 텍스트 요약 알고리즘을 이용하여 유효 텍스트에 기반한 웹 페이지 요약 수행할 수 있고, 이 과정에서 핵심 키워드를 도출할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 텍스트랭크(TextRank) 알고리즘 등과 같은 텍스트 요약 알고리즘을 활용하여 웹 페이지에 대한 요약을 수행할 수 있다.
이때, 메타 어플리케이션(211)은, 텍스트랭크 알고리즘에 기반하여 웹 페이지의 유효 텍스트 간의 유사도를 분석할 수 있다.
그리고 메타 어플리케이션(211)은, 분석된 유사도에 기반하여 웹 페이지에서의 중요도에 따른 핵심 키워드를 도출할 수 있다.
예컨대, 메타 어플리케이션(211)은, 유효 텍스트의 제 1 텍스트와 유사도가 높은 타 텍스트가 많을수록, 해당 텍스트들에 높은 중요도를 부여할 수 있고 핵심 키워드로 선정할 수 있다.
여기서, 중요도는, 텍스트 랭크 알고리즘을 통해 산출된 TF 값(노출 빈도 값)과, TR(TextRank) 값, TF-IDF값, PMI(Point-wise Mutual Information) 값 또는 상기 값들을 통해 도출된 텍스트별(예컨대, 단어 또는 문장) 점수를 의미할 수 있다.
그리고 핵심 키워드는, 이러한 텍스트별 중요도 값을 기준으로 전체 텍스트에서 분류된 일부 텍스트를 의미할 수 있다. 예를 들어, 핵심 키워드는, 웹 페이지 내 전체 텍스트 중 중요도 값의 크기에 따라서 기 설정된 텍스트 개수만큼 추출한 텍스트들을 포함할 수 있다.
또한, 메타 어플리케이션(211)은, 도출된 핵심 키워드를 기반으로 해당 웹 페이지를 요약할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 도출된 핵심 키워드만을 유지 처리하는 방식으로 해당 웹 페이지를 요약시킬 수 있다.
또는, 예시적으로 메타 어플리케이션(211)은, 텍스트랭크 알고리즘을 이용하여 워드 그래프(Word graph) 또는 문장 그래프(Sentence graph)를 구축한 뒤, 그래프 랭킹(Graph ranking) 알고리즘인 페이지랭크(PageRank)를 이용하여, 주어진 텍스트로부터 핵심단어 및/또는 핵심문장을 결정할 수 있다.
예를들어, 메타 어플리케이션(211)은, 유효 텍스트를 단어별로 분류하고, 단어별로 유사도와 노출 빈도 등을 토대로 중요도를 산출할 수 있고, 소정의 기준 핵심단어수나 소정의 중요도 이상의 단어들을 중요도가 높은 순으로 한정하여 유효 텍스트의 일부 단어들을 핵심 단어로 결정할 수 있다.
또한, 메타 어플리케이션(221)는, 유효 텍스트를 문장별로 분류하고, 분류된 문장별 중요도를 산출한 후, 소정의 기준 핵심문장수나 소정의 중요도 이상의 문장들을 중요도가 높은 순으로 한정하여 유효 텍스트의 일부 문장을 핵심문장으로 결정할 수 있다.
그리고 메타 어플리케이션(211)은, 결정된 핵심단어 및/또는 핵심문장을 조합하여 웹페이지를 요약된 텍스트 문서로 정리할 수 있다.
즉, 메타 어플리케이션(211)은, 텍스트랭크 알고리즘에 기반하여 웹 페이지의 유효 텍스트로부터 핵심단어 및/또는 핵심문장을 포함하는 핵심 키워드를 도출할 수 있고, 도출된 핵심 키워드에 기반하여 웹 페이지를 요약한 텍스트 문서를 생성할 수 있다.
다만, 본 실시예에서 메타 어플리케이션(211)은, 텍스트에서 핵심 키워드를 도출하기 위하여 상술된 기술 이외에도 종래의 공지된 다양한 수학적 알고리즘을 이용할 수 있으며, 본 발명에서는 텍스트에서 핵심 키워드를 도출하는 알고리즘 자체를 한정하거나 제한하지는 않는다.
또한, 본 발명의 실시예에서 메타 어플리케이션(211)은, 도출된 핵심 키워드에 기반하여 메타데이터를 생성할 수 있다. (S109)
다시 상기하자면, 실시예에 따른 메타데이터는, 웹 페이지의 속성을 함축하여 나타내는 데이터로서, 웹 페이지의 데이터를 효율적으로 이용하기 위하여 구조화한 데이터 정보일 수 있고, 검색엔진에서의 검색 시 활용되는 검색 색인으로 기능할 수 있다.
또한, 실시예에서 이러한 메타데이터는, 웹 페이지에 대한 제목, 설명 및/또는 태그어 메타데이터 섹션 등을 포함할 수 있다.
또한, 실시예에서 메타데이터는, 각 메타데이터 섹션으로 분류되는 적어도 하나 이상의 메타데이터 개체를 포함할 수 있다.
자세히, 메타 어플리케이션(211)은, 소정의 기준에 따라서, 웹 페이지에 대한 검색 색인으로 의미있는 텍스트인 핵심 키워드(핵심단어 및/또는 핵심문장 포함)에 기반하여 메타데이터를 생성할 수 있다.
보다 상세히, 메타 어플리케이션(211)은, 웹 페이지로부터 도출된 핵심 키워드의 1) 웹 페이지 내 위치(예컨대, 상단, 중간 또는 하단 등), 2) 폰트 형태(예컨대, 폰트 크기 및/또는 굵기 등) 3) 핵심키워드별 중요도 및/또는 4) 웹 페이지 내 등장 빈도 수 등을 상기 소정의 기준으로 설정할 수 있다.
또한, 메타 어플리케이션(211)은, 설정된 소정의 기준에 따라서 핵심 키워드를 제목 메타데이터 섹션, 설명 메타데이터 섹션 또는 태그어 메타데이터 섹션 중 적어도 하나의 카테고리로 분류할 수 있고, 이를 통해 분류된 객체의 메타데이터 개체로 설정할 수 있다.
자세히, 메타 어플리케이션(211)은, 핵심 키워드 중 일부를 기초로 제목 섹션에 포함되는 제목 메타데이터 개체로 생성할 수 있다.
예를 들어, 메타 어플리케이션(211)은, 핵심단어 중 높은 중요도 순으로 제 n 개를 추출하고, 추출된 n개의 핵심단어를 모두 포함하는 문장을 생성하여 제목 섹션의 메타데이터 개체를 생성할 수 있다.
또한, 메타 어플리케이션(211)은, 핵심문장 중 높은 중요도 순으로 제 m 개를 추출하고, 추출된 m개의 핵심문장을 나열하여 제목 섹션의 메타데이터 개체를 생성할 수 있다.
다른 실시예에서, 메타 어플리케이션(221)은, 핵심문장에 기초가 되는 이미지의 글자의 위치 또는/및 형태를 기준으로 제목 섹션의 메타데이터 개체가 될 핵심문장을 결정할 수 있다.
도 6은 본 발명의 실시예에 따른 이미지를 포함하는 웹 페이지에 기반하여 메타데이터를 생성하는 방법을 설명하기 위한 도면이다.
예를 들어, 도 6을 참조하면, 메타 어플리케이션(211)은, 핵심문장의 기초가 되는 글자가 이미지에 가장 큰 영역을 차지하는 경우, 해당 글자에 대한 핵심문장을 제목 섹션의 메타데이터 개체로 결정할 수 있다.
또한, 메타 어플리케이션(211)은, 핵심문장의 기초가 되는 글자가 이미지의 최 상단에 위치한 경우, 해당 글자의 핵심문장을 제목 섹션의 메타데이터 개체로 결정할 수 있다.
또한, 메타 어플리케이션(211)은, 핵심문장 별의 기초가 되는 글자의 위치 및 크기를 기초로 점수를 산정하고, 가장 높은 점수의 글자에 대한 핵심문장을 제목 섹션의 메타데이터 개체로 결정할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 도 6에 도시된 웹 페이지 상에서 추출된 핵심 키워드의 핵심문장 중, 웹 페이지 내 위치가 ‘최상단’에 위치한 '내 피부에 내리는 강력한 햇살비 보습' 글자로 이루어진 핵심문장과, 크기가 가장 큰 '햇살비 라인' 글자에 대한 핵심문장을 제목 섹션으로 분류하고, 분류된 핵심문장을 결합한 '내 피부에 내리는 강력한 햇살비 보습 햇살비 라인'을 제목 섹션의 메타데이터 개체로 생성할 수 있다.
이때, 실시예에 따라서 메타 어플리케이션(211)은, 웹 페이지의 이미지에 매칭되어 기저장되어 있을 수 있는 대체 텍스트 태그에 기반하여, 제목 섹션을 바로 설정할 수도 있다.
자세히, 메타 어플리케이션(211)은, 웹 페이지의 이미지에 매칭되는 대체 텍스트 태그가 존재하는 경우, 도출된 핵심 키워드에 관계없이 상기 대체 텍스트 태그를 제목 섹션으로 설정할 수도 있다.
또한, 실시예에서 메타 어플리케이션(211)은, 제목 섹션 설정 시 생성되는 제목 메타데이터 개체의 총 글자 수의 한도를 설정할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 제목 메타데이터 개체의 총 글자 수의 한도를 '공백 포함 40자 이내'로 설정할 수 있고, 이를 통해 적정한 길이의 제목 섹션이 구성되도록 보조할 수 있다.
또한, 메타 어플리케이션(211)은, 제목 섹션을 설정할 때, 상기 생성된 제목 메타데이터 개체에 더하여 추후 검색 시 제공되는 호출 화면의 완성도를 높이기 위한 추가 정보를 더 포함해 설정할 수 있다.
실시예로, 메타 어플리케이션(211)은, 생성된 제목 메타데이터 개체와, 해당 웹 사이트 이름 및 상기 제목 메타데이터 개체와 상기 웹 사이트 이름을 구분하도록 보조하는 특수문자를 더 포함하여 제목 섹션을 설정할 수 있다.
예를 들면, 메타 어플리케이션(211)은, '제목 메타데이터 개체', '특수문자' 및 '웹 사이트 이름'을 순서대로 나열하여 제목 섹션을 구성할 수 있다.
또한, 메타 어플리케이션(211)은, 핵심 키워드 중 적어도 일부를 기초로 설명 섹션에 포함되는 설명 메타데이터 개체로 생성할 수 있다.
예를 들어, 메타 어플리케이션(211)은, 핵심단어 중 높은 중요도 순으로 제 x 개를 추출하고, 추출된 x개의 핵심단어를 조합한 적어도 하나 이상의 문장을 설명 메타데이터 개체로 생성할 수 있다.
또한, 메타 어플리케이션(211)은, 핵심문장 중 높은 중요도 순으로 제 y 개를 추출하고, 추출된 y개의 핵심문장을 나열하여 설명 섹션의 메타데이터 개체를 생성할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 도 6에 도시된 웹 페이지 상에서 추출된 핵심 키워드의 핵심문장 중, '햇살비 꿀 보습 클렌징 폼', '햇살비 촉촉 스킨', '햇살비 돋움 로션', '햇살비 클렌징 워터' 및 '햇살비 수분 크림' 등의 문장을 설명 섹션으로 메타데이터 개체로 설정할 수 있다.
이때, 실시예에 따라서 메타 어플리케이션(211)은, 제목 섹션의 전체 또는 일부 또한 설명 섹션으로 설정할 수 있는 등 다양한 실시예가 가능할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 제목 섹션으로 설정된 '햇살비 라인' 문장을 설명 섹션에도 포함시켜 설명 섹션을 구성할 수 있다.
또한, 실시예에서 메타 어플리케이션(211)은, 웹 페이지 문서 내에서 자주 등장하는 단어의 유사도를 기반으로 추출된 핵심문장을 설명 섹션으로 바로 설정할 수도 있다.
이때, 메타 어플리케이션(211)은, 설명 섹션의 설명 메타데이터 개체의 총 글자 수의 한도를 설정할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 설명 메타데이터 개체의 총 글자 수의 한도를 '공백 포함 80자 이내'로 설정할 수 있고, 이를 통해 적정한 길이의 설명 섹션이 구성되게 할 수 있다.
한편, 메타 어플리케이션(211)은, 핵심 키워드에 포함된 핵심단어들 중 적어도 일부를 태그어 섹션에 포함되는 태그어 메타데이터 개체로 선정할 수 있다.
실시예에서, 메타 어플리케이션(211)은, 핵심단어들을 높은 중요도 순으로 기 설정된 제 k 개까지 추출하여, 추출된 핵심단어들을 태그어 섹션에 태그어 메타데이터 개체로 설정할 수 있다.
또한, 다른 실시예에서 메타 어플리케이션(211)은, 핵심단어의 웹 페이지 내 등장 빈도 수를 산출하고, 산출된 빈도수가 소정의 기준(예컨대, 기설정된 횟수 이상 및/또는 전체 핵심단어 각각의 등장 빈도 수 중 상위 1% 등)을 충족하는 경우, 해당 핵심단어를 태그어 메타데이터 섹션으로 분류하여 태그어 섹션으로 설정할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 도 6에 도시된 웹 페이지 상에서 추출된 핵심 키워드의 핵심단어 중, 웹 페이지 내 등장 빈도 수가 가장 높은 핵심단어인 '햇살비' 단어를 태그어 메타데이터 섹션으로 분류하여 태그어 섹션으로 설정할 수 있다.
이때, 실시예에 따라서 메타 어플리케이션(211)은, 태그어 섹션의 적어도 일부가 제목 섹션으로 설정되게 할 수도 있다.
예를 들면, 메타 어플리케이션(211)은, 태그어 섹션 중 가장 높은 웹 페이지 내 등장 빈도 수를 가지는 제 1 태그어 개체의 등장 빈도 수와, 제목 섹션의 핵심문장이 포함하는 단어 중 가장 높은 웹 페이지 내 등장 빈도 수를 가지는 제 1 단어의 등장 빈도 수를 비교하여, 제 1 태그어 개체의 등장 빈도 수가 제 1 단어의 등장 빈도 수 보다 더 높은 빈도 수를 가지는 경우, 제목 섹션을 상기 제 1 태그어 개체로 설정할 수 있다.
또한, 실시예에서 웹 페이지로부터 도출된 핵심 키워드를 각 메타데이터 섹션으로 분류하고 메타데이터 개체로 설정한 메타 어플리케이션(211)은, 각 메타데이터 섹션과 메타데이터 개체에 기반하여 해당 웹 페이지에 대한 메타데이터를 생성할 수 있다.
즉, 메타 어플리케이션(211)은, 소정의 기준에 따른 분류에 의해 제목 섹션, 설명 섹션 및/또는 태그어 섹션으로 구분된 제목, 설명 및/또는 태그어 섹션에 기반하여, 웹 페이지에 대한 메타데이터를 생성할 수 있다.
이와 같이, 본 발명의 실시예에서 메타 어플리케이션(211)은, 웹 페이지 내 핵심 키워드의 위치, 폰트 형태 및/또는 등장 빈도 수에 따라서 해당 핵심 키워드를 제목, 설명 및/또는 태그어로 설정함으로써, 웹 페이지가 제공하는 정보에 대한 크롤링(crawling) 프로세스의 성능을 향상시킬 수 있고, 이에 기반하여 생성되는 메타데이터의 품질 또한 증진시킬 수 있다.
또한, 본 발명의 실시예에서 메타 어플리케이션(211)은, 위와 같이 생성된 메타데이터에 대한 편집 인터페이스를 제공할 수 있다. (S111)
도 7은 본 발명의 실시예에 따른 메타데이터에 대한 편집 인터페이스를 제공하는 모습의 일례이다.
자세히, 도 7을 참조하면, 메타 어플리케이션(211)은, 생성된 메타데이터가 포함하는 제목, 설명 및/또는 태그어 섹션에 대하여 편집을 수행할 수 있는 메타데이터 편집 인터페이스를 제공할 수 있다.
또한, 실시예에서 메타 어플리케이션(211)은, 제공된 편집 인터페이스에 대한 사용자 입력에 기반하여 제목, 설명 및/또는 태그어 섹션에 대한 정정을 수행할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 생성된 메타데이터의 제목 섹션이 '이 문장이 제목 섹션입니다.'인 경우, 편집 인터페이스에 기반한 사용자 입력에 따라서 상기 제목 섹션을 '이 문장이 변경된 제목 섹션입니다.'로 변경할 수 있다.
이와 같이, 메타 어플리케이션(211)은, 자동으로 생성된 메타데이터에 대한 편집 기능을 제공하여, 사용자의 인지적 판단을 기반으로 메타데이터의 품질과 정확성을 향상시킬 수 있고, 사용자의 요구에 최적화된 메타데이터를 설정할 수 있다.
또한, 본 발명의 실시예에서 메타 어플리케이션(211)은, 위와 같이 메타데이터를 생성할 시, 메타데이터 생성 프로세스를 보조하는 각종 인터페이스를 제공할 수 있다.
자세히, 메타 어플리케이션(211)은, 메타데이터를 생성하는 화면에 기반하여 1) 속성 적합도 인터페이스 및 2) 프리뷰(preview) 인터페이스를 제공할 수 있다.
보다 상세히, 도 9를 참조하면 메타 어플리케이션(211)은, 메타데이터를 생성할 때 각각의 섹션에 포함되어 있는 각 메타데이터 개체가, 해당하는 섹션에 포함되기에 적합한 개체인지를 판단한 속성 적합도를 나타내는 속성 적합도 인터페이스를 제공할 수 있다.
이때, 메타 어플리케이션(211)은, 각 섹션별 분류 기준 등을 활용하여 각 섹션 별 메타데이터 개체의 속성 적합도를 판단할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 제목 섹션인 경우, 핵심 키워드 포함여부 및/또는 타 웹페이지에 동일 텍스트 존재 여부 등에 기초하여 제목 메타데이터 개체의 속성 적합도를 판단할 수 있다.
이때, 메타 어플리케이션(211)은, 소정의 기준(예컨대, 속성 적합도 값 구간에 따른 단계별 분류 등)에 따라서 속성 적합도를 속성 적합도 인터페이스를 통해 제공할 수 있다.
자세히, 위와 같은 속성 적합도를 나타내는 속성 적합도 인터페이스는, 각 섹션에 속하는 메타데이터 개체의 속성 적합도를 소정의 그래픽 이미지(예컨대, 바 그래프 등)로 표시할 수 있고, 해당 속성 적합도의 판단 기준을 설명하는 인터페이스를 포함할 수 있다.
예를 들면, 속성 적합도 인터페이스는, '매우 낮음, 낮음, 보통, 높음, 매우 높음 단계'로 속성 적합도 값 구간에 따라서 속성 적합도가 분류되고, 산출된 속성 적합도 값이 '보통 단계'로 판단된 경우, 바 그래프로 구현된 그래픽 이미지를 통하여 위와 같은 속성 적합도를 표시할 수 있다.
또한, 속성 적합 인터페이스는, 상기 속성 적합도가 산출된 판단 기준에 대한 설명(예컨대, 웹 페이지의 핵심 키워드가 포함되지 않았습니다 등)을 텍스트로 표시할 수 있다.
한편, 도 10을 참조하면, 본 발명의 실시예에서 메타 어플리케이션(211)은, 상술된 프로세스를 통하여 메타데이터가 변경된 경우, 추후 해당 메타데이터를 기반으로 생성될 웹 페이지 검색호출 화면의 수정 전후 모습을 확인할 수 있는 프리뷰 인터페이스를 제공할 수 있다.
자세히, 프리뷰 인터페이스는, 변경된 메타데이터가 적용되기 전과 적용된 후의 웹 페이지 검색호출 화면의 모습을, 상기 변경된 메타데이터가 실제로 웹 페이지 검색호출 화면에 적용되기 이전에 그래픽 이미지로 생성하여 사용자의 요구에 따라 제공할 수 있다.
즉, 메타 어플리케이션(211)은, 수정된 메타데이터를 실제로 적용하기 전에 수정 전후의 검색호출 화면을 미리 제공하여, 변경 전후를 비교하게 할 수 있고, 최종적으로 제공될 화면을 확인하여 필요한 경우 재수정을 수행하게 할 수도 있는 등, 메타데이터에 대한 검토 작업이 효과적으로 이뤄지도록 보조할 수 있다.
또한, 본 발명의 실시예에서 메타 어플리케이션(211)은, 생성된 메타데이터를 기초로 웹 페이지 검색호출 화면을 제공할 수 있다. (S113)
여기서, 웹 페이지 검색호출 화면이란, 검색엔진 상에서 메타데이터에 기초한 웹 페이지 검색이 수행된 경우, 검색결과로 출력되는 화면에 표시되는 상기 웹 페이지에 대한 정보 제공 인터페이스일 수 있다.
도 8은 본 발명의 실시예에 따른 메타데이터에 기초하여 웹 페이지 검색호출 화면을 제공하는 모습의 일례이다.
자세히, 도 8을 참조하면, 실시예에서 메타 어플리케이션(211)은, 메타데이터의 제목, 설명 및/또는 태그어 메타데이터 섹션에 포함되는 적어도 하나 이상의 메타데이터 개체를, 소정의 기준(예컨대, 메타데이터 섹션 등)에 따라서 배치하여 웹 페이지 검색호출 화면을 생성할 수 있다.
예를 들면, 메타 어플리케이션(211)은, 메타데이터의 제목 섹션을 웹 페이지 검색호출 화면 가장 상단에 배치할 수 있다. 또한, 메타 어플리케이션(211)은, 메타데이터가 포함하는 적어도 하나 이상의 설명 섹션을 웹 페이지 검색호출 화면 중앙에 배치할 수 있다. 또한, 메타 어플리케이션(211)은, 메타데이터가 포함하는 적어도 하나 태그어 섹션을 웹 페이지 검색호출 화면의 가장 하단에 배치할 수 있다.
또한, 실시예에서 메타 어플리케이션(211)은, 메타데이터의 각 메타데이터 개체가 배치된 웹 페이지 검색호출 화면을, 검색엔진 상에서 상기 메타데이터에 기초한 웹 페이지 검색이 수행된 경우의 검색결과 화면 상에 출력하여 제공할 수 있다.
이와 같이, 메타 어플리케이션(211)은, 웹 페이지 내의 일반 텍스트뿐만 아니라, 웹 페이지가 포함하는 이미지 내의 글자까지 고려하여 생성된 메타데이터를 기반으로 웹 페이지 검색호출 화면을 생성해 제공함으로써, 웹 페이지에 대한 정보를 보다 정확하게 함축하는 검색 결과를 표시할 수 있고, 웹 페이지에 대한 보다 정확한 검색 색인에 기반하여 해당 웹 페이지가 검색엔진을 통해 검색되게 할 수 있다.
이상, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 웹 페이지의 텍스트, 이미지 내 글자 및 이미지에 대한 대체 텍스트 중 어느 하나 이상을 기반으로 크롤링(crawling)을 수행하여 상기 웹 페이지에 대한 속성을 설명하는 메타데이터를 제공함으로써, 웹 페이지 내의 일반 텍스트뿐만 아니라 해당 웹 페이지가 포함하는 이미지에 대한 텍스트까지 고려한 메타데이터를 제공할 수 있다.
또한, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 웹 페이지 내의 일반 텍스트뿐만 아니라 해당 웹 페이지가 포함하는 이미지에 대한 텍스트까지 고려한 메타데이터를 제공함으로써, 제공되는 메타데이터의 정확성과 신뢰성을 보다 향상시킬 수 있는 효과가 있다.
또한, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 웹 페이지로부터 크롤링된 텍스트의 속성을 기반으로 해당 웹 페이지에 대한 메타데이터를 생성함으로써, 생성되는 메타데이터의 퀄리티를 증진시킬 수 있는 효과가 있다.
또한, 본 발명의 실시예에 따른 웹 페이지에 기반한 메타데이터 생성방법은, 웹 페이지에 대한 메타데이터를 자동으로 생성하고, 자동 생성된 메타데이터에 대한 편집 인터페이스를 제공함으로써, 자주 업데이트가 일어나며 개인이 관리하기 어려운 메타데이터를 손 쉽게 정의하고 관리할 수 있는 효과가 있다.
또한, 이상에서 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
또한 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술할 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정하여져야만 할 것이다.

Claims (10)

  1. 컴퓨팅 디바이스의 프로세서에서 실행되는 메타데이터 생성 어플리케이션이 웹 페이지에 기반한 메타데이터 생성하는 방법으로서,
    상기 웹 페이지에 포함된 텍스트를 추출하는 단계;
    상기 웹 페이지에 포함된 이미지 내 글자를 기초로 텍스트를 추출하는 단계;
    상기 추출된 텍스트에 대한 자연어 처리를 수행하여 상기 추출된 텍스트의 일부를 유효 텍스트로 추출하는 단계;
    상기 추출된 유효 텍스트의 중요도를 산출하고, 산출된 중요도에 따라서 상기 추출된 유효 텍스트의 일부를 핵심 키워드로 결정하는 단계; 및
    상기 결정된 핵심 키워드에 기반하여 상기 메타데이터를 생성하는 단계를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  2. 제 1 항에 있어서,
    상기 웹 페이지에 포함된 이미지 내 글자를 기초로 텍스트를 추출하는 단계는,
    상기 웹 페이지 내 포함된 이미지를 추출하는 단계와, 상기 추출된 이미지 내에 글자를 추출하는 단계와, 상기 추출된 글자를 텍스트로 변환하는 단계를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  3. 제 1 항에 있어서,
    상기 추출된 텍스트의 일부를 유효 텍스트를 추출하는 단계는,
    상기 추출된 텍스트에서 불용어를 제거하는 단계와, 상기 추출된 텍스트에서 불용문장을 제거하는 단계를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  4. 제 1 항에 있어서,
    상기 추출된 유효 텍스트의 일부를 핵심 키워드로 결정하는 단계는,
    상기 유효 텍스트를 단어단위로 분리하는 단계와, 상기 분리된 단어들에 대한 중요도를 산출하는 단계와, 상기 중요도가 높은 순서에 따라서 선정된 핵심단어를 상기 핵심 키워드로 결정하는 단계를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  5. 제 4 항에 있어서,
    상기 추출된 유효 텍스트의 일부를 핵심 키워드로 결정하는 단계는,
    상기 유효 텍스트를 문장단위로 분리하는 단계와, 상기 분리된 문장들에 대한 중요도를 산출하는 단계와, 상기 중요도가 높은 순서에 따라서 선정된 핵심문장을 상기 핵심 키워드로 결정하는 단계를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  6. 제 5 항에 있어서,
    상기 메타데이터는,
    상기 웹 페이지의 제목으로 이용되는 제목 섹션에 포함되는 제목 메타데이터 개체와, 상기 웹 페이지에 대한 설명으로 이용되는 설명 섹션의 설명 메타데이터 개체와, 상기 웹 페이지의 태그어로 이용되는 태그어 섹션의 태그어 메타데이터 개체를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  7. 제 6 항에 있어서,
    상기 메타데이터를 생성하는 단계는,
    상기 핵심문장에 기초가되는 이미지 내 글자의 위치 또는 크기에 따라서 상기 핵심문장 중 적어도 하나 이상의 핵심문장을 상기 제목 메타데이터 개체로 설정하는 단계를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  8. 제 6 항에 있어서,
    상기 메타데이터를 생성하는 단계는,
    상기 핵심문장 중 적어도 일부를 상기 설명 메타데이터 개체로 설정하는 단계를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  9. 제 6 항에 있어서,
    상기 메타데이터를 생성하는 단계는,
    상기 핵심단어를 상기 중요도가 높은 순서에 따라서 제 k 개의 핵심단어를 추출하는 단계와, 상기 추출된 핵심단어를 상기 태그어 메타데이터 개체로 설정하는 단계를 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
  10. 제 1 항에 있어서,
    상기 생성된 메타데이터에 대한 사용자 편집 인터페이스를 제공하는 단계를 더 포함하는
    웹 페이지에 기반한 메타데이터 생성방법.
KR1020200036591A 2020-03-26 2020-03-26 웹 페이지에 기반한 메타데이터 생성방법 KR20210120203A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200036591A KR20210120203A (ko) 2020-03-26 2020-03-26 웹 페이지에 기반한 메타데이터 생성방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200036591A KR20210120203A (ko) 2020-03-26 2020-03-26 웹 페이지에 기반한 메타데이터 생성방법

Publications (1)

Publication Number Publication Date
KR20210120203A true KR20210120203A (ko) 2021-10-07

Family

ID=78609750

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200036591A KR20210120203A (ko) 2020-03-26 2020-03-26 웹 페이지에 기반한 메타데이터 생성방법

Country Status (1)

Country Link
KR (1) KR20210120203A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024080704A1 (ko) * 2022-10-12 2024-04-18 주식회사 스튜디오랩 페이지 출력 방법
KR102661438B1 (ko) * 2023-11-14 2024-04-29 (주)미래융합정보기술 인터넷 기사 크롤링, 글로벌 가치 사슬에 영향을 주는 이슈 기사의 요약 서비스를 제공하는 웹크롤러 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170094829A (ko) 2016-02-12 2017-08-22 주식회사 영플러스소프트 본문 추출용 해시 키 데이터베이스 생성 방법, 이를 이용한 본문 추출 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170094829A (ko) 2016-02-12 2017-08-22 주식회사 영플러스소프트 본문 추출용 해시 키 데이터베이스 생성 방법, 이를 이용한 본문 추출 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024080704A1 (ko) * 2022-10-12 2024-04-18 주식회사 스튜디오랩 페이지 출력 방법
KR102661438B1 (ko) * 2023-11-14 2024-04-29 (주)미래융합정보기술 인터넷 기사 크롤링, 글로벌 가치 사슬에 영향을 주는 이슈 기사의 요약 서비스를 제공하는 웹크롤러 시스템

Similar Documents

Publication Publication Date Title
US20220075806A1 (en) Natural language image search
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
US10042866B2 (en) Searching untagged images with text-based queries
CN108701155B (zh) 社交网络中的专家检测
CN109189879B (zh) 电子书籍显示方法及装置
US9720904B2 (en) Generating training data for disambiguation
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
US20060218192A1 (en) Method and System for Providing Information Services Related to Multimodal Inputs
US10282374B2 (en) System and method for feature recognition and document searching based on feature recognition
US20150161249A1 (en) Finding personal meaning in unstructured user data
TW201322014A (zh) 以圈選方式進行檢索之輸入方法及其系統
US9639633B2 (en) Providing information services related to multimodal inputs
US8799257B1 (en) Searching based on audio and/or visual features of documents
US8949253B1 (en) Low-overhead image search result generation
US10152540B2 (en) Linking thumbnail of image to web page
Crestani et al. Mobile information retrieval
US20140279730A1 (en) Identifying salient items in documents
JP2017157193A (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN113806588A (zh) 搜索视频的方法和装置
WO2023020160A1 (zh) 一种推荐方法、训练方法、装置、设备及推荐***
KR20210120203A (ko) 웹 페이지에 기반한 메타데이터 생성방법
US20130179832A1 (en) Method and apparatus for displaying suggestions to a user of a software application
CN116755688A (zh) 组件处理方法、装置、计算机设备及存储介质
US11314793B2 (en) Query processing
WO2024036616A1 (zh) 一种基于终端的问答方法及装置