KR101315554B1 - 웹 페이지에 키워드를 할당하기 위한 방법 및 장치 - Google Patents

웹 페이지에 키워드를 할당하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR101315554B1
KR101315554B1 KR1020127002532A KR20127002532A KR101315554B1 KR 101315554 B1 KR101315554 B1 KR 101315554B1 KR 1020127002532 A KR1020127002532 A KR 1020127002532A KR 20127002532 A KR20127002532 A KR 20127002532A KR 101315554 B1 KR101315554 B1 KR 101315554B1
Authority
KR
South Korea
Prior art keywords
keywords
keyword
web page
self
inlink
Prior art date
Application number
KR1020127002532A
Other languages
English (en)
Other versions
KR20120087881A (ko
Inventor
무랄리드하란 삼패스 코디알램
사리트 무케르지
리민 왕
성환 임
Original Assignee
알까뗄 루슨트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알까뗄 루슨트 filed Critical 알까뗄 루슨트
Publication of KR20120087881A publication Critical patent/KR20120087881A/ko
Application granted granted Critical
Publication of KR101315554B1 publication Critical patent/KR101315554B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

웹 페이지 자체, 웹 페이지로 지향되는 링크를 갖는 웹 페이지, 및 웹 페이지 내의 링크에 의해 지향되는 웹 페이지로부터 키워드 데이터를 사용하여 웹 페이지에 키워드를 할당하기 위한 방법, 시스템 및 장치가 개시되고, 다수의 웹 페이지로부터의 키워드 데이터는 웹 페이지에 대한 키워드 데이터의 관련 세트를 제공하도록 프로세싱된다.

Description

웹 페이지에 키워드를 할당하기 위한 방법 및 장치{KEYWORD ASSIGNMENT TO A WEB PAGE}
본 발명은 일반적으로 웹 페이지 분류의 분야에 관한 것으로서, 더 구체적으로는 관련 키워드에 따라 웹 페이지를 분류하는 것에 관한 것이다.
웹 페이지로의 키워드 할당은 웹 페이지 분류 및 검색을 위한 중대한 단계이다. 키워드는 페이지 내에 포함된 정보를 캡처하기에 충분히 대표적이어야 하고 실용적인 사용에 충분하게 통상적이고 사회적으로 수용 가능해야 한다(예를 들어, 사용자 제공된 검색 키워드에 따라 사용자에 관련 웹 페이지를 식별함).
일반적으로, 웹 페이지는 디자이너에 의해 그에 할당된 몇몇 키워드를 포함한다. 예를 들어, 키워드는 HTML 태그 "제목" 또는 메타 태그 "키워드" 또는 "설명" 하에서 발견될 수 있다. 이들 키워드는 상이한 웹 디자이너가 이들을 상이하게 할당하기 때문에 실용적이도록 그리고 상이한 목적을 수행하도록 충분히 수용 가능할 필요는 없다.
웹 페이지로의 키워드 할당을 위해 사용될 수 있는 다수의 상이한 기술이 존재한다. 인공 지능 기반 기술에서, 알고리즘은 웹 페이지의 특성을 학습하고 이에 대응적으로 웹 페이지에 키워드를 할당하기 위해 웹 페이지를 분석한다. 이 알고리즘은 분석된 웹 페이지의 수로 향상된다. 데이터 마이닝 기반 기술에서, 알고리즘은 페이지 내에 존재하는 데이터 내의 트렌드를 찾고, 이어서 페이지에 키 속성을 식별한다. 키워드 밀도 기반 기술에서, 알고리즘은 웹 페이지 내에 존재하는 단어를 통해 분류하고 얻어진 밀도 기능에 기초하여 웹 페이지에 키워드를 할당한다.
이들 기술은 연산 집약적이고, 페이지 콘텐트를 분석하기 위한 필요성에 기인하여 페이지당 큰 저장 공간을 필요로 한다. 게다가, 페이지 콘텐트의 임의의 수정은 전체 페이지의 재분석을 필요로 한다. 또한, 이들 기술은 페이지의 콘텐트에 의존하기 때문에, 이들은 구글(Google)TM 맵 페이지와 같은 자바스크립트(JavaScript)를 사용하여 동적으로 구성되는 페이지와 같은 몇몇 단어를 갖는 웹 페이지로의 키워드 할당을 위해 적합하지 않다.
종래 기술의 다양한 결점은 웹 페이지 자체, 웹 페이지로 지향되는 링크를 갖는 웹 페이지, 및 웹 페이지 내의 링크에 의해 지향되는 웹 페이지로부터 키워드 데이터를 사용하여 웹 페이지에 키워드를 할당하기 위한 방법, 시스템 및 장치에 의해 처리되고, 다수의 웹 페이지로부터의 키워드 데이터는 웹 페이지에 대한 키워드 데이터의 관련 세트를 제공하도록 프로세싱된다.
웹 페이지에 키워드를 할당하기 위한 방법의 일 실시예는, 웹 페이지와 관련된 셀프 키워드를 식별하는 단계 - 셀프 키워드는 상기 웹 페이지로부터의 키워드 데이터를 포함함 - 와, 웹 페이지와 관련된 인링크 키워드를 식별하는 단계 - 인링크 키워드는 웹 페이지로의 링크를 포함하는 다른 웹 페이지로부터의 키워드 데이터를 포함함 - 와, 웹 페이지와 관련된 아웃링크 키워드를 식별하는 단계 - 아웃링크 키워드는 웹 페이지로부터 이들로의 링크를 갖는 다른 웹 페이지로부터의 키워드 데이터를 포함함 - 와, 셀프, 인링크 및 아웃링크 키워드를 조합하여 웹 페이지에 대한 키워드의 세트를 형성하는 단계를 포함한다. 게다가, 셀프, 인링크 및 아웃링크 키워드의 세트는 셀프, 인링크 및 아웃링크 키워드의 각각의 랭크 순서화된 세트를 제공하도록 더 프로세싱될 수 있다. 게다가, 발견적 (heuristic) 기능의 하나 이상이 셀프, 인링크 및 아웃링크 키워드 세트 내의 각각의 키워드의 상대적 중요성을 결정하는데 사용될 수 있다.
본 발명의 교시는 첨부 도면과 관련하여 이하의 상세한 설명을 고려함으로써 즉시 이해될 수 있다.
도 1은 본 발명의 실시예를 이해하는데 유용한 네트워킹된 컴퓨터 시스템의 고레벨 블록 다이어그램.
도 2는 연결된 웹 페이지 사이의 키워드 관계를 도식적으로 도시하는 도면.
도 3은 일 실시예에 따른 웹 페이지에 키워드를 할당하기 위한 방법의 흐름도.
도 4는 웹 페이지 내의 적합한 키워드를 식별하는 방법의 흐름도.
도 5는 웹 페이지 내에 관련된 키워드를 랭킹하는 방법의 흐름도.
도 6은 본 명세서에 설명된 기능을 수행하는데 사용을 위해 적합한 범용 컴퓨터의 고레벨 블록 다이어그램.
이해를 용이하게 하기 위해, 가능한 경우에 도면에 공통적인 동일한 요소를 지시하기 위해 동일한 도면 부호가 사용되고 있다.
본 발명은 주로 특정 웹 페이지로부터 데이터를 사용하여 특정 웹 페이지, 특정 웹 페이지에 포인팅되는 링크를 갖는 다른 웹 페이지, 및 특정 웹 페이지 내의 링크에 의해 포인팅된 다른 웹 페이지에 키워드를 할당하기 위한 방법, 시스템 및 장치와 관련하여 설명될 것이다. 다수의 웹 페이지가 이들의 각각의 키워드의 관련성을 향상시키기 위해 반복적으로 프로세싱될 수 있다. 키워드 데이터베이스의 고속 검색이 검색 알고리즘, 분류 알고리즘 등의 환경 내에 제공되도록 다수의 웹 페이지, 가능하게는 모든 이용 가능한 웹 페이지와 관련된 키워드가 제공되는 웹 페이지 키워드 데이터베이스가 형성될 수 있다. 본 명세서의 교시를 통지받는 당 기술 분야의 숙련자들은 실시예가 웹 페이지 분류(다수의 웹 페이지에 키워드를 할당함으로서), 사용자 트래킹(사용자에 의해 방문된 페이지의 키워드를 검사함으로써) 등과 같은 무수히 많은 다른 용례에 적용 가능하다는 것을 이해할 수 있을 것이다.
일반적으로, 웹 페이지는 디자이너에 의해 그에 할당되는 몇몇 키워드를 포함한다. 예를 들어, 키워드는 "제목"과 같은 HTML 태그 또는 다른 HTML 태그를 검사함으로써 또는 "키워드" 태그 또는 "설명" 태그와 같은 메타 태그를 검사함으로써 웹 페이지 내에서 발견될 수 있다. 다양한 실시예는 특정 웹 페이지에 키워드를 할당하기 위한 반복적 및 비반복적 방법론의 환경 내에서 이들 키워드를 이용한다. 실시예는 이 웹 페이지 또는 관련 웹 페이지가 키워드 관련 태그를 포함하지 않을지라도 웹 페이지에 키워드를 할당하도록 동작한다는 것이 주목된다.
일반적으로 말하면, 다양한 실시예에 따른 방법, 시스템 및 장치는 이 웹 페이지(본 명세서에 "셀프" 웹 페이지라 나타냄), 셀프 웹 페이지로 포인팅되는 링크를 갖는 이들 웹 페이지(본 명세서에 "인링크" 웹 페이지라 나타냄) 및 셀프 웹 페이지에 의해 포인팅되는 이들 웹 페이지(본 명세서에 "아웃링크" 웹 페이지라 나타냄)로부터 키워드를 검색함으로써 특정 웹 페이지에 키워드를 할당한다.
도 1은 본 발명의 실시예를 이해하는데 유용한 네트워킹된 컴퓨터 시스템의 고레벨 블록 다이어그램을 도시한다. 구체적으로, 복수의 네트워크 요소 또는 노드(110)가 인터넷과 같은 네트워크(120)를 형성하기 위해 표준 방식으로 상호 접속된다. 다양한 네트워크 요소 또는 노드는 웹 페이지의 공통의 또는 균일한 어드레싱, 미디어 스트리밍 등을 지원하는 다양한 프로토콜을 고수하는 하드웨어 및 소프트웨어 구성 요소를 포함한다. 본 발명에 있어서, 설명은 하이퍼텍스트 마크업 언어(HTML), 확장성 마크업 언어(XML), 균일 자원 표시자(URL) 및 월드 와이드 웹과 친숙한 사람들에 의해 이해되는 다른 표준화된 프로토콜을 사용하여 웹 페이지에 한정될 것이다.
이 설명을 목적으로, 각각의 네트워크 요소 또는 노드(110)는 범용 컴퓨터를 포함하지만, 특정 용도 컴퓨터 및/또는 다른 디바이스(예를 들어, 라우터, 브리지, 스위치 등)가 또한 다양한 실시예에 있어서 이용될 수 있다. 본 명세서에 설명된 범용 컴퓨터의 동작 상세는 단지 간략하게 설명된다. 각각의 범용 컴퓨터(110)는 네트워크(120) 내의 다른 범용 컴퓨터(110) 중 하나 이상과 통신한다. 범용 컴퓨터(110) 중 하나 이상은 이에 의해 다양한 실시예에 대해 본 명세서에 설명된 방법론, 시스템 및 기술을 구현하는 소프트웨어 명령을 실행한다.
범용 컴퓨터(110)는 프로세서(111), 입력-출력 인터페이스(117) 및 메모리(112)를 포함하는 것으로서 도시되어 있다. 프로세서(111)는 메모리(112) 및 입력-출력 인터페이스(117)의 각각에 결합된다. 입력-출력 인터페이스(117)는 네트워크(120) 내의 다른 노드 또는 네트워크 요소와의 통신을 용이하게 하도록 적용된다.
범용 컴퓨터(110)의 메모리(112)는 애플리케이션(113)과 관련된 데이터 및 웹 페이지(114)와 관련된 데이터를 포함하는 것으로서 도시되어 있다. 단지 하나의 웹 페이지만이 도시되어 있지만, 웹 페이지의 다수의 인스턴스는 범용 컴퓨터(110)의 메모리(114)의 환경 내에서 지원될 수 있다. 더욱이, 범용 컴퓨터(110)의 메모리 내의 웹 페이지의 존재는 반드시 다양한 실시예를 구현할 필요는 없다는 것이 주목되어야 한다. 애플리케이션(113)은 프로세서(111)에 의해 실행될 때 다양한 실시예에 대해 본 명세서에 설명된 다양한 단계를 수행하는 소프트웨어 명령을 포함한다.
웹 페이지(114)는 콘텐트(C), 메타데이터(MD), 설명(D) 및 링크(L)를 포함하는 것으로서 도시된다. 콘텐트(C)는 임의의 텍스트, 이미지 또는 다른 콘텐트 데이터를 포함할 수 있다. 메타데이터(MD) 및 설명(D)은 다양한 실시예와 관련하여 본 명세서에 설명된 바와 같이 웹 페이지에 속하는 임의의 표준 또는 비표준 정보를 포함할 수 있다. 링크(L)는 다른 웹 페이지에 포인팅되는 URL 또는 다른 유형의 링크를 예시적으로 포함한다.
서비스 공급자 노드(130)가 프로세서(131), 입력-출력 인터페이스(137) 및 메모리(132)를 포함하는 것으로서 도시되어 있다. 프로세서(131)는 각각의 메모리(132) 및 입력-출력 인터페이스(137)에 결합된다. 입력-출력 인터페이스(137)는 전술된 범용 컴퓨터(110)와 같은 네트워크(120) 내의 다른 노드 또는 네트워크 요소와의 통신을 용이하게 하도록 적용된다. 서비스 공급자 노드는 네트워크(120)를 경유하여 다수의 노드와 통신하는 서버 및/또는 관리 기능을 지원하는 노드를 예시적으로 포함한다. 일반적으로 말하면, 임의의 서버, 클라이언트 또는 다른 디바이스는 실시예와 관련하여 본 명세서에 설명된 다양한 기능을 수행할 수 있다. 더욱이, 다수의 서버, 클라이언트 및/또는 다른 디바이스는 다양한 기능을 더 신속하게 수행하도록 병렬로 동작할 수 있다. 예를 들어, 하나의 디바이스는 인링크 리스트를 업데이트하도록 적용될 수 있고, 반면에 다른 디바이스는 아웃링크 리스트를 업데이트하도록 적용될 수 있다. 부가의 서버가 프로세싱될 웹 페이지의 수가 증가함에 따라 업데이트된 각 리스트에 이용될 수 있다.
서비스 공급자 노드(130)의 메모리(132)는 애플리케이션(133)과 관련된 데이터 및 키워드 저장 데이터베이스(119)와 관련된 데이터를 포함하는 것으로서 도시되어 있다. 애플리케이션(133)은 프로세서(111)에 의해 실행될 때 다양한 실시예와 관련하여 본 명세서에 설명된 다양한 단계를 수행하는 소프트웨어 명령을 포함한다. 키워드 할당 데이터베이스(139)는 하나 이상의 웹 페이지와 관련된 키워드 데이터가 저장되는 데이터베이스를 포함한다. 키워드 할당 데이터베이스(139)는 예시적인 서비스 공급자 노드(130)의 구성 요소인 것으로서 도시되어 있다. 그러나, 키워드 할당 데이터베이스(139)는 다양한 실시예에 따라 동작하는 프로세싱 회로[서비스 공급자 노드(130)와 같은]에 대해 원격일 수 있는 것이 당 기술 분야의 숙련자들에 의해 이해될 수 있을 것이다. 일 실시예에서, 외부 데이터베이스(140)는 웹 페이지와 관련된 키워드 정보를 저장하도록 제공된다.
일반적으로 말하면, 다양한 실시예와 관련하여 본 명세서에 설명된 방법은 네트워크(120) 내의 노드(110)의 일부 또는 (이상적으로는) 전체 내의 웹 페이지와 관련된 정확한 키워드 데이터를 추출하도록 서비스 공급자 노드(132) 내에서 실행된다. 따라서, 다양한 실시예에서, 키워드 저장 데이터베이스(139) 및/또는 데이터베이스(140)는 네트워크(120) 내의 다양한 노드(110)에 의해 지원되거나 호스팅된 각각의 웹 페이지(114)와 관련된 키워드 데이터를 저장하는데 사용된다. 이와 같이, 일 실시예는 네트워크 관리 시스템(NMS), 네트워크 경영 시스템, 실시예와 관련하여 이하에 설명되는 다양한 파라미터를 계산하기 위한 소프트웨어를 실행하는 서비스 공급자 노드 또는 다른 네트워크 또는 관리 요소를 포함한다. 이들 실시예의 지원 하드웨어/소프트웨어 요소는 다양한 도면과 관련하여 본 명세서에 설명된다.
도 2는 연결된 웹 페이지 사이의 키워드 관계를 도식적으로 도시한다. 구체적으로, 도 2는 셀프 웹 페이지(210), 복수의 인링크 웹 페이지(2201, 2202, 2203, 등 최대 220n)[집합적으로 인링크 웹 페이지(220)], 및 복수의 아웃링크 웹 페이지(2301, 2302, 2303, 등 최대 예시적으로 2304)[집합적으로 아웃링크 웹 페이지(230)]를 도식적으로 도시한다.
자체 웹 페이지(210)는 키워드 할당을 결정하도록 프로세싱되는 웹 페이지를 포함한다. 인링크 웹 페이지(220)는 HTML, XML, href 또는 다른 링크와 같은 링크 또는 셀프 페이지를 향해 포인팅되고, 셀프 페이지를 어드레스하거나 또는 셀프 페이지에 사용자를 페이지 전환시키는 어드레싱 메커니즘을 포함하는 이들 웹 페이지를 포함한다. 아웃링크 웹 페이지(230)는 HTML, XML, href 또는 다른 링크 또는 셀프 페이지 내의 어드레싱 메커니즘에 의해 포인팅되거나 다른 방식으로 어드레스되는 이들 웹 페이지를 포함한다.
셀프 페이지(210)는 하나, 하나 초과의 각각의 키워드와 관련되거나 또는 관련되지 않을 수 있다. 도 2의 도면에서, 셀프 페이지(210)는 키워드의 각각의 세트[k1]와 관련된다. 셀프 페이지 키워드의 세트는 중량(w0)으로서 도시된 각각의 중량과 관련된다.
각각의 인링크 웹 페이지(220)는 하나, 하나 초과의 키워드와 관련되거나 또는 관련되지 않을 수 있다. 예를 들어, 인링크 웹 페이지(2201)는 키워드의 각각의 세트[k1, k2 ...]와 관련되고, 인링크 웹 페이지(2202)는 키워드의 각각의 세트[k3, k4 ...]와 관련되고, 인링크 웹 페이지(2203)는 키워드의 각각의 세트[k2, k4 ...]와 관련되고, 인링크 웹 페이지(220n)는 세트가 널(NULL) 세트(즉, 키워드가 없음)를 포함하는 키워드의 각각의 세트와 관련된다. 인링크 웹 페이지 키워드의 세트의 각각은 중량(w1 내지 wn)으로서 도시된 각각의 중량(w)과 관련된다.
각각의 아웃링크 웹 페이지(230)는 하나, 하나 초과의 키워드와 관련되거나 또는 관련되지 않을 수 있다. 예를 들어, 아웃링크 웹 페이지(2301)는 키워드의 각각의 세트[k1, k2 ...]와 관련되고, 아웃링크 웹 페이지(2302)는 키워드의 각각의 널 세트[]와 관련되고, 아웃링크 웹 페이지(2303)는 키워드의 각각의 세트[k2, k4 ...]와 관련되고, 아웃링크 웹 페이지(2304)는 키워드의 각각의 세트[k1, k3,...]와 관련된다. 아웃링크 웹 페이지 키워드의 세트의 각각은 중량(w5 내지 w8)으로서 도시된 각각의 중량(w)과 관련된다.
셀프 웹 페이지(210)에 할당될 키워드의 세트를 형성하기 위해, 원본 셀프 웹 페이지 키워드, 인링크 웹 페이지 키워드 및 아웃링크 웹 페이지 키워드는 셀프 노드와 관련된 키워드의 랭크 순서를 예시적으로 형성하기 위해 다양한 실시예에 따라 수집되어 프로세싱된다. 이 키워드의 수집 및 프로세싱은 이들 부가의 노드가 또한 랭크 순서로 리스트된 각각의 수집된/프로세싱된 키워드를 포함하도록 복수의 셀프 노드(예를 들어, 인링크 및 아웃링크 노드)의 각각에 대해 반복될 수 있다. 이 방법론은 임의의 특정 셀프 노드와 관련된 키워드 또는 랭크 순서화된 키워드가 이 셀프 노드로의 이들의 관련성의 견지에서 연속적으로 변경하고 그리고/또는 향상되는 연속 프로세스를 포함할 수 있다. 예를 들어, 임의의 특정 셀프 웹 페이지와 관련된 인링크 웹 페이지는 더 많은(또는 더 적은) 웹 페이지가 그 특정 셀프 웹 페이지로 포인팅됨에 따라 시간 경과에 따라 거의 확실히 변화할 수 있다. 따라서, 다양한 실시예에서, 본 명세서에 제시된 방법론은 할당된 키워드 세트가 연속적으로 향상되고 확장되는 웹 페이지에 대한 대표적인 키워드 세트 할당을 제공한다.
일반적으로 말하면, 웹 페이지는 통상적으로 콘텐트부 및 비콘텐트부를 포함한다. 콘텐트부 또는 비콘텐트부 중 하나는 본 발명의 실시예에 있어서 키워드로서 사용을 위해 적합한 텍스트를 포함할 수 있다. 복잡성이 감소된 실시예에서(즉, 더 적은 연산 자원을 이용하는 이들 실시예), 단지 웹 페이지의 비콘텐트부 내에 포함된 텍스트만이 키워드 세트 내에 포함된다. 더 복잡한 실시예에서(즉, 연산 자원 요구와 덜 관련된 이들 실시예), 웹 페이지의 콘텐트부 내에 포함된 텍스트는 또한 웹 페이지와 관련된 키워드 세트 내에 포함될 수 있다.
도 3은 일 실시예에 다른 웹 페이지에 키워드를 할당하기 위한 방법의 흐름도를 도시한다. 구체적으로, 도 3의 방법(300)은 하나 이상의 셀프 페이지와 관련된 키워드 세트를 생성하도록 적용된다. 도 3의 방법(300)은 요구되는 바와 같이 하나 이상의 웹 페이지에 대해 반복될 수 있다.
단계 310에서, 셀프 페이지 키워드가 식별된다. 즉, 키워드 할당을 위해 프로세싱되는 웹 페이지 내의 키워드가 식별된다.
단계 320에서, 인링크 페이지 키워드가 식별된다. 즉, 키워드 할당을 위해 프로세싱되는 웹 페이지로 포인팅되는 링크를 갖는 웹 페이지 내의 키워드가 식별된다. 박스 325를 참조하면, 인링크 페이지의 리스트가 선택적으로 업데이트된다. 이러한 업데이트는 검색 엔진, 웹 크롤러(Web crawler) 또는 다른 메커니즘을 호출하여 프로세싱되는 웹 페이지에 포인팅되는 링크를 포함하는 이들 웹 페이지를 식별하는 것을 포함할 수 있다. 예를 들어, www.example.com으로서 나타낸 셀프 웹 페이지가 프로세싱되는 것을 가정하면, 셀프 웹 페이지에 연결되는 모든 웹 페이지의 리스트가 웹을 크롤링함으로써 또는 검색 용어 "link:www.example.com"을 사용하여 야후(Yahoo) 또는 구글과 같은 검색 엔진을 이용함으로써 시간 경과에 따라 형성될 수 있다. 웹 페이지의 결과적인 리스트(Inlink_list로서 나타냄)는 셀프 페이지에 속하는 인링크 키워드 데이터가 검색되는 웹 페이지와 관련된 어드레스/식별 정보를 제공한다. 일 실시예에서, Inlink_list 내의 인링크 웹 페이지는 강도, 관련성 또는 다른 랭킹 패러다임에 따라 랭크 순서화된다. 추가의 실시예에서, 단지 사전 결정된 수의 랭크된 인링크 웹 페이지로부터의 키워드만이 키워드를 공급하는데 사용된다.
단계 330에서, 아웃링크 페이지 키워드가 식별된다. 즉, 키워드 할당을 위해 프로세싱되는 웹 페이지 내의 링크에 의해 포인팅되는 웹 페이지 내의 키워드가 식별된다. Outlink_list가 셀프 페이지(www.example.com)의 소스 파일을 분석하고 페이지 내의 href 데이터를 수집함으로써 얻어질 수 있지만, 이미지 페이지와 관련된 href 데이터는 이미지 페이지가 임의의 유용한 텍스트 콘텐트를 갖지 않을 수 있기 때문에 Outlink_list로부터 무시될 수 있다. 박스 335를 참조하면, 아웃링크 페이지의 리스트(Outlink_list로서 나타냄)가 선택적으로 업데이트된다. 이러한 업데이트는 아웃링크로의 임의의 변경/업데이트가 발생되는지 여부를 판정하기 위해 셀프 웹 페이지를 검사하는 것을 포함할 수 있다. Outlink_list는 셀프 페이지에 속하는 아웃링크 키워드 데이터가 검색되는 웹 페이지와 관련된 어드레스/식별 정보를 제공한다.
일 실시예에서, Inlink_list 및 Outlink_list 내에서 식별된 각각의 페이지는 도 2와 관련하여 도시된 연결된 웹 페이지 사이의 도식적으로 도시된 키워드 관계와 관련하여 전술된 바와 같이, 표시를 위한 각각의 Keyword_set를 형성하도록 프로세싱된다.
본 명세서에서 단계 310, 320 및 330에서 사용을 위해 적합한 키워드를 식별하기 위한 실시예가 도 4와 관련하여 이하에 더 상세히 설명된다.
단계 340에서, 가중치가 식별된 키워드에 할당된다. 다양한 가중 기술은 본 발명에 있어서 이용될 수 있다. 일 실시예에서, 각각의 키워드는 동일한 가중치가 할당된다. 다른 실시예에서, 키워드의 가중치는 키워드가 유도되는 웹 페이지의 강도에 응답하여 적용된다. 다른 가중 체계가 이하에 더 상세히 설명될 것이다. 다른 실시예에서, 키워드의 가중치는 웹 페이지(즉, 셀프, 인링크 또는 아웃링크)로의 키워드의 연결에 기초하고, 상이한 링크는 동일한 또는 상이한 가중치와 관련될 수 있다.
단계 350에서, 가중된 키워드의 세트가 셀프 웹 페이지를 위해 형성된다. 즉, 셀프 페이지와 관련될 가중된 키워드의 세트가 셀프 페이지, 인링크 페이지 및 아웃링크 페이지로부터 유도된 가중된 키워드를 사용하여 형성된다.
단계 360에서, 셀프 페이지와 관련된 가중된 키워드의 세트가 요구에 따라 저장되고 그리고/또는 프로세싱된다. 박스 365를 참조하면, 단계 360은 데이터베이스를 업데이트하는 것, 애플리케이션에 데이터를 제공하는 것, 랭크 순서화된 키워드를 형성하는 것 그리고/또는 다른 프로세싱/저장 동작을 포함할 수 있다. 도 5와 관련하여 이하에 설명된 일 실시예에서, 웹 페이지를 위한 랭크 순서화된 키워드가 카운트, 고유 카운트 및 가중된 고유 카운트 발견적 기능을 이용하여 생성된다. 랭크 순서화된 키워드의 서브세트(예를 들어, 상위 M개의 키워드)가 이어서 셀프 웹 페이지에 할당된다. 다른 기능이 또한 다양한 실시예에 있어서 사용될 수 있다.
단계 370에서, 셀프 페이지로서 프로세싱될 다음 페이지가 선택되고, 방법(300)은 새로운 선택된 셀프 페이지에 대해 반복된다.
도 4는 웹 페이지 내의 적합한 키워드를 식별하는 방법의 흐름도를 도시한다. 구체적으로, 도 4의 방법(400)은 도 3의 방법(300)의 단계 310, 320 및 330을 구현하는데 사용을 위해 적합하다. 본 명세서에 설명된 실시예는 특정 순서로 실행되는 다수의 발견적 기능의 이용을 도시하고 있지만, 더 많거나 더 적은 발견적 기능이 이용될 수 있고, 이용된 발견적 기능의 특정 순서는 변경될 수 있고, 식별 방법에 대한 다른 수정이 이루어질 수 있다는 것이 주목되어야 한다.
방법(400)은 단계 410으로 진입되고, 여기서 웹 페이지와 관련된 사전 정의된 키워드가 식별된다. 박스 415를 참조하면, 이들 사전 정의된 키워드는 제목 필드, 방법 키워드 필드, 메타-설명 필드, 프로세싱되는 웹 페이지 내의 다른 필드 또는 태그 내의 정보를 포함할 수 있다. 전술된 바와 같이, 다양한 실시예에 있어서 웹 페이지의 콘텐트부 및 비콘텐트부 중 하나 또는 모두로부터의 텍스트 기반 데이터가 키워드 데이터를 제공하는데 선택적으로 이용된다.
단계 420에서, 잠재적인 키워드 구문이 추출된다. 키워드 구문은 키워드로서 동작하는 것이 가능한 복수의 인접한 단어를 포함한다. 잠재적인 키워드 구문의 성분 키워드가 정의 가능하거나 소정의 방식으로 이해되면, 성분 키워드는 유효한 키워드 구문을 형성한다. 잠재적인 키워드 구문의 성분 키워드가 정의 가능하지 않거나 또는 키워드 구문의 문맥 내에서 다른 방식으로 무용하게 되면, 성분 키워드는 유효한 키워드 구문을 형성하지 않는다. 박스 425를 참조하면, 키워드 구문은 하나 이상의 단어가 콤마, 탭, 세미콜론, 공백, 행간 또는 선에 의해 분리되어 있는 묘사된 구문을 포함할 수 있다.
잠재적인 키워드 구문의 성분 키워드가 묘사구(delineator)(예를 들어, 행간 또는 공백)에 의해 분리되는 일 실시예에서, 각각의 그룹이 N개의 인접한 키워드를 포함하고, 여기서 N은 1 초과의 정수를 포함하는 잠재적인 키워드 구문의 그룹이 설정된다. 하나 초과의 크기 N이 이 단계에서 사용될 수 있다. 따라서, 잠재적인 키워드 구문의 제 1 그룹은 각각의 잠재적인 키워드 구문을 형성하기 위해 각각의 쌍의 인접한 성분 키워드를 조합함으로써 형성될 수 있다(즉, N=2). 유사하게, 잠재적인 키워드 구문의 제 2 그룹은 각각의 잠재적인 키워드 구문을 형성하기 위해 각각의 3조 한 쌍의 인접한 성분 키워드를 조합함으로써 형성될 수 있다(즉, N=3).
잠재적인 키워드 구문이 제 2 묘사구(예를 들어, 콤마)에 의해 분리되는 일 실시예에서, 제 2 묘사구의 임의의 2개의 인스턴스 사이의 잠재적인 키워드는 잠재적인 키워드 구문으로서 함께 정의된다. 이 실시예의 개선예에서, 2개의 묘사구 사이의 성분 키워드는 전술된 바와 같이 각각의 그룹이 길이(N)의 키워드 구문을 포함하는 잠재적인 키워드 구문의 하나 이상의 그룹을 형성하도록 프로세싱된다.
단계 430에서, 단계 420에서 추출된 잠재적인 키워드 구문은 단지 유효한 키워드 및 키워드 구문만을 포함하는 키워드 리스트를 형성하도록 평가된다. 박스 435를 참조하면, 이 평가는 위키피디아(Wikipedia), 사전 또는 문법 보정 공급자, 제 3 자 평가기, 키워드 또는 키워드 구문 데이터베이스 등에 의해 공급되는 바와 같은 참조 기능 또는 웹사이트를 사용하여 수행될 수 있다. 즉, 임의의 스펠링 엔진, 문법 엔진 및 검색 엔진이 잠재적인 고유의 키워드가 유효한 구문을 표현하는지 여부를 판정하는데 사용될 수 있다. 기능을 가능화하는 엔진 또는 소프트웨어는 제 3 자, 독립형 애플리케이션 등으로부터일 수 있다. 단계 430은 특정 키워드 구문이 다양한 실시예에 있어서 키워드로서 사용을 위해 적합한지 여부를 판정하는 것에 관련된다. 무의미한, 에러 있는 및/또는 허용되지 않은 또는 좋아하지 않는 키워드 및 키워드 구문은 일반적으로 웹 페이지 설명의 문맥 내에서 유용하지 않다.
예로서, N=3이고 단계 420에서 추출된 3개의 성분 키워드가 순차적으로 잠재적인 키워드 구문 "뉴욕 타임즈"를 형성하면, 위키피디아에서 용어 "뉴욕 타임즈"의 검색은 키워드 구문 "뉴욕 타임즈"가 유효하다는 것을 지시할 수 있다.
단계 440에서, 임의의 스톱 워드(stop word) 및 잉여 단어(extra word)가 키워드 리스트로부터 제거된다. 스톱 워드는 통상의 접속사, 전치사 등과 같은 키워드로서 특히 유용하지 않은 단어 및/또는 구문이다. 스톱 워드의 리스트는 "a, about, above, across, after, afterwards, again, against, all, almost, alone, along, already, also, although, always, am, among, amongst, amount, amp, an, and, another, any, anyhow, anyone, anything, anyway, anywhere, are, around, as, at, back, be, became, because, become, becomes, becoming, been, before, beforehand, behind, being, below, beside, besides, between, beyond, bill, both, bottom, but, by, call, can, cannot, cant, co, computer, con, could, couldn't, cry, de, describe, detail, do, done, down, due, during, each, e.g., eight, either, eleven, else, elsewhere, empty, enough, etc, even, ever, every, everyone, everything" 등을 포함할 수 있다. 몇몇 스톱 워드는 구문의 문맥 내에서 관련성을 가질 수 있고, 이와 같이 관련 구문의 부분을 형성하면 제거되지 않는다.
단계 450에서, 예를 들어 도 4의 방법(400)의 동작을 호출하는 방법 단계[예를 들어, 도 3의 방법(300)의 단계 310, 320 또는 330]에 웹 페이지와 관련된 식별된 키워드의 리스트가 제공된다.
도 5는 웹 페이지와 관련된 키워드를 랭킹하는 방법의 흐름도를 도시한다. 구체적으로, 도 5의 방법(500)은 도 3의 방법(300)의 단계 360/365를 구현하는데 사용을 위해 적합하다. 방법(500)은 웹 페이지와 관련된 키워드의 리스트 내의 M개의 가장 현저한 키워드의 리스트를 생성하기 위해 카운트, 고유 카운트 및/또는 가중된 고유 카운트 발견적 기능 중 하나 이상을 사용하는 것을 고려한다. 다른 발견적 기능이 또한 다양한 실시예에 있어서 사용될 수 있다. 본 명세서에 설명된 다양한 발견적 기능은 키워드 데이터의 동일한 세트를 프로세싱하는 것으로서 제시되지만, 키워드 데이터의 감소된 또는 다른 방식으로 프로세싱된 세트 상에서 동작하는 다른 기능이 이용될 수 있다는 것이 주목되어야 한다.
이하의 표기법이 사용된다.
n(i,j)는 노드 j와 관련된 문서 내의 키워드(ki)의 발생의 수이다.
u(i,j)는 키워드(ki)가 노드 j와 관련된 문서 내에서 발생하면 1로 설정되고, 아니면 0으로 설정된다.
wj는 셀프 페이지와 노드 j 사이의 링크의 가중치이다.
방법(500)은 키워드의 리스트가 수신될 때[즉, 도 3의 방법(300)의 단계 360에서 제공된 리스트] 단계 510에 진입한다.
선택적 단계 520에서, 카운트 기능이 각각의 키워드에 적용된다. 박스 525를 참조하면, 카운트 기능(C)은 이하의 관계에 의해 정의된다.
C(i,j) = n(i,j)
선택적 단계 530에서, 고유 카운트 기능이 각각의 키워드에 적용된다. 박스 535를 참조하면, 고유 카운트 기능(UC)은 이하의 관계에 의해 정의된다.
UC(i,j) = u(i,j)
선택적 단계 540에서, 가중된 고유 카운트 기능이 각각의 키워드에 적용된다. 박스 545를 참조하면, 가중된 고유 카운트 기능(UC)은 이하의 관계에 의해 얻어진다.
WUC(i,j) = wj*u(i,j)
단계 550에서, 소스가 카운트, 고유 카운트 및/또는 가중된 고유 카운트 발견적 기능을 사용하여 각각의 키워드(ki)에 대해 컴퓨팅된다.
단계 560에서, 상위 M개의 키워드가 프로세싱되는 웹 페이지(즉, 셀프 웹 페이지)와 관련된 키워드 세트의 멤버로서 선택된다. 즉, 키워드 세트는 이어서 키워드의 스코어에 기초하여 분류되고, 상위 M개의 키워드는 셀프 노드에 대해 대표적인 Keyword_set로서 선택된다.
단계 570에서, 키워드의 랭킹은 상위 M개의 키워드(ki) 내의 합, 최대값, 투표수 및/또는 다른 복합 스코어 기능의 하나 이상을 사용하여 더 수정된다(박스 575 참조). 일반적으로 말하면, 이들 및/또는 다른 복합 스코어 기능 또는 발견적 기능이 초기 키워드 세트 또는 하나 이상의 발견적 기능을 사용하여 프로세싱되고 있는 키워드 세트에 적용될 수 있다. 합, 최대값 및 투표수 복합 스코어 기능은 이하와 같이 발견적 기능 랭킹 프로세스에 의해 제공된 랭킹된 키워드 세트에 부가적인 랭킹 조정을 제공한다.
합(i) = 랭크(스코어(i,C)) + 랭크(스코어(i,UC)),
최대값(i) = 최대값(랭크(스코어(i,C)), 랭크(스코어(i,UC))), 및
투표수(i) = 스코어(i,C) 및 스코어(i,UC)의 과반수.
일 실시예에서, 전술된 복합 스코어 기능은 이하와 같이 기능 "스코어(i,h)"에 대한 식을 이용한다.
Figure 112012007402088-pct00001
여기서, i는 고려 하의 키워드를 표현하고, h는 발견적 기능이고, α는 셀프 노드에 할당된 가중치이고(이는 전술된 바와 같이 w0와 동일하거나 상이할 수 있음), β는 인링크 관련 키워드에 할당된 가중치이고, χ는 아웃링크 관련 키워드에 할당된 가중치이고, h(i,j)는 노드 j와 관련된 문서 내의 키워드 i에 대한 발견적 기능 결과이다.
식은 모든 셀프 노드 관련 키워드가 제 1 가중치(α)가 할당되고, 모든 인링크 관련 키워드가 제 2 가중치(β)가 할당되고, 모든 아웃링크 관련 키워드가 제 3 가중치(χ)가 할당되는 것을 고려한다는 것이 주목된다. 그러나, 식은 셀프, 인링크 및/또는 아웃링크 키워드 세트 내의 상이한 키워드가 상이한 할당된 가중치를 가질 수 있는 것을 제공하도록 수정될 수 있다.
일 실시예에서, 키워드의 그 각각의 세트의 문맥 내의 키워드의 상대 중요성 또는 상대값은 발견적 기능의 하나 이상을 사용하여 결정된다. 따라서, 더 큰 카운트(C), 고유 카운트(UC) 및/또는 가중된 고유 카운트(WUC)를 나타내는 키워드는 대응적으로 다른 키워드보다 더 중요한 값을 갖는 것으로 간주될 수 있다.
일 실시예에서, 키워드에 할당된 가중치는 키워드의 셀프, 인링크 및 아웃링크 세트의 각각 내의 그 키워드와 관련된 발견법의 합을 포함한다. 예를 들어, 단어 "자동차"가 셀프 페이지에서 5회, 인링크 페이지에서 10회, 아웃링크 페이지에서 1회 발생하면, "자동차"는 16의 가중치가 할당된다(즉, 5+10+1).
도 6은 본 명세서에 설명된 기능을 수행하는데 사용을 위해 적합한 범용 컴퓨터의 고레벨 블록 다이어그램을 도시한다. 도 6에 도시된 바와 같이, 시스템(600)은 프로세서 요소(602)[예를 들어, 중앙 프로세싱 유닛(CPU)], 예를 들어 임의 접근 메모리(RAM) 및/또는 판독 전용 메모리(ROM)와 같은 메모리(604), 서술자 관리 모듈(605), 및 다양한 입력/출력 디바이스(606)[예를 들어, 이들에 한정되는 것은 아니지만, 테이프 드라이브, 플로피 드라이브, 하드 디스크 드라이브 또는 콤팩트 디스크 드라이브, 수신기, 송신기, 스피커, 디스플레이, 출력 포트, 및 사용자 입력 디바이스(키보드, 키패드, 마우스 등과 같은)]를 포함한다.
본 발명은 예를 들어 응용 특정 집적 회로(ASIC), 범용 컴퓨터 또는 임의의 다른 하드웨어 등가물을 사용하여 소프트웨어에서 및/또는 소프트웨어와 하드웨어의 조합에서 구현될 수 있다는 것이 주목되어야 한다. 일 실시예에서, 본 발명의 서술자 관리 프로세스(605)는 메모리(604) 내에 로딩되고 프로세서(602)에 의해 실행되어 전술된 바와 같은 기능을 구현할 수 있다. 이와 같이, 본 발명의 서술자 관리 프로세스(605)(관련 데이터 구조를 포함함)는 예를 들어, RAM 메모리, 자기 또는 광학 드라이브 또는 디스켓 등과 같은 컴퓨터 판독 가능 매체 또는 캐리어 상에 저장될 수 있다.
소프트웨어 방법으로서 본 명세서에 설명된 단계의 몇몇은 예를 들어 다양한 방법 단계를 수행하기 위해 프로세서와 협동하는 회로로서 하드웨어 내에서 구현될 수 있다. 본 발명의 부분은 컴퓨터 프로그램 제품으로서 구현될 수 있고, 여기서 컴퓨터 명령은 컴퓨터에 의해 프로세싱될 때 컴퓨터의 동작을 적응시켜 본 발명의 방법 및/또는 기술이 호출되거나 다른 방식으로 제공되게 된다. 본 발명의 방법을 호출하기 위한 명령은 고정된 또는 제거 가능한 매체 내에 저장되고, 브로드캐스트 또는 다른 신호 보유 매체 내에서 데이터 스트림을 경유하여 전송되고, 그리고/또는 명령에 따라 동작하는 컴퓨팅 디바이스 내의 작동 메모리 내에 저장될 수 있다. 따라서, 일 실시예는 소프트웨어 명령을 저장하기 위한 메모리 및 소프트웨어 명령을 실행하기 위한 프로세서를 포함하는 장치를 포함하고, 여기서 소프트웨어 명령은 프로세스에 의해 실행될 때 장치가 본 명세서에 설명된 다양한 실시예에 따른 웹 페이지에 키워드를 할당하기 위한 방법을 수행할 수 있게 한다.
본 명세서에 설명된 바와 같이, 웹 페이지로의 키워드 할당은 매우 중요한 문제이고, 사용자 프로파일 생성, 웹 사이트 분류 및 필터링[예를 들어, 웹센스(WebSense)], 검색 엔진(예를 들어, 구글), 키워드 연구[예를 들어, 애드센스(AdSense)] 등의 환경 내에서 적용 가능성을 발견한다. 상기 실시예는 웹 페이지에 대표적인 키워드의 세트를 할당하기 위해 다수의 웹 페이지와 관련된 데이터, 메타 데이터 등을 사용하는 키워드 할당을 위한 신규한 방법, 시스템 및 장치를 제공한다. 유리하게는, 다양한 실시예는 단지 페이지의 메타 데이터가 분석되고 콘텐트가 무시될 때 비교적 경량(연산적으로 효율적이고 메모리 효율적인) 방법을 제공한다. 기술은 키워드가 셀프 페이지로부터 뿐만 아니라 그 "이웃" 페이지로부터 학습되는 점에서 강인하다.
연산적으로 효율적인 실시예의 예
예로서, 켈리 블루 북(Kelly Blue Book)TM 자동차 평가 웹사이트 페이지(www.kbb.com)는 표 1에 표 형태로 이하에 제공된 키워드 할당 데이터를 생성하기 위해 본 발명의 일 실시예에 따라 평가된다. 구체적으로, 도 3 내지 도 5의 실시예에 따라 프로세싱된 상위 10개(즉, M=10) 키워드가 표 1에 대해 이하에 제공된다. 다양한 프로세스에 의해 사용된 원시 데이터가 또한 이하에 제공된다. 예에서 사용된 파라미터는 이하와 같다.
URL: www.kbb.com
가중치: 셀프 = 10, 아웃링크 = 2, 인링크 = 1
인링크 소스: 야후[이는 구글, 빙(Bing), 서비스 공급자의 크롤러 및/또는 다른 검색 엔진 또는 크롤러일 수 있음].
상위 10개의 키워드(예에서 239개로부터)에 대한 랭크 순서화된 결과가 표 1에 대해 이하에 제공된다.
Figure 112012007402088-pct00002
셀프, 아웃링크 및 인링크 페이지로부터 추출된 키워드 리스트는 이하와 같이 제공된다(리스트는 간단화를 위해 단기 3개의 아웃링크 및 3개의 인링크에 한정됨).
셀프 (http://www.kbb.com)
· 신차, 중고차, 블루 북 가격 및 차값 - 켈리 블루 북
○ URL: http://www.kbb.com
○ 제목: ['신', '차', '신차', '중고차', '블루', '블루 북', '북', '가격', '블루 북 가격', '자동차', '값', '차값', '켈리', '블루', '블루 북', '북', '켈리 블루 북']
○ 메타-키워드: ['차', '차', '신', '차', '신차', '중고차', '차량', '차량', '자동', '자동차', '자동차', '블루', '블루 북', '북', '북 값', '값', '블루 북 값', '켈리', '블루', '블루 북', '북', '켈리 블룩 북', '켈리', '블루', '블루 북', '북', '켈리 블루 북', 'kbb']
○ 메타-설명: ['켈리', '블루', '블루 북', '북', '신용', '자원', '가격', '값', '리뷰', '신', '차', '중고', '차', '구매', '판매', '차', '방문', 'kbb.com 방문']
아웃링크 :
1. 켈리 블루 북
○ URL: http://www.kbb.com/kbb/search/searchresult.aspx
○ 제목: ['켈리', '블루', '블루 북', '북']
○ 메타-키워드: []
○ 메타-설명: []
2. 신차 - 신차 가격 및 리뷰 - 켈리 블루 북
○ URL: http://www.kbb.com./kbb/NesCars
○ 페이지 전환: http://www.kbb.com/kbb/NewCars/
○ 제목: ['신', '차', '신차', '신', '차', '가격', '신차 가격', '리뷰', '켈리', '블루', '블루 북', '북', '켈리 블루 북']
○ 메타-키워드: ['신', '차', '신차', '신', '차', '가격', '신차 가격', '차', '가격', '차 가격', '신', '차', '시세', '신차 시세', '신', '차', '가격', '신차 가격', '차', '가격', '차 가격', '차량', '가격', '차량 가격', '켈리', '블루', '블루 북', '북', '켈리 블루 북', '켈리', '블루', '블루 북', '북', '켈리 블루 북', 'kbb']
○ 메타-설명: ['켈리', '블루', '블루 북', '북', '신용', '자원', '신', '가격', '조사', '비교', '신', '차', '시세', '독해', '리뷰', '리뷰 독해', '평점' '브라우즈', '비디오', '로컬', '딜러']
3. 중고차 - 중고차 가격, 중고차 값 리뷰
○ URL: http://www.kbb.com/kbb/UsedCars
○ 페이지 전환: http://www.kbb.com/kbb/UsedCars/
○ 제목: ['중고차', '중고', '중고차', '차', '가격', '중고차 가격', '중고', '중고차', '차', '값', '중고차 값', '리뷰', '켈리', '블루', '블루 북', '북', '켈리 블루 북']
○ 메타-키워드: ['중고차', '중고차들', '중고', '차량', '중고 차량', '중고', '차량들', '중고 차량들', '중고', '중고차', '차', '가격', '중고차 가격', '블루', '블루 북', '북', '북 값', '값', '블루 북 값', '중고', '중고차', '차', '시세', '중고차 시세', '중고', '중고차', '차', '값', '중고차 값', '중고', '중고차', '차', '값', '중고차 값', '차', '가치', '차', '켈리', '블루', '블루 북', '북', '켈리 블룩 북', '켈리', '블루', '블루 북', '북', '켈리 블루 북', '켈리', '블루', '블루 북', '북', '켈리 블루 북']
○ 메타-설명: ['켈리', '블루', '블루 북', '북', '신용', '자원', '중고', '중고차', '차', '가격', '값', '조사', '최신', '블루', '블루 북', '북', '중고', '중고차', '차', '값', '독해', '리뷰']
인링크
1. 참조, 사실, 뉴스 - 자유 및 가족 친화적 자원 - Refdesk . com
○ URL: http://www.refdesk.com/
○ 제목: ['참조', '사실', '뉴스', '자유', '가족 친화적', '자원']
○ 메타-키워드: ['참조', '사실', '뉴스', '자유', '가족', '친화적', '가족 친화적', 'refdesk']
○ 메타-설명: ['refdesk', '자유', '가족', '친화적', '웹', '웹 사이트', '사이트', '인덱스', '리뷰', '품질', '신용적인', '현재', '웹 기반', '참조', '자원']
2. CEOExpress : 바쁜 간부에 의해 생성된 간부를 위한 비즈니스 포탈
○ URL: http://www.ceoexpress.com/
○ 페이지 전환: http://www.ceoexpress.com/default.asp
○ 제목: ['ceoexpress', '비즈니스', '포탈', '간부', '생성', '바쁜', '간부']
○ 메타-키워드: ['비즈니스', '링크', '비즈니스 링크', 'ceo', '대표 이사', '상사', '간부', '상사 간부', 'ceo', '링크', 'ceo 링크', '비즈니스', '포탈', '비즈니스 포탈', '비즈니스', '디렉토리', '비즈니스 디렉토리', '소', '비즈니스', '디렉토리', '소비즈니스 디렉토리', 'ceo', '홈페이지', 'ceo 홈페이지', 'cfo', '포탈', 'cfo 포탈', 'cfo', '링크', 'cfo 링크', 'cio', '포탈', 'cio 포탈', 'cio', '링크', 'cio 링크', '국제', '비즈니스', '포탈', '국제 비즈니스 포탈', 'c-레벨']
○ 메타-설명: ['ceoexpress', '비즈니스', '포탈', '간부', '생성', 'ceo']
3. 자동차 보증: 연장 보증 질문 답변 온라인
○ URL: http://www.warrantyheadquarters.com/
○ 제목: ['자동차', '보증', '자동차 보증', '연장', '보증', '질문 답변', '온라인']
○ 메타-키워드: ['자동차', '보증', '자동차 보증', '자동차', '보증', '조사', '자동차 보증 조사', '연장', '보증', '연장 보증', '차량', '유지 보수', '차량 유지 보수', '적용 범위', '계획', '적용 범위 계획', '적용 범위', '차']
○ 메타-설명: ['자동차', '보증', '자동차 보증', '수신', '연장', '자동차', '보증', '질문 답변', '순간적으로', '갖다', '제공하다', '개인', '정보', '할인', '시세', '큰', '서비스']
상기 설명은 본 발명의 다양한 실시예에 관련되지만, 본 발명의 다른 및 추가의 실시예가 그 기본 범주로부터 벗어나지 않고 고안될 수 있다. 이와 같이, 본 발명의 적절한 범주는 이어지는 청구범위에 따라 결정된다.
110: 범용 컴퓨터 111: 프로세서
112: 메모리 113: 애플리케이션
114: 웹 페이지 117: 입력-출력 인터페이스
120: 네트워크 130: 서비스 공급자 노드
131: 프로세서 132: 메모리
133: 애플리케이션 137: 입력-출력 인터페이스
139: 키워드 저장 데이터베이스 140: 데이터베이스
210: 셀프 웹 페이지 220: 인링크 웹 페이지
230: 아웃링크 웹 페이지 602: 프로세서
604: 메모리 606: I/O 디바이스

Claims (10)

  1. 웹 페이지에 키워드를 할당하기 위한 방법에 있어서,
    웹 페이지와 관련된 셀프 키워드(self keywords), 인링크 키워드(in-link keywords), 아웃링크 키워드(out-link keywords)를 식별하는 단계 - 상기 셀프 키워드, 상기 인링크 키워드 및 상기 아웃링크 키워드는 고유 키워드를 포함함 - 와,
    제 1 서술자에 의해 분리된 상기 셀프, 인링크 및 아웃링크 키워드의 리스트 내의 하나 이상의 단어의 임의의 발생을 잠재적인 고유 키워드로서 식별하는 단계와,
    유효 구문을 나타내는 이들 잠재적인 고유 키워드를 상기 웹 페이지에 대한 키워드 세트 내에 포함하는 단계 - 스펠링 엔진, 문법 엔진 및 검색 엔진 중 임의의 엔진이 잠재적인 고유 키워드가 유효 구문을 나타내지 여부를 판정하는 데에 사용됨 - 와,
    상기 웹 페이지에 대한 키워드의 세트를 형성하도록 상기 셀프, 인링크 및 아웃링크 고유 키워드를 조합하는 단계를 포함하는
    웹 페이지에 키워드를 할당하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 셀프, 인링크 및 아웃링크 키워드의 세트를 프로세싱하여 셀프, 인링크 및 아웃링크 키워드의 각각의 랭크 순서화된 세트를 제공하는 단계를 더 포함하는
    웹 페이지에 키워드를 할당하기 위한 방법.
  3. 제 2 항에 있어서,
    하나 이상의 발견적(heuristic) 기능을 사용하여, 상기 셀프, 인링크 및 아웃링크 키워드 세트 내의 각각의 키워드의 상대적 중요성을 결정하는 단계를 더 포함하는
    웹 페이지에 키워드를 할당하기 위한 방법.
  4. 제 2 항에 있어서,
    상기 셀프, 인링크 및 아웃링크 키워드에 가중치를 할당하는 단계를 더 포함하고,
    상기 조합하는 단계는, 키워드 가중치에 따라 셀프, 인링크 및 아웃링크 키워드를 조합하는 단계를 포함하는
    웹 페이지에 키워드를 할당하기 위한 방법.
  5. 제 1 항에 있어서,
    상기 식별된 키워드 데이터는 제목 필드, 메타-키워드 필드 및 메타-설명 필드 중 하나 이상으로부터의 데이터를 포함하는
    웹 페이지에 키워드를 할당하기 위한 방법.
  6. 제 1 항에 있어서,
    상기 셀프, 인링크 및 아웃링크 키워드 리스트 내의 N개의 인접한 공간 분리된 단어의 임의의 발생을 잠재적인 고유 키워드로서 식별하는 단계 - 여기서, N은 1 초과의 정수임 - 와,
    유효 구문을 나타내는 이들 잠재적인 고유 키워드를 상기 웹 페이지에 대한 키워드 세트 내에 포함하는 단계를 더 포함하는
    웹 페이지에 키워드를 할당하기 위한 방법.
  7. 제 3 항에 있어서,
    상기 인링크 및 아웃링크 키워드의 각각은 자신들 각각의 소스 웹 페이지의 랭킹에 따라 가중치가 할당되고, 상기 소스 웹 페이지 랭킹은 검색 엔진을 사용하여 결정되는
    웹 페이지에 키워드를 할당하기 위한 방법.
  8. 제 1 항에 있어서,
    상기 인링크 키워드 웹 페이지는 웹 크롤러(web crawler) 및 검색 엔진 중 하나 이상을 사용하여 식별되는
    웹 페이지에 키워드를 할당하기 위한 방법.
  9. 소프트웨어 명령을 저장하기 위한 메모리 및 상기 소프트웨어 명령을 실행하기 위한 프로세서를 포함하는 장치에 있어서,
    상기 소프트웨어 명령은 상기 프로세서에 의해 실행될 때 상기 장치로 하여금 웹 페이지에 키워드를 할당하기 위한 방법을 수행하게 하고,
    상기 방법은,
    상기 웹 페이지와 관련된 셀프 키워드, 인링크 키워드, 아웃링크 키워드를 식별하는 단계 - 상기 셀프 키워드, 상기 인링크 키워드 및 상기 아웃링크 키워드는 고유 키워드를 포함함 - 와,
    제 1 서술자에 의해 분리된 상기 셀프, 인링크 및 아웃링크 키워드의 리스트 내의 하나 이상의 단어의 임의의 발생을 잠재적인 고유 키워드로서 식별하는 단계와,
    유효 구문을 나타내는 이들 잠재적인 고유 키워드를 상기 웹 페이지에 대한 키워드 세트 내에 포함하는 단계 - 스펠링 엔진, 문법 엔진 및 검색 엔진 중 임의의 엔진이 잠재적인 고유 키워드가 유효 구문을 나타내는지 여부를 판정하는 데 사용됨 - 와,
    상기 웹 페이지에 대한 키워드의 세트를 형성하도록 상기 셀프, 인링크 및 아웃링크 고유 키워드를 조합하는 단계를 포함하는
    장치.
  10. 삭제
KR1020127002532A 2009-07-30 2010-07-20 웹 페이지에 키워드를 할당하기 위한 방법 및 장치 KR101315554B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/512,702 2009-07-30
US12/512,702 US8959091B2 (en) 2009-07-30 2009-07-30 Keyword assignment to a web page
PCT/US2010/042496 WO2011014381A1 (en) 2009-07-30 2010-07-20 Keyword assignment to a web page

Publications (2)

Publication Number Publication Date
KR20120087881A KR20120087881A (ko) 2012-08-07
KR101315554B1 true KR101315554B1 (ko) 2013-10-10

Family

ID=42556473

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127002532A KR101315554B1 (ko) 2009-07-30 2010-07-20 웹 페이지에 키워드를 할당하기 위한 방법 및 장치

Country Status (6)

Country Link
US (1) US8959091B2 (ko)
EP (1) EP2460095A1 (ko)
JP (1) JP5438218B2 (ko)
KR (1) KR101315554B1 (ko)
CN (1) CN102473190B (ko)
WO (1) WO2011014381A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066359A1 (en) * 2010-09-09 2012-03-15 Freeman Erik S Method and system for evaluating link-hosting webpages
JP5786458B2 (ja) * 2011-05-30 2015-09-30 富士通株式会社 キーワード抽出及びウエブコンテンツアクセス情報の収集装置
US8793252B2 (en) * 2011-09-23 2014-07-29 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation using dynamically-derived topics
US9613135B2 (en) 2011-09-23 2017-04-04 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation of information objects
KR20130065802A (ko) * 2011-11-30 2013-06-20 삼성전자주식회사 키워드를 이용한 애플리케이션 추천 시스템 및 방법
US20130238470A1 (en) * 2012-03-07 2013-09-12 Z:Wordz, LLC Substituting a user-defined word set in place of a formatted network resource address
US9159067B1 (en) * 2012-06-22 2015-10-13 Google Inc. Providing content
US10499878B2 (en) * 2012-07-26 2019-12-10 Interson Corporation Portable ultrasonic imaging probe including a transducer array
CN103870446B (zh) * 2012-12-18 2016-12-28 阿里巴巴集团控股有限公司 一种描述词筛选方法及装置
US9621662B1 (en) * 2013-03-04 2017-04-11 Yelp Inc. Surfacing relevant reviews
US9734174B1 (en) 2013-06-28 2017-08-15 Google Inc. Interactive management of distributed objects
RU2530671C1 (ru) * 2013-07-24 2014-10-10 Общество С Ограниченной Ответственностью "Балакам" Способ проверки веб-страниц на содержание в них целевого аудио и/или видео (av) контента реального времени
US11257115B2 (en) 2014-09-02 2022-02-22 Gil Emanuel Fuchs Providing additional digital content or advertising based on analysis of specific interest in the digital content being viewed
EP3250037A4 (en) * 2015-01-16 2018-06-20 The Board of Regents of The University of Texas System Compositions and methods for creating pancreatic cancer animal model
CN104965918B (zh) * 2015-07-06 2018-09-25 无锡天脉聚源传媒科技有限公司 一种基于查询关键词的搜索方法和装置
US10261971B2 (en) 2016-05-25 2019-04-16 Microsoft Technology Licensing, Llc Partitioning links to JSERPs amongst keywords in a manner that maximizes combined improvement in respective ranks of JSERPs represented by respective keywords
US10430427B2 (en) * 2016-05-25 2019-10-01 Microsoft Technology Licensing, Llc Partitioning links to JSERPs amongst keywords in a manner that maximizes combined weighted gain in a metric associated with events of certain type observed in the on-line social network system with respect to JSERPs represented by keywords
CN107545020A (zh) * 2017-05-10 2018-01-05 新华三信息安全技术有限公司 一种网页分类的确定方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684205B1 (en) * 2000-10-18 2004-01-27 International Business Machines Corporation Clustering hypertext with applications to web searching
US20060026494A1 (en) * 2004-07-30 2006-02-02 Hellosoft Inc. Modified soft output viterbi algorithm for truncated trellis

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878386A (en) 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
WO1999014690A1 (fr) * 1997-09-17 1999-03-25 Hitachi, Ltd. Procede d'addition d'un mot cle au moyen d'informations de liaison
US6728752B1 (en) * 1999-01-26 2004-04-27 Xerox Corporation System and method for information browsing using multi-modal features
US6651059B1 (en) * 1999-11-15 2003-11-18 International Business Machines Corporation System and method for the automatic recognition of relevant terms by mining link annotations
US6862586B1 (en) * 2000-02-11 2005-03-01 International Business Machines Corporation Searching databases that identifying group documents forming high-dimensional torus geometric k-means clustering, ranking, summarizing based on vector triplets
US6895406B2 (en) * 2000-08-25 2005-05-17 Seaseer R&D, Llc Dynamic personalization method of creating personalized user profiles for searching a database of information
JP2002245089A (ja) * 2001-02-19 2002-08-30 Hitachi Eng Co Ltd ウェブページ検索システム、二次情報収集装置、インターフェース装置
US20030221163A1 (en) 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
CA2387451A1 (en) * 2002-05-24 2003-11-24 Petr Hejl Virtual friend with special features
JP4423841B2 (ja) 2002-08-14 2010-03-03 日本電気株式会社 キーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
CN1519752A (zh) 2003-01-20 2004-08-11 黄致辉 一种自然语言语法分析器及其方法
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7516397B2 (en) * 2004-07-28 2009-04-07 International Business Machines Corporation Methods, apparatus and computer programs for characterizing web resources
US8078602B2 (en) * 2004-12-17 2011-12-13 Claria Innovations, Llc Search engine for a computer network
US7810035B2 (en) * 2004-10-15 2010-10-05 Microsoft Corporation Browsing web content using predictive navigation links
JP4940606B2 (ja) 2005-09-22 2012-05-30 富士ゼロックス株式会社 翻訳システム、翻訳装置、翻訳方法及びプログラム
US7814098B2 (en) * 2006-06-14 2010-10-12 Yakov Kamen Method and apparatus for keyword mass generation
US7664740B2 (en) * 2006-06-26 2010-02-16 Microsoft Corporation Automatically displaying keywords and other supplemental information
CN100520778C (zh) * 2006-07-25 2009-07-29 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫***和搜索引擎
US8661035B2 (en) * 2006-12-29 2014-02-25 International Business Machines Corporation Content management system and method
US8166045B1 (en) * 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8166021B1 (en) * 2007-03-30 2012-04-24 Google Inc. Query phrasification
WO2010042983A1 (en) * 2008-10-14 2010-04-22 Remarqueble Pty Ltd Search, analysis and categorization
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684205B1 (en) * 2000-10-18 2004-01-27 International Business Machines Corporation Clustering hypertext with applications to web searching
US20060026494A1 (en) * 2004-07-30 2006-02-02 Hellosoft Inc. Modified soft output viterbi algorithm for truncated trellis

Also Published As

Publication number Publication date
US20110029511A1 (en) 2011-02-03
EP2460095A1 (en) 2012-06-06
JP2013500541A (ja) 2013-01-07
KR20120087881A (ko) 2012-08-07
US8959091B2 (en) 2015-02-17
WO2011014381A1 (en) 2011-02-03
CN102473190A (zh) 2012-05-23
JP5438218B2 (ja) 2014-03-12
CN102473190B (zh) 2014-06-04

Similar Documents

Publication Publication Date Title
KR101315554B1 (ko) 웹 페이지에 키워드를 할당하기 위한 방법 및 장치
US8005823B1 (en) Community search optimization
Aleman-Meza et al. Context-aware semantic association ranking
US8005832B2 (en) Search document generation and use to provide recommendations
US10269024B2 (en) Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content
US8694514B2 (en) Collaborative filtering engine
US20070143300A1 (en) System and method for monitoring evolution over time of temporal content
US8645369B2 (en) Classifying documents using implicit feedback and query patterns
US20080282186A1 (en) Keyword generation system and method for online activity
US20060095430A1 (en) Web page ranking with hierarchical considerations
US20110173216A1 (en) Dynamic aggregation and display of contextually relevant content
EP1557770A1 (en) Building and using subwebs for focused search
CN102037464A (zh) 具有最多点击的下一个对象的搜索结果
US20110208715A1 (en) Automatically mining intents of a group of queries
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
Gupta et al. A review on search engine optimization: Basics
US7769749B2 (en) Web page categorization using graph-based term selection
Jafari et al. Applying web usage mining techniques to design effective web recommendation systems: A case study
US8266140B2 (en) Tagging system using internet search engine
Moumtzidou et al. Discovery of environmental nodes in the web
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
CN105138704A (zh) 一种搜索结果控制方法及电子设备
Nemoto et al. Mechanisms to Discover the Real News on the Internet
Yue et al. Improving navigation page detection by using DOM-based block text identification
Athinarayanan et al. Using Pattern Analysis and Machine Learning to Categorise users of Online Directories based on their Surfing Habits

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160923

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170922

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee