KR102488914B1 - 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램 - Google Patents

콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램 Download PDF

Info

Publication number
KR102488914B1
KR102488914B1 KR1020200037938A KR20200037938A KR102488914B1 KR 102488914 B1 KR102488914 B1 KR 102488914B1 KR 1020200037938 A KR1020200037938 A KR 1020200037938A KR 20200037938 A KR20200037938 A KR 20200037938A KR 102488914 B1 KR102488914 B1 KR 102488914B1
Authority
KR
South Korea
Prior art keywords
keywords
content
keyword
representative
extracted
Prior art date
Application number
KR1020200037938A
Other languages
English (en)
Other versions
KR20210121387A (ko
Inventor
김근희
한미란
Original Assignee
주식회사 메디치소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 메디치소프트 filed Critical 주식회사 메디치소프트
Priority to KR1020200037938A priority Critical patent/KR102488914B1/ko
Publication of KR20210121387A publication Critical patent/KR20210121387A/ko
Priority to KR1020230003962A priority patent/KR20230013140A/ko
Application granted granted Critical
Publication of KR102488914B1 publication Critical patent/KR102488914B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법에 관한 것으로, 키워드 추출 규칙을 이용하여 콘텐츠에 관련된 키워드들을 자동으로 추출하여 대표 키워드로 설정하고, 사용자로부터 입력된 키워드를 대표 키워드로 가진 콘텐츠를 검색하고, 검색된 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하여 사용자가 또 다시 표출된 대표 키워드 중 하나를 선택하여 콘텐츠를 검색할 수 있도록 하는 효과가 있다.

Description

콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램 {Method, Device and Program for extract keywords from contents and recommend contents using extracted kewords}
본 발명은 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법에 관한 것이다.
최근 들어, 콘텐츠의 양이 점점 더 방대해지면서 콘텐츠를 이용하는 사용자들은 본인이 찾는 콘텐츠를 찾는데 어려움을 겪고 있다.
콘텐츠의 종류와 양이 급격하게 증가하기 전에는 사람이 직접 콘텐츠를 감상하고 키워드를 입력하였지만, 콘텐츠의 종류와 양이 늘어나는 속도가 너무 빨라짐에 따라 이러한 작업이 불가능해지고 있다.
따라서, 콘텐츠가 입력되면 이를 분석하여 해당 콘텐츠를 표현하는 키워드들을 자동으로 설정하고, 이를 이용하여 사용자가 키워드 기반으로 콘텐츠를 검색할 수 있도록 하는 방법이 필요한 상황이지만, 이를 구현하고 있는 기술이 공개되어 있지 않은 실정이다.
대한민국 공개특허공보 제10-2019-0055963호, (2019.05.24)
상술한 바와 같은 문제점을 해결하기 위한 본 발명은 키워드 추출 규칙을 이용하여 콘텐츠에 관련된 키워드들을 추출하고자 한다.
또한, 본 발명은 키워드 필터링 규칙을 이용하여 추출된 키워드들에서 검색 기능에 불필요한 키워드를 자동으로 제외하여 전처리 하고자 한다.
또한, 본 발명은 전처리된 키워드들을 키워드 분류 규칙을 이용하여 분류하여 작업자가 세분화 작업을 효율적으로 진행할 수 있도록 한다.
또한, 본 발명은 작업자로부터 키워드에 대한 세분화 수행 데이터가 수신되면, 소정 개수의 키워드를 해당 콘텐츠의 대표 키워드로 설정하고자 한다.
또한, 본 발명은 사용자로부터 입력된 키워드를 대표 키워드로 가진 콘텐츠를 검색하고, 검색된 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하여 사용자가 또 다시 대표 키워드를 선택할 수 있도록 한다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 콘텐츠의 키워드 추출 방법은, 컴퓨터에 의해 수행되는 방법으로, 입력된 콘텐츠를 키워드 추출 규칙에 따라서 분석하여, 상기 콘텐츠에 관련된 복수 개의 키워드를 추출하는, 키워드 추출 단계; 상기 추출된 복수 개의 키워드를 키워드 필터링 규칙에 따라서 분석하여, 상기 콘텐츠 검색 기능에 불필요한 키워드를 제외하는, 키워드 전처리 단계; 상기 전처리된 복수 개의 키워드를 키워드 분류 규칙에 따라 분석하여, 상기 복수 개의 키워드를 분류하는, 키워드 분류 단계; 및 작업자에 의해 상기 분류된 키워드에 대한 세분화 수행 데이터가 수신되면, 상기 수행 데이터에 포함된 소정 개수의 키워드를 상기 콘텐츠의 대표 키워드로 설정하는 단계를 포함한다.
또한, 상기 키워드 추출 규칙은, 콘텐츠의 소개자료, 제목 및 분야를 기반으로 키워드 추출 기준을 확립하고 이를 기준으로 하여 해당 콘텐츠의 스크립트 및 음성 데이터 중 적어도 하나에서 관련 키워드를 추출하는 것을 특징으로 한다.
또한, 상기 키워드 추출 규칙은, 콘텐츠가 강의 자료인 경우, 콘텐츠의 강의 소개자료, 제목, 강의 분야 중 적어도 하나를 기반으로 키워드 추출 기준을 확립하고 이를 기준으로 해당 콘텐츠의 강사 이름, 강의 과정, 스크립트 및 음성 데이터 중 적어도 하나에서 관련 키워드를 추출하는 것을 특징으로 한다.
또한, 상기 키워드 필터링 규칙은, 키워드로서 특이점을 갖지 못하는 일반적인 문구와 일반적인 표현에 해당하는 키워드를 제외시키고, 키워드에 포함된 조사를 삭제하는 것을 특징으로 한다.
또한, 상기 키워드 분류 규칙은, 복수 개의 키워드 중에서 이음동의어 또는 유사어에 해당하거나 일정 수준 이상의 유사도를 갖는 키워드끼리 유사 키워드로 분류하고, 각 키워드의 유사 키워드 개수와 키워드 추출 기준과의 매칭도를 기반으로 분류된 각 키워드에 가중치를 부여하는 것을 특징으로 한다.
또한, 키워드에 대한 세분화 수행 데이터는, 작업자에 의해 상기 분류된 키워드에서 불필요한 키워드가 제외되고, 우선순위 순서로 정렬된 워드 클라우드 데이터인 것을 특징으로 한다.
또한, 상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 키워드를 이용한 콘텐츠 추천 방법은, 사용자로부터 입력 받은 키워드를 대표 키워드로 가진 콘텐츠를 검색하는 단계; 상기 검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하는 단계; 사용자로부터 상기 표출된 대표 키워드 중 하나가 선택되면, 상기 검색된 콘텐츠 중에서 상기 선택된 대표 키워드를 대표 키워드로 가진 콘텐츠를 재검색하는 단계; 및 상기 재검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하는 단계를 포함한다.
또한, 상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 콘텐츠의 키워드 추출 장치는 입력된 콘텐츠를 키워드 추출 규칙에 따라 분석하여, 상기 콘텐츠에 관련된 복수 개의 키워드를 추출하는 추출 모듈; 상기 추출된 복수 개의 키워드를 키워드 필터링 규칙에 따라서 분석하여, 상기 콘텐츠의 검색 기능에 불필요한 키워드를 제외하는 전처리 모듈; 상기 전처리된 복수 개의 키워드를 키워드 분류 규칙에 따라 분석하여, 상기 복수 개의 키워드를 분류하는 분류 모듈; 및 작업자에 의해 상기 분류된 키워드에 대한 세분화 수행 데이터가 수신되면, 상기 수행 데이터에 포함된 소정 개수의 키워드를 상기 콘텐츠의 대표 키워드로 설정하는 설정 모듈을 포함한다.
또한, 상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 키워드를 이용한 콘텐츠 추천 장치는, 사용자로부터 입력 받은 키워드를 대표 키워드로 가진 콘텐츠를 검색하고, 상기 검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하고, 사용자로부터 상기 표출된 대표 키워드 중 하나가 선택되면, 상기 검색된 콘텐츠 중에서 상기 선택된 대표 키워드를 대표 키워드로 가진 콘텐츠를 재검색하고, 상기 재검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하는 것을 특징으로 한다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.
상기와 같은 본 발명에 따르면, 키워드 추출 규칙을 이용하여 콘텐츠에 관련된 키워드들을 자동으로 추출해주는 효과가 있다.
또한, 본 발명은 추출된 키워드들을 키워드 필터링 규칙을 이용하여 필터링하고, 키워드 분류 규칙을 이용하여 분류해줌으로써, 작업자가 키워드 세분화 작업을 효율적으로 진행할 수 있도록 하는 효과가 있다.
또한, 본 발명은 작업자로부터 키워드에 대한 세분화 수행 데이터가 수신되면, 소정 개수의 키워드를 해당 콘텐츠의 대표 키워드로 설정하여 키워드 기반 검색 기능에 활용할 수 있는 효과가 있다.
또한, 본 발명은 사용자로부터 입력된 키워드를 대표 키워드로 가진 콘텐츠를 검색하고, 검색된 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하여 사용자가 또 다시 표출된 대표 키워드 중 하나를 선택하여 콘텐츠를 검색할 수 있도록 하는 효과가 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 콘텐츠의 키워드 추출 방법의 흐름도이다.
도 2는 강의 콘텐츠의 예시도이다.
도 3은 추출 모듈이 키워드 추출 규칙을 이용하여 콘텐츠에서 복수 개의 키워드를 추출한 것을 예시한 도면이다.
도 4는 전처리 모듈이 도 3의 추출된 키워드들을 전처리한 것을 예시한 도면이다.
도 5는 분류 모듈이 전처리된 키워드들을 키워드 분류 규칙에 따라 분류한 것을 예시한 도면이다.
도 6은 작업자에 의해 세분화된 세분화 수행 데이터가 워드 클라우드로 구현된 것을 예시한 도면이다.
도 7은 본 발명의 실시예에 따른 키워드를 이용한 콘텐츠 추천 방법의 흐름도이다.
도 8은 사용자로부터 입력 받은 키워드를 기반으로 콘텐츠를 검색하여 추출하고, 사용자로부터 대표 키워드를 또 다시 입력받는 것을 예시한 도면이다.
도 9는 본 발명의 실시예에 따른 키워드 추출 장치의 블록도이다.
도 10은 본 발명의 실시예에 따른 콘텐츠 추천 장치의 블록도이다.
도 11은 본 발명의 실시예에 따른 키워드 추출 및 콘텐츠 추천 장치의 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 그렇지만 용어의 설명은 본 명세서의 이해를 돕기 위한 것이므로, 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.
콘텐츠(Contents): 특정 주제에 대한 정보를 포함하는 데이터로, 예를 들어 디지털로 가공된 각종 정보 내용물, 영상물, 영화, 강의, 도서 등이 해당될 수 있다.
도 1 내지 도 6은 콘텐츠의 키워드 추출 방법에 대한 도면이고, 도 7 및 도 8은 키워드를 이용한 콘텐츠 추천 방법에 관한 것이다.
키워드를 이용한 콘텐츠 추천 방법은, 콘텐츠의 키워드 추출 방법에 의해 추출되어 설정된 콘텐츠의 대표 키워드를 활용하는 것으로, 2개의 방법은 별개로 수행될 수도 있고 하나의 실시예로 함께 수행될 수도 있다.
아래에서는 콘텐츠의 키워드 추출 방법을 먼저 설명한 후에 키워드를 이용한 콘텐츠 추천 방법에 대해서 설명하도록 한다.
도 1은 본 발명의 실시예에 따른 콘텐츠의 키워드 추출 방법의 흐름도이다.
도 2는 강의 콘텐츠의 예시도이다.
도 3은 추출 모듈(110)이 키워드 추출 규칙을 이용하여 콘텐츠에서 복수 개의 키워드를 추출한 것을 예시한 도면이다.
도 4는 전처리 모듈(120)이 도 3의 추출된 키워드들을 전처리한 것을 예시한 도면이다.
도 5는 분류 모듈(130)이 전처리된 키워드들을 키워드 분류 규칙에 따라 분류한 것을 예시한 도면이다.
도 6은 작업자에 의해 세분화된 세분화 수행 데이터가 워드 클라우드로 구현된 것을 예시한 도면이다.
도 1 내지 도 6를 참조하여, 본 발명의 실시예에 따른 콘텐츠의 키워드 추출 방법에 대해서 설명하도록 한다.
본 발명의 실시예에 따른 콘텐츠 키워드 추출 방법은 컴퓨터에 의해 수행되며, 보다 상세하게는 콘텐츠의 키워드 추출 장치(20) 또는 서버에 의해 수행될 수 있다.
먼저, 추출 모듈(110)이 입력된 콘텐츠를 키워드 추출 규칙에 따라서 분석하여, 해당 콘텐츠에 관련된 복수 개의 키워드를 추출한다. (S100단계, 키워드 추출 단계)
이때, 추출 모듈(110)은 작업자로부터 콘텐츠의 데이터를 직접 입력받을 수도 있고, 콘텐츠가 스트리밍 서비스되는 URL 주소를 입력받을 수도 있다.
위와 같이 콘텐츠를 입력받는 방법은 다양한 방법들이 적용 가능하므로, 발명의 실시자가 용이하게 선택할 수 있다.
이때, 키워드 추출 규칙은 콘텐츠의 소개자료, 제목 및 분야를 기반으로 키워드 추출 기준을 확립하고, 이를 기준으로 하여 콘텐츠의 스크립트 및 음성 데이터 중 적어도 하나에서 관련 키워드를 추출하는 것을 특징으로 한다.
이때, 콘텐츠의 소개자료는 콘텐츠의 소개자료, 소개글, 줄거리가 해당될 수 있으며, 이외에도 콘텐츠를 요약하여 설명해주는 자료라면 무엇이든 적용이 가능하다.
예를 들어, 추출 모듈(110)은 키워드 추출 규칙을 이용하여 콘텐츠의 소개자료, 제목 및 분야에서 소정 개수의 간이 키워드를 추출하여 키워드 추출 기준으로 확립하고, 이를 기준으로 하여 해당 콘텐츠의 스크립트 및 음성 데이터 중 적어도 하나에서 기준과 관련된 복수 개의 키워드를 추출할 수 있다.
이때, 키워드를 추출하는 것은 키워드 추출 기준으로 확립된 간이 키워드와 소정의 유사도를 갖거나 분야에서 공통점을 갖는 단어들이 키워드로 선택되어 추출될 수 있다.
또한, 콘텐츠의 소개자료, 제목 및 분야 이외에도 해당 콘텐츠에 콘텐츠 제작자가 설정한 해쉬태그가 있다면, 이를 함께 이용하여 키워드 추출 기준 확립에 이용할 수도 있다.
일 실시예로, 추출 모듈(110)은 입력된 콘텐츠에 대하여 별도 자막이 설정 또는 저장되어 있지 않은 경우에는 STT(Speech to Text) 기능을 이용하여 자막, 텍스트 데이터를 추출하여 키워드 추출에 이용할 수 있다.
또 다른 실시예로, 콘텐츠가 이미지, 영상의 중요도가 높은 콘텐츠인 경우에는 추출 모듈(110)은 이미지, 영상 인식 기술을 활용하여 콘텐츠 내 이미지, 영상을 인식하여 키워드를 추출할 수도 있다.
또한, 키워드 추출 규칙은 콘텐츠가 강의 자료인 경우, 콘텐츠의 강의 소개자료, 제목, 강의 분야 중 적어도 하나를 기반으로 키워드 추출 기준을 확립하고 이를 기준으로 해당 콘텐츠의 강사 이름, 강의 과정, 스크립트 및 음성 데이터 중 적어도 하나에서 관련 키워드를 추출하는 것을 특징으로 한다.
도 2에는 고등학교 수학 미적분1의 동영상 강의가 콘텐츠로 예시되어 있으며, 추출 모듈(110)은 강의 소개자료, 제목(미적분1), 강의 분야(고등학교 수학, 태그된 해쉬태그 등 참조)를 기반으로 키워드 추출 기준을 확립하게 되고, 이를 기준으로 하여 해당 콘텐츠의 강사 이름, 강의 과정, 스크립트 및 음성 데이터를 분석하여 도 3과 같이 복수 개의 키워드가 추출된 것이 예시되어 있다.
추출되는 키워드 개수가 한정되는 것은 아니지만, 도 3은 도면상의 도시를 위해서 20~30개의 키워드가 예시되어 있지만, 실제로는 수백개의 키워드가 추출될 수 있고 콘텐츠의 길이, 용량에 따라서 더 많은 키워드가 추출될 수도 있다.
예를 들어, 도 2의 콘텐츠를 기반으로 하여 키워드 추출 기준을 확립하게 되면, 고등학생, 수학, 미적분, 수업 등과 같은 간이 키워드를 기반으로 관련 키워드를 추출하게 되므로, 도 3과 같이 간이 키워드와 관련된 키워드들이 추출된다.
일 실시예로, 키워드 추출 기준은 해당 콘텐츠의 스크립트, 음성 데이터에서 언급된 횟수가 될 수도 있다.
예를 들어, 추출 모듈(110)은 콘텐츠의 스크립트, 음성 데이터에서 언급된 횟수가 30회 이상인 경우 해당 단어를 키워드로 추출할 수 있으며, 이러한 횟수의 기준은 콘텐츠의 크기, 길이가 될 수 있다.
S100단계 다음으로, 전처리 모듈(120)이 S100단계에서 추출된 복수 개의 키워드를 키워드 필터링 규칙에 따라서 분석하여, 콘텐츠의 검색 기능에 불필요한 키워드를 제외한다. (S200단계)
이때, 키워드 필터링 규칙은 키워드로서 특이점을 갖지 못하는 일반적인 문구와 일반적인 표현에 해당하는 키워드를 제외시키고, 키워드에 포함된 조사를 삭제하는 것을 특징으로 한다.
도 4에는 추출 모듈(110)이 키워드 추출 규칙을 이용하여 콘텐츠에서 추출된 복수 개의 키워드(도 3)에서 필터링 모듈이 키워드 필터링 규칙을 이용하여 키워드를 전처리한 것이 예시되어 있다.
"수능을"에서 조사 "을"을 삭제하였고, "적분을"에서 조사 "을"을 삭제하는 것과 같이 키워드들의 조사를 삭제한 것이 예시되어 있다.
또한, 유튜브, 스터디, 책상, 교실, 공부, 과학, 산수, 대학교와 같이 키워드로서 특이점을 갖지 못하는 일반적인 문구와 일반적인 표현에 해당하는 키워드를 제외시킨 것이 예시되어 있다.
S200단계 다음으로, 분류 모듈(130)이 S200단계에서 전처리된 복수 개의 키워드를 키워드 분류 규칙에 따라 분석하여, 복수 개의 키워드를 분류한다. (S300단계)
이때, 키워드 분류 규칙은 복수 개의 키워드 중에서 이음동의어 또는 유사어에 해당하거나 일정 수준 이상의 유사도를 갖는 키워드끼리 유사 키워드로 분류하는 것을 의미한다.
또한, 키워드 분류 규칙은 각 키워드의 유사 키워드 개수와 키워드 추출 기준과의 매칭도를 기반으로 분류된 각 키워드에 가중치를 부여하는 것을 특징으로 한다.
따라서, 분류 모듈(130)은 위와 같은 키워드 분류 규칙을 이용하여 키워드를 분류하여, 이음동의어 또는 유사어에 해당하거나 일정 수준 이상의 유사도를 갖는 키워드끼리 유사 키워드로 분류하고, 각 키워드에 가중치를 부여하여 정렬할 수 있다.
이때, 유사 키워드로 분류된 키워드들은 유사한 의미를 갖는 키워드들이므로 같은 그룹 내 키워드 들은 동일한 가중치를 부여받게 된다.
따라서, 도 5와 같이 분류 모듈(130)이 분류한 키워드는 가중치 순으로 정렬됨은 물론, 유사 키워드로 분류된 그룹으로 정렬되어 작업자의 키워드에 대한 세분화 수행이 용이하도록 하는 효과를 발휘하게 된다.
다음으로, 컴퓨터는 통신 모듈(150)을 통해 작업자 단말(300)로 키워드 분류 데이터를 제공하고, 작업자 단말(300)로 분류된 키워드에 대한 세분화 작업을 요청하게 된다.
그리고, 컴퓨터는 작업자로부터 분류된 키워드에 대한 세분화 작업을 진행한 세분화 수행 데이터를 수신하게 된다.
이때, 작업자로부터 수신되는 세분화 수행 데이터는 작업자에 의해 상기 분류된 키워드 중에서 불필요한 키워드가 제외되고, 우선순위 순서로 정렬된 워드 클라우드 데이터인 것을 특징으로 한다.
이러한 워드 클라우드는 도 6과 같이 키워드의 중요도가 높을수록 글씨 크기가 크고 중앙에 도시되어 시각적으로 각 키워드의 중요도를 한 눈에 확인할 수 있는 효과가 있다.
S300단계 다음으로, 설정 모듈(140)이 작업자로부터 세분화 수행 데이터가 수신되면, 세분화 수행 데이터에 포함된 소정 개수의 키워드를 해당 콘텐츠의 대표 키워드로 설정한다. (S400단계)
보다 상세하게는, 설정 모듈(140)은 작업자로부터 수신된 세분화 수행 데이터를 이용하여 우선순위가 가장 높은 소정 개수의 키워드를 선택하고, 이를 해당 콘텐츠의 대표 키워드로 설정하게 된다. (예: 1개 ~ 5개)
도 7은 본 발명의 실시예에 따른 키워드를 이용한 콘텐츠 추천 방법의 흐름도이다.
도 8은 사용자로부터 입력 받은 키워드를 기반으로 콘텐츠를 검색하여 추출하고, 사용자로부터 대표 키워드를 또 다시 입력받는 것을 예시한 도면이다.
도 7 및 도 8을 참조하여, 본 발명의 실시예에 따른 키워드를 이용한 콘텐츠 추천 방법에 대해서 설명하도록 한다.
본 발명의 실시예에 따른 키워드를 이용한 콘텐츠 추천 방법은 도 1 내지 도 6의 콘텐츠 키워드 추출 방법에 의해 소정 개수의 대표 키워드가 설정된 콘텐츠들을 이용하게 된다.
먼저, 검색 모듈(170)이 사용자로부터 입력 받은 키워드를 대표 키워드로 가진 콘텐츠를 검색한다. (S500단계)
표출부(180)가 S500단계에서 검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출한다. (S600단계)
도 7을 참조하면, 사용자가 키워드 검색란에 "수학"을 키워드로 입력하였고, 검색 모듈(170)이 이를 검색하여 "수학"이 대표 키워드로 설정되어 있는 콘텐츠들을 검색하여 표출하는 것이 예시되어 있다.
이때, "수학"이 대표 키워드로 설정되어 있는 콘텐츠들만 표출하는 것이 아닌고, 표출되는 각 콘텐츠에 설정되어 있는 대표 키워드가 함께 표출되고 있다.
S600단계 다음으로, 검색 모듈(170)이 S600단계에서 표출된 대표 키워드 중 하나가 사용자로부터 선택되면, S500단계에서 검색된 콘텐츠 또는 S600단계에서 표출된 콘텐츠(2개 모두 동일한 의미) 중에서, 사용자로부터 선택된 대표 키워드를 대표 키워드로 가진 콘텐츠를 재검색한다. (S700단계)
도 7을 참조하면, 사용자가 화면으로 표출되고 있는 콘텐드의 대표 키워드들 중에서 "미적분"을 손가라으로 선택하는 것이 예시되어 있다.
이와 같이, 사용자는 본인이 입력한 키워드를 대표 키워드로 가진 콘텐츠들을 확인할 수 있음은 물론, 그 중에서 재검색하고자 하는 대표 키워드를 선택하여 검색 범위를 좁혀나가면서 특정 콘텐츠를 선택할 수 있게 된다.
이때, S700단계와 S800단계는 한 번에 종료되는 것은 아니며, 사용자가 키워드 검색 기능을 종료하거나 특정 콘텐츠를 선택할 때까지 계속 반복될 수 있다.
도 9는 본 발명의 실시예에 따른 키워드 추출 장치(20)의 블록도이다.
도 9를 참조하면, 본 발명의 실시예에 따른 키워드 추출 장치(20)는 추출 모듈(110), 전처리 모듈(120), 분류 모듈(130), 설정 모듈(140), 통신 모듈(150) 및 데이터베이스(160)를 포함한다.
다만, 몇몇 실시예에서 키워드 추출 장치(20)는 도 9에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.
추출 모듈(110)은 입력된 콘텐츠를 키워드 추출 규칙에 따라 분석하여, 콘텐츠에 관련된 복수 개의 키워드를 추출한다.
전처리 모듈(120)은 추출 모듈(110)에 의해 추출된 복수 개의 키워드를 키워드 필터링 규칙에 따라서 분석하여, 콘텐츠 검색 기능에 불필요한 키워드를 제외한다.
분류 모듈(130)은 전처리 모듈(120)에 의해 전처리된 복수 개의 키워드를 키워드 분류 규칙에 따라 분석하여, 복수 개의 키워드를 분류한다.
설정 모듈(140)은 작업자에 의해 분류된 키워드에 대한 세분화 수행 데이터가 수신되면, 세분화 수행 데이터에 포함된 소정 개수의 키워드를 해당 콘텐츠의 대표 키워드로 설정한다.
통신 모듈(150)은 입력된 콘텐츠를 수신하거나, 넷상의 콘텐츠에 대한 데이터를 수신하는 역할을 수행하며, 작업자 단말(300)과 통신하여 데이터를 주고받기도 한다.
데이터베이스(160)는 키워드 추출 규칙, 키워드 필터링 규칙, 키워드 분류 규칙과 같은 알고리즘들이 저장될 수 있으며, 콘텐츠의 데이터, 설정, 분류된 키워드들의 데이터 등과 같은 저장수단을 필요로 하는 데이터들이 저장되는 구성으로 활용될 수 있다.
이상으로 설명한 본 발명의 실시예에 따른 키워드 추출 장치(20)는 도 1 내지 도 6을 통해 설명한 키워드 추출 방법과 발명의 카테고리만 다를 뿐, 동일한 내용이므로 중복되는 설명, 예시는 생략하도록 한다.
도 10은 본 발명의 실시예에 따른 콘텐츠 추천 장치(30)의 블록도이다.
도 10을 참조하면, 본 발명의 실시예에 따른 콘텐츠 추천 장치(30)는 통신 모듈(150), 데이터베이스(160), 검색 모듈(170), 표출부(180)를 포함한다.
다만, 몇몇 실시예에서 콘텐츠 추천 장치(30)는 도 10에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.
통신 모듈(150)은 사용자 단말(330)과 통신하여 데이터를 주고받는다.
데이터베이스(160)는 콘텐츠에 대한 설정, 사용자의 검색 이력 등과 같은 저장수단을 필요로 하는 데이터들이 저장되는 구성으로 활용될 수 있다.
검색 모듈(170)은 사용자로부터 입력 받은 키워드를 대표 키워드로 가진 콘텐츠를 검색한다.
표출부(180)는 검색부를 통해 검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출한다.
그리고, 검색 모듈(170)은 표출부(180)를 통해 표출된 대표 키워드 중 사용자로부터 특정 대표 키워드가 선택되면, 검색된 콘텐츠 중에서 사용자로부터 선택된 대표 키워드를 대표 키워드로 가진 콘텐츠를 재검색한다.
표출부(180)는 검색부를 통해 재검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출한다.
이상으로 설명한 본 발명의 실시예에 따른 키워드를 이용한 콘텐츠 추천 장치(30)는 도 7 및 도 8을 통해 설명한 키워드를 이용한 콘텐츠 추천 방법과 발명의 카테고리만 다를 뿐, 동일한 내용이므로 중복되는 설명, 예시는 생략하도록 한다.
도 11은 본 발명의 실시예에 따른 키워드 추출 및 콘텐츠 추천 장치(10)의 블록도이다.
도 11에 도시된 키워드 추출 및 콘텐츠 추천 장치(10)는 도 9에 도시된 키워드 추출 장치(20)와 도 10에 도시된 콘텐츠 추천 장치(30)가 하나의 장치로 구성된 것으로, 키워드 추출 장치(20) 및 콘텐츠 추천 장치(30)와 차별점을 가지지는 않는다.
이상에서 전술한 본 발명의 일 실시예에 따른 방법은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
10: 키워드 추출 및 콘텐츠 추천 장치
20: 키워드 추출 장치
30: 콘텐츠 추천 장치
110: 추출 모듈
120: 전처리 모듈
130: 분류 모듈
140: 설정 모듈
150: 통신 모듈
160: 데이터베이스
170: 검색 모듈
180: 표출부
300: 작업자 단말
330: 사용자 단말

Claims (10)

  1. 키워드 추출 장치에 의해 수행되는 방법으로,
    입력된 콘텐츠를 키워드 추출 규칙에 따라서 분석하여, 상기 콘텐츠에 관련된 복수의 키워드를 추출하는, 키워드 추출 단계;
    상기 추출된 복수의 키워드를 키워드 필터링 규칙에 따라서 분석하여, 상기 콘텐츠의 검색에 불필요한 키워드를 제외하는, 키워드 전처리 단계;
    상기 전처리된 복수의 키워드를 키워드 분류 규칙에 따라 분석하여, 상기 복수의 키워드를 분류하는, 키워드 분류 단계; 및
    작업자에 의해 상기 분류된 키워드에 대한 세분화 수행 데이터가 수신되면, 상기 수행 데이터에 포함된 기 설정된 개수의 키워드를 상기 콘텐츠의 대표 키워드로 설정하는 단계를 포함하며,
    상기 키워드 추출 장치는,
    상기 콘텐츠의 소개 자료, 제목 및 분야를 기반으로 기 설정된 개수의 간이 키워드를 추출하여 키워드 추출 기준을 결정하고, 상기 결정된 키워드 추출 기준을 기반으로 상기 콘텐츠에서 상기 복수의 키워드를 추출하되, 상기 간이 키워드와 기 설정된 유사도를 갖거나 해당 분야에서 공통점을 갖는 단어들을 상기 복수의 키워드로 추출하고,
    상기 추출된 복수의 키워드 중에서 이음동의어 또는 유사어에 해당하거나 기 설정된 수준 이상의 유사도를 갖는 키워드들을 적어도 하나의 유사 키워드 그룹으로 분류하고,
    상기 분류된 유사 키워드 그룹 내의 유사 키워드 개수 및 상기 키워드 추출 기준과의 매칭도를 기반으로, 상기 분류된 유사 키워드 그룹 각각의 키워드들에 가중치를 부여하되, 동일한 유사 키워드 그룹 내 키워드들은 동일한 가중치를 부여하며,
    상기 콘텐츠가 이미지 기반의 콘텐츠인 경우, 상기 콘텐츠 내에서 이미지를 인식하고, 상기 인식된 이미지와 관련된 상기 복수의 키워드를 추출하고,
    상기 콘텐츠 내에서 기 설정된 횟수 이상으로 언급된 적어도 하나의 단어를 상기 복수의 키워드로 추출하되, 상기 콘텐츠의 길이를 기반으로 상기 기 설정된 횟수를 결정하는, 콘텐츠의 키워드 추출 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 키워드 추출 규칙은,
    콘텐츠가 강의 자료인 경우,
    콘텐츠의 강의 소개자료, 제목, 강의 분야 중 적어도 하나를 기반으로 상기 키워드 추출 기준을 확립하고, 상기 확립된 키워드 추출 기준을 기반으로 상기 콘텐츠의 강사 이름, 강의 과정, 스크립트 및 음성 데이터 중 적어도 하나에서 관련 키워드를 추출하는 것을 특징으로 하는, 콘텐츠의 키워드 추출 방법.
  4. 제1항에 있어서,
    상기 키워드 전처리 단계는,
    상기 복수의 키워드 중에서 키워드로서 특이점을 갖지 못하는 일반적인 키워드를 제외시키고, 상기 키워드에 포함된 조사를 삭제하는 것을 특징으로 하는, 콘텐츠의 키워드 추출 방법.
  5. 삭제
  6. 제1항에 있어서,
    키워드에 대한 세분화 수행 데이터는,
    상기 작업자에 의해 상기 복수의 키워드에서 불필요한 키워드가 제외되고, 우선순위 순서로 정렬된 워드 클라우드 데이터인 것을 특징으로 하는, 콘텐츠의 키워드 추출 방법.
  7. 콘텐츠 추천 장치에 의해 수행되는 방법으로,
    사용자로부터 입력 받은 키워드를 대표 키워드로 가진 하나 이상의 콘텐츠를 검색하는 단계;
    상기 검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하는 단계;
    상기 표출된 대표 키워드 중 하나가 선택되면, 상기 검색된 콘텐츠 중에서 상기 선택된 대표 키워드를 대표 키워드로 가진 콘텐츠를 재검색하는 단계; 및
    상기 재검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하는 단계를 포함하며,
    상기 콘텐츠에 설정된 대표 키워드는 키워드 추출 장치에 의해 설정된 것으로,
    상기 키워드 추출 장치는,
    입력된 콘텐츠를 키워드 추출 규칙에 따라서 분석하여 상기 입력된 콘텐츠에 관련된 복수의 키워드를 추출하고,
    상기 추출된 복수의 키워드를 키워드 필터링 규칙에 따라서 분석하여 상기 콘텐츠의 검색에 불필요한 키워드를 제외하여 상기 복수의 키워드를 전처리하고,
    상기 전처리된 복수의 키워드를 키워드 분류 규칙에 따라 분석하여 상기 복수의 키워드를 분류하고,
    작업자에 의해 상기 분류된 키워드에 대한 세분화 수행 데이터가 수신되면 상기 수행 데이터에 포함된 기 설정된 개수의 키워드를 상기 입력된 콘텐츠의 대표 키워드로 설정하고,
    상기 입력된 콘텐츠의 소개 자료, 제목 및 분야를 기반으로 기 설정된 개수의 간이 키워드를 추출하여 키워드 추출 기준을 결정하고, 상기 결정된 키워드 추출 기준을 기반으로 상기 콘텐츠에서 복수의 키워드를 추출하되, 상기 간이 키워드와 기 설정된 유사도를 갖거나 해당 분야에서 공통점을 갖는 단어들을 상기 복수의 키워드로 추출하고,
    상기 추출된 복수의 키워드 중에서 이음동의어 또는 유사어에 해당하거나 기 설정된 수준 이상의 유사도를 갖는 키워드들을 적어도 하나의 유사 키워드 그룹으로 분류하고,
    상기 분류된 유사 키워드 그룹 내의 유사 키워드 개수 및 상기 키워드 추출 기준과의 매칭도를 기반으로, 상기 분류된 유사 키워드 그룹 각각의 키워드들에 가중치를 부여하되, 동일한 유사 키워드 그룹 내 키워드들은 동일한 가중치를 부여하며,
    상기 콘텐츠가 이미지 기반의 콘텐츠인 경우, 상기 콘텐츠 내에서 이미지를 인식하고, 상기 인식된 이미지와 관련된 상기 복수의 키워드를 추출하고,
    상기 콘텐츠 내에서 기 설정된 횟수 이상으로 언급된 적어도 하나의 단어를 상기 복수의 키워드로 추출하되, 상기 콘텐츠의 길이를 기반으로 상기 기 설정된 횟수를 결정하는, 키워드를 이용한 콘텐츠 추천 방법.
  8. 키워드 추출 장치에 관한 것으로,
    입력된 콘텐츠를 키워드 추출 규칙에 따라 분석하여, 상기 콘텐츠에 관련된 복수의 키워드를 추출하는 추출 모듈;
    상기 추출된 복수의 키워드를 키워드 필터링 규칙에 따라서 분석하여, 상기 콘텐츠의 검색에 불필요한 키워드를 제외하여 상기 복수의 키워드를 전처리하는 전처리 모듈;
    상기 전처리된 복수의 키워드를 키워드 분류 규칙에 따라 분석하여, 상기 복수의 키워드를 분류하는 분류 모듈; 및
    작업자에 의해 상기 분류된 키워드에 대한 세분화 수행 데이터가 수신되면, 상기 수행 데이터에 포함된 기 설정된 개수의 키워드를 상기 콘텐츠의 대표 키워드로 설정하는 설정 모듈을 포함하며,
    상기 키워드 추출 장치는,
    상기 콘텐츠의 소개 자료, 제목 및 분야를 기반으로 기 설정된 개수의 간이 키워드를 추출하여 키워드 추출 기준을 결정하고, 상기 결정된 키워드 추출 기준을 기반으로 상기 콘텐츠에서 상기 복수의 키워드를 추출하되, 상기 간이 키워드와 기 설정된 유사도를 갖거나 해당 분야에서 공통점을 갖는 단어들을 상기 복수의 키워드로 추출하고,
    상기 추출된 복수의 키워드 중에서 이음동의어 또는 유사어에 해당하거나 기 설정된 수준 이상의 유사도를 갖는 키워드들을 적어도 하나의 유사 키워드 그룹으로 분류하고,
    상기 분류된 유사 키워드 그룹 내의 유사 키워드 개수 및 상기 키워드 추출 기준과의 매칭도를 기반으로, 상기 분류된 유사 키워드 그룹 각각의 키워드들에 가중치를 부여하되, 동일한 유사 키워드 그룹 내 키워드들은 동일한 가중치를 부여하며,
    상기 콘텐츠가 이미지 기반의 콘텐츠인 경우, 상기 콘텐츠 내에서 이미지를 인식하고, 상기 인식된 이미지와 관련된 상기 복수의 키워드를 추출하고,
    상기 콘텐츠 내에서 기 설정된 횟수 이상으로 언급된 적어도 하나의 단어를 상기 복수의 키워드로 추출하되, 상기 콘텐츠의 길이를 기반으로 상기 기 설정된 횟수를 결정하는, 콘텐츠의 키워드 추출 장치.
  9. 콘텐츠 추천 장치에 관한 것으로,
    사용자로부터 입력 받은 키워드를 대표 키워드로 가진 하나 이상의 콘텐츠를 검색하는 검색 모듈; 및
    상기 검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하는 표출부를 포함하며,
    상기 검색 모듈은 상기 표출된 대표 키워드 중 하나가 선택되면, 상기 검색된 콘텐츠 중에서 상기 선택된 대표 키워드를 대표 키워드로 가진 콘텐츠를 재검색하고,
    상기 표출부는 상기 재검색된 하나 이상의 콘텐츠를 각 콘텐츠에 설정된 대표 키워드와 함께 표출하고,
    상기 콘텐츠에 설정된 대표 키워드는 키워드 추출 장치에 의해 설정된 것으로,
    상기 키워드 추출 장치는,
    입력된 콘텐츠를 키워드 추출 규칙에 따라서 분석하여 상기 입력된 콘텐츠에 관련된 복수의 키워드를 추출하고,
    상기 추출된 복수의 키워드를 키워드 필터링 규칙에 따라서 분석하여 상기 콘텐츠의 검색에 불필요한 키워드를 제외하여 상기 복수의 키워드를 전처리하고,
    상기 전처리된 복수의 키워드를 키워드 분류 규칙에 따라 분석하여 상기 복수의 키워드를 분류하고,
    작업자에 의해 상기 분류된 키워드에 대한 세분화 수행 데이터가 수신되면 상기 수행 데이터에 포함된 기 설정된 개수의 키워드를 상기 입력된 콘텐츠의 대표 키워드로 설정하고,
    상기 입력된 콘텐츠의 소개 자료, 제목 및 분야를 기반으로 기 설정된 개수의 간이 키워드를 추출하여 키워드 추출 기준을 결정하고, 상기 결정된 키워드 추출 기준을 기반으로 상기 콘텐츠에서 복수의 키워드를 추출하되, 상기 간이 키워드와 기 설정된 유사도를 갖거나 해당 분야에서 공통점을 갖는 단어들을 상기 복수의 키워드로 추출하고,
    상기 추출된 복수의 키워드 중에서 이음동의어 또는 유사어에 해당하거나 기 설정된 수준 이상의 유사도를 갖는 키워드들을 적어도 하나의 유사 키워드 그룹으로 분류하고,
    상기 분류된 유사 키워드 그룹 내의 유사 키워드 개수 및 상기 키워드 추출 기준과의 매칭도를 기반으로, 상기 분류된 유사 키워드 그룹 각각의 키워드들에 가중치를 부여하되, 동일한 유사 키워드 그룹 내 키워드들은 동일한 가중치를 부여하며,
    상기 콘텐츠가 이미지 기반의 콘텐츠인 경우, 상기 콘텐츠 내에서 이미지를 인식하고, 상기 인식된 이미지와 관련된 상기 복수의 키워드를 추출하고,
    상기 콘텐츠 내에서 기 설정된 횟수 이상으로 언급된 적어도 하나의 단어를 상기 복수의 키워드로 추출하되, 상기 콘텐츠의 길이를 기반으로 상기 기 설정된 횟수를 결정하는, 키워드를 이용한 콘텐츠 추천 장치.
  10. 하드웨어인 컴퓨터와 결합되어, 제1항 또는 제7항의 방법을 실행시키기 위하여 매체에 저장된, 프로그램.
KR1020200037938A 2020-03-30 2020-03-30 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램 KR102488914B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200037938A KR102488914B1 (ko) 2020-03-30 2020-03-30 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램
KR1020230003962A KR20230013140A (ko) 2020-03-30 2023-01-11 키워드 추출 규칙 기반의 키워드 추출 장치, 방법 및 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200037938A KR102488914B1 (ko) 2020-03-30 2020-03-30 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020230003962A Division KR20230013140A (ko) 2020-03-30 2023-01-11 키워드 추출 규칙 기반의 키워드 추출 장치, 방법 및 프로그램

Publications (2)

Publication Number Publication Date
KR20210121387A KR20210121387A (ko) 2021-10-08
KR102488914B1 true KR102488914B1 (ko) 2023-01-16

Family

ID=78609942

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020200037938A KR102488914B1 (ko) 2020-03-30 2020-03-30 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램
KR1020230003962A KR20230013140A (ko) 2020-03-30 2023-01-11 키워드 추출 규칙 기반의 키워드 추출 장치, 방법 및 프로그램

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020230003962A KR20230013140A (ko) 2020-03-30 2023-01-11 키워드 추출 규칙 기반의 키워드 추출 장치, 방법 및 프로그램

Country Status (1)

Country Link
KR (2) KR102488914B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102657554B1 (ko) * 2023-12-20 2024-04-15 주식회사 코어닷투데이 스토리텔링데이터 거래 중개 장치 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102601471B1 (ko) 2022-08-24 2023-11-13 주식회사 프라임에듀넷 인공지능 기반 데이터베이스화된 동영상 강의의 검색 및 추천 서비스 제공 방법, 장치 및 시스템
KR20240042964A (ko) * 2022-09-26 2024-04-02 주식회사 네오툰 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법
KR102543343B1 (ko) * 2023-03-07 2023-06-16 주식회사 로이드케이 인공신경망 기반의 검색어 사전 생성 및 검색 방법 및 장치
KR102605100B1 (ko) * 2023-04-10 2023-11-23 주식회사 티빙 콘텐츠 스트리밍 시스템에서 콘텐츠를 검색하기 위한 방법 및 장치
KR102610999B1 (ko) 2023-09-04 2023-12-07 라이트하우스(주) 인공지능 기반 데이터베이스화된 동영상 강의의 검색 및 추천 서비스 제공 방법, 장치 및 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006120126A (ja) * 2004-10-20 2006-05-11 Toshiba Corp キーワード抽出装置、キーワード抽出プログラム
KR101252670B1 (ko) * 2011-01-27 2013-04-09 한국과학기술연구원 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
KR101607468B1 (ko) * 2015-02-27 2016-03-30 고려대학교 산학협력단 콘텐츠에 대한 키워드 태깅 방법 및 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101545454B1 (ko) * 2014-10-15 2015-08-19 주식회사 애드오피 온라인 콘텐츠의 키워드 기반 광고 매칭 방법 및 그를 이용한 광고 매칭 시스템
KR20190055963A (ko) 2017-11-16 2019-05-24 주식회사 마인컴파니 키워드검색 분석을 통한 온라인 쇼핑몰의 상품 노출 시스템 및 그 운영방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006120126A (ja) * 2004-10-20 2006-05-11 Toshiba Corp キーワード抽出装置、キーワード抽出プログラム
KR101252670B1 (ko) * 2011-01-27 2013-04-09 한국과학기술연구원 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
KR101607468B1 (ko) * 2015-02-27 2016-03-30 고려대학교 산학협력단 콘텐츠에 대한 키워드 태깅 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102657554B1 (ko) * 2023-12-20 2024-04-15 주식회사 코어닷투데이 스토리텔링데이터 거래 중개 장치 및 방법

Also Published As

Publication number Publication date
KR20210121387A (ko) 2021-10-08
KR20230013140A (ko) 2023-01-26

Similar Documents

Publication Publication Date Title
KR102488914B1 (ko) 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램
JP6986527B2 (ja) ビデオを処理する方法及び装置
US9547712B2 (en) Automatic document classification via content analysis at storage time
US9256649B2 (en) Method and system of filtering and recommending documents
US20020168117A1 (en) Image search method and apparatus
KR20210059674A (ko) 직무 추천 장치 및 직무 추천 방법
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
US10713485B2 (en) Object storage and retrieval based upon context
KR20150142070A (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
KR20070102033A (ko) 문서검색 시스템 및 그 방법
US11714963B2 (en) Content modification using natural language processing to include features of interest to various groups
US9558185B2 (en) Method and system to discover and recommend interesting documents
US20210151038A1 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
CN114332679A (zh) 视频处理方法、装置、设备、存储介质和计算机程序产品
WO2023065663A1 (zh) 视频剪辑方法、装置、电子设备及存储介质
CN110888896B (zh) 数据搜寻方法及其数据搜寻***
CN114119136A (zh) 一种产品推荐方法、装置、电子设备和介质
CN114491034B (zh) 一种文本分类方法及智能设备
CN114363695A (zh) 视频处理方法、装置、计算机设备和存储介质
WO2017081562A1 (en) Method and system for processing and searching documents
KR101634068B1 (ko) 교육용 컨텐츠맵 생성방법 및 장치
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US20150169523A1 (en) Smart Scoring And Filtering of User-Annotated Geocoded Datasets
US20140297678A1 (en) Method for searching and sorting digital data
CN113220843A (zh) 确定信息关联关系的方法、装置、存储介质和设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant