KR101864401B1 - 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템 - Google Patents

전통문화 융복합 지원을 위한 디지털 연표 표출 시스템 Download PDF

Info

Publication number
KR101864401B1
KR101864401B1 KR1020170161434A KR20170161434A KR101864401B1 KR 101864401 B1 KR101864401 B1 KR 101864401B1 KR 1020170161434 A KR1020170161434 A KR 1020170161434A KR 20170161434 A KR20170161434 A KR 20170161434A KR 101864401 B1 KR101864401 B1 KR 101864401B1
Authority
KR
South Korea
Prior art keywords
contents
data
content
digital
traditional
Prior art date
Application number
KR1020170161434A
Other languages
English (en)
Inventor
이금탁
신유탁
Original Assignee
주식회사 피씨엔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피씨엔 filed Critical 주식회사 피씨엔
Priority to KR1020170161434A priority Critical patent/KR101864401B1/ko
Application granted granted Critical
Publication of KR101864401B1 publication Critical patent/KR101864401B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 새로운 전통문화 콘텐츠 데이터를 입력받고, 입력된 데이터를 자동으로 학습 및 분류하여 디지털 연표를 자동으로 표출하는 시스템에 관한 것으로, 각 전통 문화 사이트를 통해 정형, 비정형 데이터를 수집하는 동작, 데이터 저장부의 전통문화 콘텐츠 데이터 웨어하우스(CCDW(Cultural Contents Data Warehouse))에 매핑되도록 수집된 콘텐츠를 적재하는 동작, 전통문화 콘텐츠의 특성 중에서 시간 데이터를 추출하고, 추출된 시간 데이터에 기반하여 기초 디지털 연표를 생성하는 동작, 시간 데이터와 콘텐츠 연결망 분석에 따라 디지털연표와 콘텐츠 매핑을 수행하는 동작, 및 기초 디지털 연표와 매핑된 콘텐츠들을 시각화 하여 출력하는 동작을 포함하하도록 구성되는 바, 디지털 연표 표출 시스템을 자동으로 표출함으로써, 정보 이용자에게 체계적인 분류 및 검색 기능을 제공함과 아울러 전통문화 융복합 서비스를 제공할 수 있다.

Description

전통문화 융복합 지원을 위한 디지털 연표 표출 시스템{DIGITAL TIMELINE OUTPUT SYSTEM FOR SUPPORT OF FUSION OF TRADITIONAL CULTURE}
본 발명은 새로운 전통문화 콘텐츠 데이터를 입력받고, 입력된 데이터를 자동으로 학습 및 분류하여 디지털 연표를 자동으로 표출하는 시스템에 관한 것이다.
개인으로서의 인간은 가족, 학교, 지역사회, 직장, 국가, 세계의 일원으로서 생활해 나가면서 다른 사람과 교류하고 상호작용을 하게 된다. 최근, 한 국가나 또는 사회의 구성원으로서 타인과 원활하게 교류하면서 종교, 인종, 지역, 민족성 같은 것들에 대한 이해가 부족하여 갈등이 발생되고 있는 바, 자신이나 또는 타인이 속한 민족이나 인종에 대한 전통문화에 대한 교육이 절실히 요구되고 있다.
전통문화는 한 국가나, 인류, 또는 인종이 과거에 생활해온 전반적인 양식을 포괄하는 것으로, 사상, 의상, 언어, 종교, 의례, 법이나 도덕 등의 규범, 가치관과 같은 것들을 포함할 수 있다.
근래에 들어 유무선 인터넷뿐만 아니라 이동통신 기술의 발달로 모든 지역이 인터넷에 연결되는 인터넷 환경이 공급되고 있다. 이러한 유선 또는 무선 인터넷이 와이파이나 기타 근거리 통신망과 유선 통신망을 통해 가정, 기업, 정부 기관 내의 모든 기기에 연결되어 사용되고 있는 상황이다.
하지만, 정보통신 기술이 발달됨에도 불구하고 전통문화에 대한 체계적인 분류 및 검색 기능을 제공하는 시스템이나 플랫폼은 아직까지 제공되지 않고 있다.
대한민국 등록특허 제10-1045850호(2011.06.27.자 등록)
본 발명의 다양한 실시 예는 상기 문제점을 해결하기 위한 것으로, 전통문화콘텐츠 분류체계를 수립하여 디지털 연표 표출 시스템을 자동으로 표출함으로써, 정보 이용자에게 체계적인 분류 및 검색 기능을 제공함과 아울러 전통문화 융복합 서비스를 제공하기 위한 디지털 연표 표출 시스템을 제공하는데 목적이 있다.
본 발명의 다양한 실시예에 따른 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템은, 전통문화 관련 영상 콘텐츠, 이미지, 및 텍스트 콘텐츠의 비정형 콘텐츠를 정형화하고, 정형화된 콘텐츠를 기존의 정형 콘텐츠와 통합하여 저장하는 전통문화 콘텐츠 데이터 웨어하우스(CCDW(Cultural Contents Data Warehouse))로 정의되는 데이터 저장부를 포함하고, 외부 장치에서 공개된 복수의 전통문화 콘텐츠를 수집하는 기능, 수집된 전통문화 콘텐츠를 분류 및 저장하는 기능, 저장된 전통문화 콘텐츠에 기반하여, 디지털 연표를 자동으로 생성하는 기능을 제공하고, 상기 디지털 연표를 생성하는 기능은, 각 전통 문화 사이트를 통해 정형, 비정형 데이터를 수집하는 동작, 상기 데이터 저장부의 상기 전통문화 콘텐츠 데이터 웨어하우스(CCDW(Cultural Contents Data Warehouse))에 매핑되도록 수집된 콘텐츠를 적재하는 동작, 전통문화 콘텐츠의 특성 중에서 시간 데이터를 추출하고, 추출된 시간 데이터에 기반하여 기초 디지털 연표를 생성하는 동작, 시간 데이터와 콘텐츠 연결망 분석에 따라 디지털연표와 콘텐츠 매핑을 수행하는 동작, 및 기초 디지털 연표와 매핑된 콘텐츠들을 시각화 하여 출력하는 동작을 포함한다.
본 발명의 다양한 실시 예에 따른 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템으로는, 전통문화콘텐츠 분류체계를 수립하여 디지털 연표 표출 시스템을 자동으로 표출함으로써, 정보 이용자에게 체계적인 분류 및 검색 기능을 제공함과 아울러 전통문화 융복합 서비스를 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템의 개략적인 구성도이다.
도 2는 본 발명의 실시예에 따른 플랫폼을 보다 구체적으로 나타낸 블록도이다.
도 3은 콘텐츠 수집부의 전통문화 콘텐츠 수집 방법을 설명하기 위한 개념도이다.
도 4는 콘텐츠 수집부의 구성 블록도이다.
도 5는 콘텐츠 분류부의 기능을 설명하기 위한 블록도이다.
도 6은 콘텐츠 분류부의 동작을 설명한 흐름도이다.
도 7은 콘텐츠 분류부의 개체 인식 방법을 설명한 흐름도이다.
도 8은 본 발명의 실시예에 따른 플랫폼의 디지털 연표 생성 기능을 설명한 동작 흐름도이다.
도 9는 본 발명의 시스템에 의해 생성된 기초 디지털 연표의 예시이다.
도 10은 본 발명의 시스템에 의해 생성된 기초 디지털 연표의 다른 예시이다.
도 11은 기초 디지털 연표와 매핑되어 시각화되는 연관 콘텐츠 표시 화면의 예시이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템(1)의 개략적인 구성도이다. 도 2는 본 발명의 실시예에 따른 플랫폼(20)을 보다 구체적으로 나타낸 블록도이다.
도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 시스템은 전통문화 콘텐츠(10), 전통문화 융복합 지원을 위한 디지털 연표 표출 플랫폼(20)(이하, "플랫폼"), 및 사용자(30)를 포함한다.
전통문화 콘텐츠(10)는 유/무형 문화재, 기록문화유산, 박물관 소장 유산, 역사/인물 이야기 등의 전통문화 원형(11)으로 분류되는 콘텐츠를 포함할 수 있다. 또한, 전통문화 콘텐츠(10)는 한민족정보마당(www.kculture.or.kr), 문화콘텐츠닷컴(www.culturecontent.com), e-뮤지엄(www.emuseum.go.kr), 또는 한국역사통합정보시스템(www.koreanhistory.or.kr) 등과 같이 웹 페이지를 통해 열람 가능한 지식 콘텐츠(12)를 포함할 수 있다. 또한, 전통문화 콘텐츠(10)는 방송, 영화, 음악, 게임, 만화, 캐릭터, 에듀테인먼트, 인터넷 등을 통해 공개된 문화융복합콘텐츠(13)를 포함할 수 있다.
일 실시예에 따르면, 전통문화 콘텐츠(10)는 비정형 데이터와 정형 데이터로 구분된다. 비정형 데이터는 메타정보가 없는 형식이 정해지지 않은 데이터이다. 예를 들면, 비정형 데이터는 페이스북, 트위터 등의 소셜 네트워킹 서비스(SNS)를 통해 배포 또는 공유되는 비디오, 이미지, 오디오와 같은 데이터일 수 있다. 정형 데이터는 메타정보가 있는 형식이 정해진 데이터를 통칭하는 것으로, 예를 들면, 전통문화에 관련한 제목, 문화설명, 및 콘텐츠 ID 등을 의미한다.
플랫폼(20) 은 전통문화 콘텐츠(10) 정보를 수집하고, 수집된 정보에 기반하여, 전통문화 표준화 기능, 지능형 검색 기능, 콘텐츠 연관성 및 시공간 정보를 통한 검색의 확장 기능, 및 디지털 연표 생성 기능 등을 제공한다.
사용자(30)는, 일반적인 사용자, 협업 사용자, 및 전통문화 전문가 등을 포함한다.
도 2를 참조하면, 플랫폼(20)은 콘텐츠 수집 및 분류부(100), 데이터 저장부(200), 및 디지털 연표 생성부(300)를 포함한다.
콘텐츠 수집 및 분류부(100)는 콘텐츠 수집부(101)와 콘텐츠 분류부(102, 도 5 참조)로 구성된다. 콘텐츠 수집부(101)와 콘텐츠 분류부(102)는 외부 웹 사이트에서 공개된 복수의 콘텐츠를 수집하고, 수집된 복수의 콘텐츠를 분류하는 구성이다. 콘텐츠 수집부(101)는 외부 웹 사이트에서 공개된 복수의 콘텐츠를 수집하기 위하여 웹크롤러 방식을 이용할 수 있다. 콘텐츠 분류부(102)는 텍스트 분류(Text Classification) 알고리즘, 이미지 분류(Image Classification) 알고리즘 등을 이용해 텍스트나 이미지를 지정된 카테고리들로 분류한다. 지정된 카테고리들은, 예를 들면, 정치, 종교, 예술, 풍습, 의복, 춤, 또는 장례 등을 포함할 수 있다. 콘텐츠 분류부(102)는 텍스트 또는 이미지 형태인 콘텐츠의 구조를 분석하고, 분석된 구조를 기 저장된 고유번호 체계와 비교함으로써 전통문화 콘텐츠를 분류한다.
데이터 저장부(200)는 콘텐츠 수집 및 분류부(100)에 의해 분류된 콘텐츠를 저장하는 구성이다. 이러한 데이터 저장부(200)는 전통문화 관련 영상 콘텐츠, 이미지, 텍스트 콘텐츠 등의 비정형 콘텐츠를 정형화하고, 이를 기존의 정형 콘텐츠와 통합하여 저장하는 전통문화 콘텐츠 데이터 웨어하우스(CCDW(Cultural Contents Data Warehouse))로 정의된다. 이러한 데이터 저장부(200)는 각각의 카테고리별로 제각기 나뉘어지는 데이터베이스(DB)가 아니고, 통합된 형식으로 전통문화 콘텐츠를 저장하는 구성이다.
디지털 연표 생성부(300)는 수집 및 분류된 콘텐츠 데이터에 기반하여 디지털 연표를 자동으로 생성하는 구성이다. 디지털 연표 생성부(300)는 더블린코어(Dublin core)에 기반한 데이터 mapping을 통해 디지털 연표를 생성하고, 생성된 디지털 연표를 CCDW에 저장한다.
한편, 플랫폼(20)은 도시하지 않았지만, 지능형 검색 엔진을 더 포함할 수 있다.
지능형 검색 엔진은 사회연결망 분석 기법을 활용하여 행위자(창작)들의 관계 구조를 통해 특징을 밝혀내고 데이터간 관계를 추출/매핑하고 관련 콘텐츠들을 장르/시대 등의 조건에 따라 연결하고, 그 결과를 출력하는 구성이다. 예를 들면, 지능형 검색 엔진은 사용자로부터 질의를 수신하고, 수신된 질의에 기반한 검색 및 검색의 확장, 검색 결과의 출력 기능을 수행하는 구성이다. 검색의 확장은, 예를 들면, 질의된 콘텐츠에 연관한 다른 콘텐츠나, 관계 분석 등을 제공하는 기능을 의미한다. 이를 위해, 지능형 검색 엔진은 온톨로지(Ontology) 검색부, 키워드 분석부, 연관어 검색부, 및 시멘틱(Semantic) 검색부를 포함할 수 있다.
일 실시예에 따르면, 지능형 검색 엔진은 사용자로부터 수신된 질의로부터 키워드를 추출하는 키워드 추출 기능, 추출된 키워드와 연관된 연관어를 추출하는 연관어 추출 기능, 및 키워드와 연관어에 기반한 색인을 제공하는 키워드 및 연관어 색인 기능을 제공할 수 있다.
도 3은 콘텐츠 수집부(101)의 전통문화 콘텐츠 수집 방법을 설명하기 위한 개념도이다.
도 3을 참조하면, 콘텐츠 수집부(100)는 외부 Web 사이트에 공개된 비정형 콘텐츠를 수집하는 구성이다. 콘텐츠 수집부(100)는 게시판 형태로 공개된 콘텐츠를 스케쥴링을 통해 자동 수집하고, HTML 파싱 및 정제 작업을 통해 메타 속성들을 추출하고, 비정형 텍스트를 저장하도록 설정된다.
일반적으로, 정형화된 데이터를 제공할 수 있는 Open API로 제공되는 경우는 정확하게 데이터 연동을 할 수 있으나 일반적인 웹사이트의 경우는 Open API가 제공되어 있지 않고 게시판 같은 형태로 동적 데이터를 제공하고 있다. 콘텐츠 수집부(100)는 웹크롤러 방식을 이용하여 외부 데이터를 수집한다. 외부 데이터를 가져와서 사용하기 위해서는 WEB URL 호출을 통해 해당 게시물 콘텐츠를 가져와서 파싱하는 작업이 필요하고 파싱된 데이터를 DB 혹은 File System과 같은 Repository에 적재해야 한다. 그리고 해당 콘텐츠들은 계속 증가하거나 수정 혹은 삭제 등의 과정을 거치므로 주기적으로 해당 콘텐츠를 모니터링해서 가져와야 한다. 본 발명의 콘텐츠 수집부(100)는 이러한 전반적인 과정을 자동화하는 솔루션으로서 웹크롤러를 이용하여 웹 기반 UI를 통해 손쉽게 콘텐츠 수집을 할 수 있도록 구성되어 있다.
도 4는 콘텐츠 수집부(101)의 구성 블록도이다.
도 4를 참조하면, 콘텐츠 수집부(101)는 스케쥴 관리자(110), 저장소 관리자(120), 인증 관리자(130), 작업 관리자(140), 수집 모니터링 관리자(150), 수집 콘텐츠 관리자(160), 및 수집 통계 관리자(170)를 포함한다.
스케쥴 관리자(110)는 전통문화 콘텐츠를 수집하는 시각을 지정하는 구성이다. 예를 들면, 스케쥴 관리자(110)는 전통문화 콘텐츠를 수집하는 시각으로서, 일,시,분,초, 요일 등을 지정하도록 구성된다.
저장소 관리자(120)는 수집된 전통문화 콘텐츠를 저장하는 대상을 관리하는 구성이다. 저장소 관리자(120)는 DBMS 및 파일 시스템으로 대상을 설정하고 관리한다.
인증 관리자(130)는 사용자 관리 및 인증된 사용자를 확인하는 구성이다.
작업 관리자(140)는 스케쥴을 작업 단위로 관리하는 구성이다. 작업 관리자(140)는 관리되는 작업들을 그룹 단위로 관리할 수 있다.
수집 모니터링 관리자(150)는 수집 대상으로의 연결 정보, 수집 상황 등을 실시간으로 모니터링하는 구성이다.
수집 콘텐츠 관리자(160)는 수집된 콘텐츠를 조회하고 정제하는 구성이다.
수집 통계 관리자(170)는 수집 통계를 지정된 조건, 시간 별로 조회하는 구성이다.
이러한 콘텐츠 수집부(101)는, 전술한 바와 같이, 웹크롤러 기반으로 구성된 모듈일 수 있다. 웹크롤러 기반으로 구성된 콘텐츠 수집부(101)는 다음과 같은 다양한 기능을 제공할 수 있다.
- 수집 대상 사이트별 멀티스레드 지원
- 웹 상의 페이지 URL링크에 따라 기본적인 웹 문서 수집
- 웹 로봇 설정 시 최대 저장 문서 수를 지정하여 종료 가능
- 동작 상태(현재 수집 사이트/수집 문서 수 등)를 파악할 수 있는 방법을 제시
- 수집 및 추출 오류 시 그 내용을 확인할 수 있는 Log정보 제공
- 대상 게시판의 첨부 파일을 로컬에서 파일로 저장하거나 URL로 저장하도록 선택하는 기능
- 자체 설정 파일(configuration file)에서 정의한 치환 형태의 자바 스크립트 처리
- 사용자 인증 처리를 통한 사이트 접속 시 사용자 섹션 정보를 유지하기 위한 쿠키 저장 및 전송 기능
- 수집 문서를 지정된 디렉토리에 일괄 저장
- 수집설정에 의한 URL Link 자동 생성 기능
- 수집 대상 page 수를 설정하기 위해 seed URL로부터 링크 URL depth 수 만큼을 설정하는 기능
- 웹 상의 URL Link Depth 별 웹 page의 속성을 정의하는 기능
- www.domain.com == domain.com 등 동일한 패턴으로 URL을 처리하는 기능
- 수집 대상 seed URL에 동일한 pattern을 가지는 URL만을 설정하는 기능
- 수집하고자 하는 대상 정보를 수집설정파일(XML) 설정을 통해 DB 수집 처리
- 첨부 파일이 있는 웹 게시물의 경우, 첨부 파일의 내용을 수집해서 저장해 주는 기능
- 웹 상의 게시판 게시물을 추출하기 위해 HTML Table 분석 및 파싱
- 시스템 자원 활용을 위해 각 사이트 별로 수집된 대상정보를 thread pool에 저장하여 동작하는 기능
- 추출 대상 항목을 특정 포맷 형식으로 customizing하여 추출할 수 있도록 지원하는 기능
- 문맥 설정을 통해 페이지의 일부분을 스크랩하여 추출하는 기능
- 수집된 Context를 특정 대상 DBMS 스키마로 설정하여 저장하거나 연결하는 기능 (수집된 웹사이트, 카테고리 별로 서로 다른 DBMS 스키마로 저장할 수 있는 멀티 DBMS 기능 제공)
- 수집된 대상 정보를 가공할 수 잇는 extension 기능
- 수집한 대상 정보를 다양한 형태의 DBMS형태로 저장 및 설정하는 기능
- Connection pool을 통해 저장하는 기능
- 사용자가 지정하는 DB 테이블 스키마로 설정하여 저장할 수 있는 기능
- 수집 대상 사이트를 Group 별로 관리하고, 수집 주기(전체 수집 주기, 추가 수집 주기, 주기 설정 안함 등)를 설정하는 기능
- Group 별 게시판 별로 수집 설정 기능을 통해 사용자가 직접 수집할 수 있는 기능
- DB로 저장된 수집 데이터 확인 및 수정 기능
- 설정 정보 파일(XML)로 관리 함으로 설정 정보의 DB관리 기능
- 최근 수집 사이트 및 저장 건수 열람 기능
- 수집로그 및 히스토리를 조회하는 기능
- 날짜 별 그룹 별 로그를 확인하는 기능
- 수집 상황 모니터링 기능, 수집/추출 오류 확인 기능
- 이전에 수집했던 게시물에 새로 추가된 게시물만을 수집하는 기능
- 일별 수집 통계 정보 제공
- 로봇 타이머 기능(지정된 시간에 수집)
도 5는 콘텐츠 분류부(102)의 기능을 설명하기 위한 블록도이다. 도 6은 콘텐츠 분류부(102)의 동작을 설명한 흐름도이다.
도 5 및 도 6을 참조하면, 콘텐츠 분류부(102)는 크게 콘텐츠 분류 체계(210), 개체 인식(220), 비정형 오토태깅(230), 및 자동 분류(240) 기능을 수행하도록 구성된다.
단계 S10에서, 콘텐츠 분류부(102)는 콘텐츠 분류 체계(120)로서, 콘텐츠를 제목, 문화설명, 및 콘텐츠 ID와 같은 정형 데이터와, 비디오, 이미지, 오디오와 같은 비정형 데이터로 분류한다.
단계 S20에서, 콘텐츠 분류부(102)는 자동 분류(240)로서, 수집된 콘텐츠로부터 자질 추출(명사 추출)을 수행한다. 콘텐츠 분류부(102)는 수집된 콘텐츠의 텍스트를 가공하기 위해 문자 기호를 배제하며, 형태소 분석을 통해 명사를 추출한다.
명사를 추출하는 과정은 형태소 분석에 의해 각 문장이 가지고 있는 형태소를 분류하고 그 중 명사들을 추출하여 리스트를 작성하는 과정을 의미한다. 자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절의 모든 가능한 분석 결과를 출력하는 것을 의미한다. 형태소 분석 이란 형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것이다.
단계 S30에서, 콘텐츠 분류부(102)는 명사 추출을 이용하여 카테고리 후보군 리스트를 생성한다. 여기서, 각 콘텐츠는 텍스트로 부가 설명이 되어 있으며, 콘텐츠 분류부(102)는 설명에 포함되어 있는 키워드를 추출하기 위해 명사 추출을 이용하여 카테고리 후보군 리스트를 생성하게 된다.
콘텐츠 분류부(102)는 카테고리 후보군 리스트에서 특정한 단어가 자주 사용되는지 TF-IDF 가중치를 이용하여 빈도가 높은 핵심 카테고리 리스트를 선정한다.
TF-IDF(Term Frequency-Inverse Document Frequency) 가중치는 언어 자료 내의 특정 문서에서 어떤 단어의 중요도를 평가하기 위해 사용되는 통계적인 수치이다.
가중치 계산은 정보이론에 따라 정보량이 많은 단어에 중요도를 부여하고 계산TF(Term Frequency)-IDF(Inverse Document Frequency)를 사용한다.
Figure 112017119016820-pat00001
수학식 1은 TF-IDF 가중치 식을 설명하는 것으로,
Figure 112017119016820-pat00002
는 콘텐츠
Figure 112017119016820-pat00003
에서 출현한
Figure 112017119016820-pat00004
번째 단어의 가중치를 나타냄.
Figure 112017119016820-pat00005
는 콘텐츠
Figure 112017119016820-pat00006
에서
Figure 112017119016820-pat00007
번째 단어가 나타난 빈도를 콘텐츠
Figure 112017119016820-pat00008
에서 나타난 최대 빈도수로 정규화 한 값으로 0부터 1사이의 실수 값을 가지며,
Figure 112017119016820-pat00009
은 총 콘텐츠의 개수를 말하고,
Figure 112017119016820-pat00010
Figure 112017119016820-pat00011
번째 자질이 나타난 데이터의 수를 말한다.
단계 S40에서, 콘텐츠 분류부(102)는 핵심 카테고리 리스트를 다양한 분류기법(Naive Bayesian, SVM, CNN)을 적용하여 학습을 시키며 전통문화 콘텐츠 자동 분류 알고리즘을 적용한다. 예를 들면, 콘텐츠 분류부(102)는 TF-IDF를 거친 어휘 벡터를 통해 카테고리 별 텍스트 벡터를 생성한다. 콘텐츠 분류부(102)는 생성된 카테고리 별 텍스트 벡터를 SVM 알고리즘을 사용하여 분류 및 학습을 한다. SVM(Support Vector Machine)은 기계 학습 분야 중 하나로서, 데이터가 어느 카테고리에 속할지 판단하는 이진 선형 분류 모델이다.
대안적으로, 콘텐츠 분류부(102)는 Deep Learning의 종류 중 하나인 CNN(Convolutional Neural Network)을 이용하여 자질을 선정할 수 있다. CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용하는 방식이다.
단계 S50에서, 콘텐츠 분류부(102)는 새로운 전통문화 콘텐츠 데이터가 입력될 시 분류기법을 통해 학습된 전통문화 콘텐츠 자동분류 기술을 통해 통합된 데이터분류체계로 분류한다.
도 7은 콘텐츠 분류부(102)의 개체 인식 방법을 설명한 흐름도이다.
도 7을 참조하면, 콘텐츠 분류부(102)는 텍스트 데이터 개체를 인식함에 있어서, 문자열 검색에 빠르고 우수한 성능을 보이는 Boyer-Moore와 Knuth-Morris-Pratt 2가지 알고리즘을 이용한다.
구체적으로, 콘텐츠 분류부(102)가 전통문화의 고유명사개체 인식을 위한 인식 대상의 데이터 종류는 텍스트(71), 이미지(72), 비디오(73)로 총 3가지로 구분된다.
콘텐츠 분류부(102)는 인식 대상인 텍스트(71)를 텍스트 검색 알고리즘을 적용하여, 추출된 텍스트와 저장된 데이터(예: 고유 코드)를 교차 검증을 수행한다. 콘텐츠 분류부(102)는 텍스트의 교차 검증이 완료되면 고유명사개체로 분류한다.
콘텐츠 분류부(102)는 인식 대상인 이미지(72)를 포착 및 인식하고, 이미지 캡셔닝 알고리즘을 적용하여 이미지로부터 텍스트를 변환 및 추출한다. 콘텐츠 분류부(102)는 변환된 텍스트에 대하여 인식 대상인 텍스트(71)와 동일한 알고리즘을 적용하여 고유명사개체로 분류한다.
콘텐츠 분류부(102)는 인식 대상인 비디오(73)로부터 특정 키 프레임을 추출하는 알고리즘을 수행하고, 키 프레임이 추출되면 해당 키 프레임에 대하여 이미지 캡셔닝 알고리즘을 적용하여 텍스트럴 변환 및 추출하거나, 비디오의 색 히스토그램 알고리즘을 적용하여 추출된 벡터 성분과 저장된 데이터를 교차검증을 수행하여 고유명사개체로 분류한다.
도 8은 본 발명의 실시예에 따른 플랫폼(20)의 디지털 연표 생성 기능을 설명한 동작 흐름도이다. 도 9는 본 발명의 시스템에 의해 생성된 기초 디지털 연표의 예시이다. 도 10은 본 발명의 시스템에 의해 생성된 기초 디지털 연표의 다른 예시이다. 도 11은 기초 디지털 연표와 매핑되어 시각화되는 연관 콘텐츠 표시 화면의 예시이다. 이하, 도 8 내지 도 11을 결부하여 본 발명의 실시예에 따른 플랫폼(20)의 디지털 연표 생성 기능을 설명한다.
단계 S401에서, 디지털 연표 생성부(300)는 콘텐츠 수집 및 분류부(100)를 통해 디지털 연표를 생성하기 위한 전통문화 콘텐츠를 수집한다.
단계 S402에서, 디지털 연표 생성부(300)는 데이터 저장부(200)의 CCDW에 매핑되도록 수집된 콘텐츠를 적재한다.
단계 S403에서, 디지털 연표 생성부(300)는 전통문화 콘텐츠의 특성 중에서 시간 데이터를 추출하고, 추출된 시간 데이터에 기반하여 기초 디지털 연표를 생성한다. 예를 들면, 디지털 연표 생성부(300)는 일 또는 주간 배치를 통해 연표 데이터 추출하여 연표작성 프로세스 진행한다. 일 실시예에 따르면, 도 9에 도시된 바와 같이, 기초 디지털 연표(601)는 연대, 시대, 국가, 및 사건 의 기준에 따라 시간순으로 세로 방향으로 정렬된 표로 생성될 수 있다. 다른 실시예에 따르면, 도 10에 도시된 바와 같이, 기초 디지털 연표(602)는 연대, 시대, 국가, 및 사건 의 기준에 따라 시간순으로 가로 방향으로 정렬된 표로 생성될 수 있다. 또한, 기초 디지털 연표(602)는 고대, 삼국시대, 남북국시대, 고려시대, 조선시대, 근현대와 같이 시대별로 선택하여 연표를 열람할 수 있도록 제공될 수 있다.
단계 S404에서, 디지털 연표 생성부(300)는 시간 데이터와 콘텐츠 연결망 분석에 따라 디지털연표와 콘텐츠 매핑을 수행한다. 콘텐츠 매핑은 자동 매핑 방식으로 수행될 수 있다. 대안적으로, 디지털 연표 생성부(300)는 전문가 또는 사용자의 참여를 통한 콘텐츠 매핑의 수정이 가능하도록 설정될 수 있다.
단계 S405에서, 디지털 연표 생성부(300)는 기초 디지털 연표와 매핑된 콘텐츠들을 시각화 하여 출력한다. 이때, 사용자에게 제공되는 디지털연표는 타임라인에 콘텐츠를 mapping 하여 출력된다. 예를 들면, 도 11에 도시된 바와 같이, 디지털 연표 생성부(300)는 콘텐츠가 사용자로부터 선택되면 콘텐츠 관계 분석을 통해 제공되는 콘텐츠 맵(603)을 제공하도록 설정된다. 대안적으로, 디지털 연표 생성부(300)는 콘텐츠가 사용자로부터 선택되면 해당 콘텐츠 페이지로 이동하도록 설정될 수 도 있다.
이상, 전술한 바와 같이, 본 발명의 다양한 실시 예에 따른 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템으로는, 전통문화콘텐츠 분류체계를 수립하여 디지털 연표 표출 시스템을 자동으로 표출함으로써, 정보 이용자에게 체계적인 분류 및 검색 기능을 제공함과 아울러 전통문화 융복합 서비스를 제공할 수 있다.
상기에서는 본 발명을 특정의 바람직한 일 실시예에 관련하여 도시하고 설명하였지만, 이하의 특허청구범위에 의해 마련되는 본 발명의 기술적 특징이나 분야를 이탈하지 않는 한도 내에서 본 발명이 다양하게 개조 및 변화될 수 있다는 것은 당업계에서 통상의 지식을 가진 자에게 명백한 것이다.
10: 전통문화 콘텐츠
20: 전통문화 융복합 지원을 위한 지능형 검색 플랫폼
30: 디지털 연표 생성부

Claims (5)

  1. 전통문화 관련 영상 콘텐츠, 이미지, 및 텍스트 콘텐츠의 비정형 콘텐츠를 정형화하고, 정형화된 콘텐츠를 기존의 정형 콘텐츠와 통합하여 저장하는 전통문화 콘텐츠 데이터 웨어하우스(CCDW(Cultural Contents Data Warehouse))로 정의되는 데이터 저장부를 포함하고, 외부 장치에서 공개된 복수의 전통문화 콘텐츠를 수집하는 기능, 수집된 전통문화 콘텐츠를 분류 및 저장하는 기능, 저장된 전통문화 콘텐츠에 기반하여, 디지털 연표를 자동으로 생성하는 기능을 제공하고,
    상기 디지털 연표를 생성하는 기능은, 각 전통 문화 사이트를 통해 정형, 비정형 데이터를 수집하는 동작, 상기 데이터 저장부의 상기 전통문화 콘텐츠 데이터 웨어하우스(CCDW(Cultural Contents Data Warehouse))에 매핑되도록 수집된 콘텐츠를 적재하는 동작, 전통문화 콘텐츠의 특성 중에서 시간 데이터를 추출하고, 추출된 시간 데이터에 기반하여 기초 디지털 연표를 생성하는 동작, 시간 데이터와 콘텐츠 연결망 분석에 따라 디지털연표와 콘텐츠 매핑을 수행하는 동작, 및 기초 디지털 연표와 매핑된 콘텐츠들을 시각화 하여 출력하는 동작을 포함하고,
    상기 기초 디지털 연표와 매핑된 콘텐츠는 콘텐츠 관계 분석을 통해 제공되는 콘텐츠 맵을 포함하며,
    사회연결망 분석 기법을 활용하여 행위자(창작)들의 관계 구조를 통해 특징을 밝혀내고 데이터간 관계를 추출 및 매핑하고 관련 콘텐츠들을 장르 및 시대의 조건에 따라 연결하고, 그 결과를 출력하는 지능형 검색 엔진을 포함하는,
    전통문화 융복합 지원을 위한 디지털 연표 표출 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 전통문화 콘텐츠를 수집 및 분류하는 기능은,
    각 전통 문화 사이트를 통해 정형, 비정형 데이터를 수집하는 동작,
    정형, 비정형 데이터의 키워드 추출하기 위해 명사 추출을 이용하여 후보군 카테고리를 생성하는 동작,
    카테고리 후보군 리스트에서 특정한 단어가 자주 사용되는지 지정된 가중치 알고리즘을 이용하여 빈도가 높은 핵심 카테고리 리스트를 선정하는 동작, 및
    상기 핵심 카테고리 리스트에 대하여 지정된 분류 알고리즘을 적용 및 학습하여 분류하는 동작을 포함하는,
    전통문화 융복합 지원을 위한 디지털 연표 표출 시스템.
  4. 제3항에 있어서,
    상기 지정된 가중치 알고리즘은 아래 수식에 기반한 TF-IDF(Term Frequency-Inverse Document Frequency) 가중치 알고리즘인, 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템.
    Figure 112017119016820-pat00012

    상기 수식에서,
    Figure 112017119016820-pat00013
    는 콘텐츠
    Figure 112017119016820-pat00014
    에서 출현한
    Figure 112017119016820-pat00015
    번째 단어의 가중치를 나타냄.
    Figure 112017119016820-pat00016
    는 콘텐츠
    Figure 112017119016820-pat00017
    에서
    Figure 112017119016820-pat00018
    번째 단어가 나타난 빈도를 콘텐츠
    Figure 112017119016820-pat00019
    에서 나타난 최대 빈도수로 정규화 한 값으로 0부터 1사이의 실수 값을 가지며,
    Figure 112017119016820-pat00020
    은 총 콘텐츠의 개수를 말하고,
    Figure 112017119016820-pat00021
    Figure 112017119016820-pat00022
    번째 자질이 나타난 데이터의 수를 말한다.
  5. 제3항에 있어서,
    상기 지정된 분류 알고리즘은
    Naive Bayesian, SVM(Support Vector Machine), CNN(Convolutional Neural Network) 알고리즘 중에서 어느 하나인,
    전통문화 융복합 지원을 위한 디지털 연표 표출 시스템.
KR1020170161434A 2017-11-29 2017-11-29 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템 KR101864401B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170161434A KR101864401B1 (ko) 2017-11-29 2017-11-29 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170161434A KR101864401B1 (ko) 2017-11-29 2017-11-29 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템

Publications (1)

Publication Number Publication Date
KR101864401B1 true KR101864401B1 (ko) 2018-06-04

Family

ID=62628426

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170161434A KR101864401B1 (ko) 2017-11-29 2017-11-29 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템

Country Status (1)

Country Link
KR (1) KR101864401B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101984937B1 (ko) 2018-11-28 2019-09-03 주식회사 피씨엔 전통문화 3d 디지털 연표 표출 시스템
KR20200127946A (ko) * 2018-05-31 2020-11-11 주식회사 마인즈랩 문장, 문서 특징값 및 문장 가중치 간의 상관관계를 학습한 인공 신경망에 의해 생성된 설명이 부가된 문서 분류 방법
KR20210085746A (ko) 2019-12-31 2021-07-08 주식회사 피씨엔 목록형 연표 기반의 사용자 맞춤형 콘텐츠 큐레이션 시스템
KR20210085815A (ko) 2019-12-31 2021-07-08 주식회사 피씨엔 시계열형 연표 기반의 사용자 맞춤형 콘텐츠 큐레이션 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080044178A (ko) * 2006-11-15 2008-05-20 소니 가부시끼 가이샤 콘텐츠의 필터링 방법, 필터링 장치 및 필터링 프로그램을기록한 기록 매체
KR20100067731A (ko) * 2008-12-12 2010-06-22 전북대학교산학협력단 디지털연표
KR20120092532A (ko) * 2012-06-11 2012-08-21 한상대 웹사이트를 이용한 연대기의 능동적 비교 시스템
KR20130020419A (ko) * 2011-08-19 2013-02-27 주식회사 케이티 온라인 콘텐츠 종합 관리 시스템
KR101363335B1 (ko) * 2012-09-19 2014-02-19 숭실대학교산학협력단 문서 분류모델 생성장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080044178A (ko) * 2006-11-15 2008-05-20 소니 가부시끼 가이샤 콘텐츠의 필터링 방법, 필터링 장치 및 필터링 프로그램을기록한 기록 매체
KR20100067731A (ko) * 2008-12-12 2010-06-22 전북대학교산학협력단 디지털연표
KR101045850B1 (ko) 2008-12-12 2011-07-01 전북대학교산학협력단 웹사이트를 통한 디지털 연표(年表) 제공장치
KR20130020419A (ko) * 2011-08-19 2013-02-27 주식회사 케이티 온라인 콘텐츠 종합 관리 시스템
KR20120092532A (ko) * 2012-06-11 2012-08-21 한상대 웹사이트를 이용한 연대기의 능동적 비교 시스템
KR101363335B1 (ko) * 2012-09-19 2014-02-19 숭실대학교산학협력단 문서 분류모델 생성장치 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200127946A (ko) * 2018-05-31 2020-11-11 주식회사 마인즈랩 문장, 문서 특징값 및 문장 가중치 간의 상관관계를 학습한 인공 신경망에 의해 생성된 설명이 부가된 문서 분류 방법
KR102264233B1 (ko) 2018-05-31 2021-06-14 주식회사 마인즈랩 문장, 문서 특징값 및 문장 가중치 간의 상관관계를 학습한 인공 신경망에 의해 생성된 설명이 부가된 문서 분류 방법
KR101984937B1 (ko) 2018-11-28 2019-09-03 주식회사 피씨엔 전통문화 3d 디지털 연표 표출 시스템
KR20210085746A (ko) 2019-12-31 2021-07-08 주식회사 피씨엔 목록형 연표 기반의 사용자 맞춤형 콘텐츠 큐레이션 시스템
KR20210085815A (ko) 2019-12-31 2021-07-08 주식회사 피씨엔 시계열형 연표 기반의 사용자 맞춤형 콘텐츠 큐레이션 시스템

Similar Documents

Publication Publication Date Title
US10592310B2 (en) System and method for detecting, collecting, analyzing, and communicating event-related information
US10963513B2 (en) Data system and method
Kejriwal et al. Knowledge graphs: Fundamentals, techniques, and applications
US9613149B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
US20150095303A1 (en) Knowledge Graph Generator Enabled by Diagonal Search
US8135669B2 (en) Information access with usage-driven metadata feedback
US20160162476A1 (en) Methods and systems for modeling complex taxonomies with natural language understanding
KR101864401B1 (ko) 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템
Koho et al. WarSampo knowledge graph: Finland in the second world war as linked open data
US20140279622A1 (en) System and method for semantic processing of personalized social data and generating probability models of personal context to generate recommendations in searching applications
KR101984937B1 (ko) 전통문화 3d 디지털 연표 표출 시스템
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
US9245010B1 (en) Extracting and leveraging knowledge from unstructured data
US10579734B2 (en) Web-based influence system and method
Hella et al. A structured evaluation to assess the reusability of models of user profiles
KR20150096024A (ko) 콘텐츠 추천을 위한 소셜 데이터 분석 시스템
Méndez et al. Metadata typology and metadata uses
KR102682244B1 (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버
Chicaiza et al. Usage of social and semantic web technologies to design a searching architecture for software requirement artefacts
Angele et al. Semantic Web empowered E-tourism
KR101132974B1 (ko) 멀티모달 소셜 네트워크의 온톨로지 구축 장치 및 방법
Musabeyezu Comparative study of annotation tools and techniques
CN113254796A (zh) 网络物件标签管理方法与***
KR102434880B1 (ko) 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템
Vassilakis et al. Database knowledge enrichment utilizing trending topics from Twitter

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant