KR102470731B1

KR102470731B1 - 온톨로지를 이용한 데이터셋 제공 방법 및 장치

Info

Publication number: KR102470731B1
Application number: KR1020210096184A
Authority: KR
Inventors: 황윤영; 신수미; 육진희; 문영수; 손지성; 최기석
Original assignee: 한국과학기술정보연구원
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2022-11-25

Abstract

온톨로지를 이용한 데이터셋 제공 방법 및 장치가 제공 된다. 본 발명의 일 실시예에 따른 온톨로지를 이용한 데이터셋 제공 방법은 복수의 프로세스, 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축하되, 각 프로세스가 하나 이상의 분류 정보에 연결되고 각 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축하는 단계와, 질의를 수신하고, 상기 질의에 포함된 하나 이상의 키워드를 식별하는 단계와, 상기 식별된 키워드와 관련된 프로세스를 식별하고, 상기 식별된 프로세스에 연결된 분류 정보들 중에서 상기 키워드와 관련된 분류 정보를 식별하는 단계와, 상기 온톨로지에 포함된 데이터셋 중에서, 상기 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로서 제공하는 단계를 포함할 수 있다.

Description

온톨로지를 이용한 데이터셋 제공 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING DATASET USING ONTOLOGY}

본 발명은 연관 데이터셋 제공 방법에 관한 것이다. 보다 자세하게는, 복수의 데이터셋을 포함하는 온톨로지를 이용하여 질의에 부합하는 데이터셋을 제공하는 방법 및 장치에 관한 것이다.

빅 데이터는 디지털 환경에서 생성되는 규모가 방대한 데이터로 정의할 수 있으며, 위치 데이터, 영상 데이터, 전자 상거래 데이터 등을 포함할 수 있다. 이러한 빅 데이터를 분석하면, 유의미한 동향, 해결 방안 등을 획득할 수가 있어서, 빅 데이터에 분석과 활용에 대한 연구가 활발하게 진행되고 있다. 즉, 빅 데이터를 이용하여, 사회 현황을 예측하거나, 해결 방안 모색하거나, 질병을 예측하는 등의 기술이 연구되고 있다.

이러한 빅 데이터를 이용하여, 결론을 도출하거나 추론하기 위해서는, 빅 데이터에 포함된 데이터의 전처리가 선행되어야 한다. 그런데 빅 데이터의 전처리는 노동력과 비용이 많이 발생한다. 부연하면, 빅 데이터 전처리는 이기종 데이터의 연계 처리, 데이터의 정제 및 데이터 분류 등을 포함할 수 있으며, 이러한 데이터 전처리는 대부분이 수작업으로 이루어지고 있을 뿐만 아니라, 데이터 전처리에 대한 비용이 많이 발생한다. 빅 데이터의 활용에 투입되는 노력 중에서 80%가 데이터 전처리에 투입된다는 통계도 있다.

한편, 빅 데이터 전처리가 완료된다고 하더라도, 빅 데이터에 포함된 데이터셋 중에서 필요한 데이터셋을 선별하기 위한 작업이 추가로 필요하다. 예를 들어, 전처리가 완료된 빅 데이터에 포함된 데이터셋들 중에서, 사용자는 분석에 필요한 데이터셋 만을 선별하고, 선별된 데이터셋을 이용하여 분석 작업을 수행할 수 있다. 그런데 이러한 필요 데이터의 선별 작업은, 일반 사용자들에게 용이하지 않을 뿐만 아니라, 많은 필요도 필요하다

한국공개특허 제10-2020-0095593호 (2020.08.11 공개)

본 발명이 해결하고자 하는 기술적 과제는, 비용을 절감하고 편의성이 극대화하되도록, 전처리 완료된 빅 데이터에 포함된 데이터셋들 중에서 필요 데이터를 선별하여 제공하는 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는, 데이터 전처리 비용을 절감하여 온톨로지를 구축하는 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 기술적 과제는, 데이터를 연계하고 데이터의 활용 가치를 극대화하는 방법 및 장치를 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 온톨로지를 이용한 데이터셋 제공 방법은, 복수의 프로세스, 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축하되, 각 프로세스가 하나 이상의 분류 정보에 연결되고 각 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축하는 단계와, 질의를 수신하고, 상기 질의에 포함된 하나 이상의 키워드를 식별하는 단계와, 상기 식별된 키워드와 관련된 프로세스를 식별하고, 상기 식별된 프로세스에 연결된 분류 정보들 중에서 상기 키워드와 관련된 분류 정보를 식별하는 단계와, 상기 온톨로지에 포함된 데이터셋 중에서, 상기 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로서 제공하는 단계를 포함할 수 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 온톨로지 구축 방법은, 복수의 프로세스 및 복수의 분류 정보를 포함하며 각 프로세스가 하나 이상의 분류 정보와 연결된 온톨로지를 저장하는 단계와, 데이터셋을 수집하는 단계와, 상기 수집된 데이터셋과 각 분류 정보 간의 연관 관계를 연산하는 단계와, 상기 연산된 연관 관계의 강도에 이용하여, 상기 수집된 데이터셋을 하나 이상의 분류 정보와 연결하는 단계를 포함할 수 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서와, 상기 프로세서에 의하여 수행되는 프로그램을 로드(load)하는 메모리와, 상기 프로그램이 저장된 스토리지를 포함하되, 상기 프로그램은 복수의 프로세스, 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축하되, 각 프로세스가 하나 이상의 분류 정보에 연결되고 각 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축하는 동작과, 질의를 수신하고, 상기 질의에 포함된 하나 이상의 키워드를 식별하는 동작과, 상기 식별된 키워드와 관련된 프로세스를 식별하고, 상기 식별된 프로세스에 연결된 분류 정보들 중에서 상기 키워드와 관련된 분류 정보를 식별하는 동작과, 상기 온톨로지에 포함된 데이터셋 중에서, 상기 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로서 제공하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함할 수 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 또 른 실시예에 따른 명령어를 포함하는 컴퓨터 판독 가능한 비일시적 저장 매체는, 상기 명령어는 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 복수의 프로세스, 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축하되, 각 프로세스가 하나 이상의 분류 정보에 연결되고 각 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축하는 단계와, 질의를 수신하고, 상기 질의에 포함된 하나 이상의 키워드를 식별하는 단계와, 상기 식별된 키워드와 관련된 프로세스를 식별하고, 상기 식별된 프로세스에 연결된 분류 정보들 중에서 상기 키워드와 관련된 분류 정보를 식별하는 단계와, 상기 온톨로지에 포함된 데이터셋 중에서, 상기 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로서 제공하는 단계를 포함하는 동작들을 수행하도록 할 수 있다.

도 1은 본 발명의 일 실시예에 따른, 데이터셋 추천 장치의 블록도이다.
도 2는 본 발명의 다른 실시예에 따른, 온톨로지를 이용한 데이터셋 제공 방법의 순서도이다.
도 3은 질의 입력을 예시하는 도면이다.
도 4는 도 2의 단계 S200을 자세하게 설명하기 위한 도면이다.
도 5는 위치 정보를 획득하기 위한 온톨로지를 예시하는 도면이다.
도 6은 도 2의 단계 S300을 자세하게 설명하기 위한 도면이다.
도 7은 재난 관련 온톨로지의 개념을 예시하는 도면이다.
도 8은 재난 관련 온톨로지를 예시하는 도면이다.
도 9는 도 2의 단계 S500을 자세하게 설명하기 위한 도면이다.
도 10은 다양한 실시예에서 컴퓨팅 장치를 구현할 수 있는 예시적인 하드웨어 구성도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

본 명세서에서 데이터셋(data set)은 컴퓨터 장치에서 사용될 수 있는 데이터의 집합체일 수 있다.

이하, 도면들을 참조하여 본 발명의 몇몇 실시예들을 설명한다.

도 1은 본 발명의 일 실시예에 따른, 데이터셋 추천 장치의 블록도이다.

도 1을 참조하면, 데이터셋 관리 장치(10)는 데이터 수집부(11), 원본 데이터셋 저장부(12), 공통 데이터셋 저장부(13), 공통 데이터셋 구축부(14), 온톨로지 구축부(15), 질의 수신부(16) 및 데이터셋 추천부(17)를 포함할 수 있으며, 이러한 구성요소들은 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합을 통해서 구현될 수 있다. 상기 데이터셋 관리 장치(10)는 후술하는 바와 같이, 메모리와 프로세서를 포함하는 컴퓨팅 장치로 구현될 수 있다.

원본 데이터셋 저장부(12)는 스토리지와 같은 저장 수단으로서, 가공 처리되지 않은 다수의 원본 데이터셋을 저장할 수 있다.

공통 데이터셋 저장부(13)는 스토리지와 같은 저장 수단으로서, 필요 데이터만을 포함한 공통 데이터셋을 저장할 수 있다. 부연하면, 공통 데이터셋 저장부(13)에 저장된 공통 데이터셋은, 원본 데이터셋에 포함된 데이터들 중에서 선별된 필요 데이터를 포함할 수 있다.

데이터 수집부(11)는 외부의 장치 또는 데이터베이스로부터 데이터셋을 수집하여 원본 데이터셋 저장부(12)에 저장할 수 있다. 데이터 수집부(11)는 다수의 데이터셋을 포함하는 빅 데이터를 수집할 수 있다. 상기 빅 데이터는 공공기관으로부터 획득되는 공공 데이터를 포함할 수 있다. 상기 데이터셋은, 데이터셋의 제목, 하나 이상의 항목과 메타 데이터, 시간 정보 및 위치 정보를 포함할 수 있다. 여기서, 데이터셋의 제목은 데이터셋을 식별하기 위한 정보로서, 상기 데이터셋에 부여된 이름일 수 있다. 또한, 항목은 데이터가 기록되는 필드에 대한 제목으로서, 강수량, 강우량, 미세먼지 농도, 초미세먼지 농도, 이산화탄소 농도, 오존 농도, 교통량, 온도, 습도, 풍향, 풍속, 유속, 수문량 등일 수 있다. 또한, 메타 데이터는, 데이터셋을 설명하기 위한 데이터로서, 데이터셋의 제공 기관명, 데이터셋의 키워드, 데이터셋의 분류체계, 데이터셋의 설명 문구 중에서 하나 이상을 포함할 수 있다. 또한, 시간 정보는 데이터셋이 생성되는 일시이거나, 데이터셋이 수집되기까지의 소요된 시간범위일 수 있다. 또한, 위치 정보는 데이터셋이 수집된 장소 정보일 수 있다. 상기 위치 정보는 위경도 좌표, 행정 주소 등을 포함할 수 있다.

공통 데이터셋 구축부(14)는 원본 데이터셋 저장부(12)에 저장된 데이터셋에서 필요한 항목들만을 추출하고, 추출된 항목들만을 포함하는 공통 데이터셋을 공통 데이터셋 저장부(13)에 저장할 수 있다. 공통 데이터셋 구축부(14)는 원본 데이터셋 저장부(12)에 저장된 원본 데이터셋의 시간 정보, 위치 정보, 기관명, 항목명 중에서 하나 이상을 표준 포맷(또는 표준 명칭)으로 변경하여, 그 변경된 시간 정보, 위치 정보, 기관명, 항목명 중에서 하나 이상을 포함하는 공통 데이터셋을 공통 데이터셋 저장부(13)에 저장할 수 있다.

온톨로지 구축부(15)는 복수의 프로세스, 각 프로세스 중에서 하나 이상에 속하는 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축할 수 있다. 여기서, 프로세스는 온톨로지에서의 데이터셋의 대분류를 나타내는 것으로서, 육하원칙에 따른 어느 한 요소에 해당할 수 있다. 또한, 분류 정보는 데이터셋을 분류하고 연결하기 위한 것으로서, 시간, 위치, 데이터 유형 등 중에서 어느 하나에 기초하여 속성이 정의될 수 있다. 온톨로지 구축부(15)는 프로세스가 하나 이상의 분류 정보에 연결되고 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축할 수 있다. 온톨로지 구축하는 구체적인 방법은 도 6 내지 도 8을 참조하여, 자세하게 설명하기로 한다.

질의 수신부(16)는 사용자 단말로부터 질의를 수신할 수 있다. 상기 질의에는 육하원칙에 속하는 6가지 요소 중에서 하나 이상의 요소를 포함할 수 있다. 질의 수신부(16)는 육하원칙에 속하는 6가지 요소를 입력할 수 있는 인터페이스를 통해서 입력된 질의를, 사용자 단말로부터 수신할 수 있다.

데이터셋 추천부(17)는 상기 질의에 포함된 하나 이상의 키워드를 식별하고, 식별된 키워드와 대응되는 프로세스와 분류 정보를 온톨로지에서 식별한 후, 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로 추천할 수 있다. 데이터셋 추천부(17)는 추천된 하나 이상의 데이터셋을 사용자에게 제공할 수 있다. 데이터셋 추천부(17)는 상기 키워드로서, 육하원칙에 속하는 요소를 질의에서 식별할 수 있다.

이하 도 2 내지 도 9를 참조하여, 온톨로지를 이용하여 데이터셋을 제공하는 방법에 대해서 설명한다.

도 2는 본 발명의 다른 실시예에 따른, 온톨로지를 이용한 데이터셋 제공 방법의 순서도이다.

도 2에 도시된 방법의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 본 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 본 방법에 포함되는 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 본 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수 있다. 이하에서는, 본 방법의 각 단계가 도 1을 참조하여 설명한 데이터셋 관리 장치(10)에 의해 수행되는 것을 가정하여 설명을 이어가도록 하되, 각 단계의 수행 주제는 단지 예시일 뿐, 본 발명이 이하의 설명에 의해 한정되는 아니며, 설명의 편의를 위해 상기 방법에 포함되는 일부 단계의 동작 주제는 그 기재가 생략될 수도 있다.

도 2를 참조하면, 데이터 수집부(11)는 외부의 서버 또는 장치와 연동하여, 다수의 데이터셋을 포함하는 빅 데이터를 수집하고, 상기 다수의 데이터셋을 원본 데이터셋 저장부(12)에 저장할 수 있다(S100). 일 실시예에서, 데이터 수집부(11)는 빅 데이터를 수집할 수 있는 외부 서버의 주소를 미리 입력받을 수 있으며, 상기 주소에 해당하는 서버에 접근하여 빅 데이터를 수집할 수 있다. 또한, 데이터 수집부(11)는 데이터셋의 인덱스(index)를 할당한 후, 상기 인덱스를 포함하는 데이터셋을 원본 데이터셋 저장부(12)에 저장할 수 있다.

이어서, 공통 데이터셋 구축부(14)는 원본 데이터셋 저장부(12)에서 저장된 원본 데이터셋의 포함된 항목들 중에서, 분석에 필요한 항목들만을 추출하고, 이렇게 추출된 항목들만을 포함하는 공통 데이터셋을 공통 데이터셋 저장부(13)에 저장함으로써, 공통 데이터셋을 구축할 수 있다(S200). 즉, 공통 데이터셋 구축부(14)는 원본 데이터셋에 포함된 항목들 중에서, 분석에 이용될 수 있는 항목들의 선별하여 공통 데이터셋을 생성할 수 있다. 일 실예에서, 공통 데이터셋 구축부(14)는 원본 데이터셋의 시간 정보, 위치 정보, 기관명, 항목명 중에서 하나 이상을 표준 포맷(또는 표준 명칭)으로 변경하여, 그 변경된 시간 정보, 위치 정보, 기관명, 항목명 중에서 하나 이상을 포함하는 공통 데이터셋을 공통 데이터셋 저장부(13)에 저장할 수 있다. 공통 데이터셋을 구축하는 단계 S200에 대해서는 도 4 및 도 5를 참조하여 보다 자세하게 설명하기로 한다.

다음으로, 온톨로지 구축부(15)는 공통 데이터셋 저장부(13)에 포함된 복수의 공통 데이터셋, 복수의 프로세스 및 복수의 분류 정보를 포함하는 온톨로지를 구축할 수 있다(S300). 프로세스에는 하나 이상의 분류 정보가 연결될 수 있고, 공통 데이터셋은 하나 이상의 분류 정보와 연결될 수 있다. 상기 프로세스와 분류 정보는 관리자 또는 개발자에 의해서 사전에 입력될 수 있으며, 온톨로지 구축부(15)는 공통 데이터셋과 각 분류 정보 간의 연관 관계를 분석하여, 분석된 연관 관계를 이용하여 공통 데이터셋을 하나 이상의 분류 정보와 연결할 수 있다. 상기 연관 관계는 위치 기반의 연관 관계, 시간 기반의 연관 관계, 기관명 기반의 연관 관계, 유형 기반의 연관 관계, 대응 방안(해결책) 기반의 연관 관계 및 원인 기반의 연관 관계를 포함할 수 있다. 온톨로지가 구축되는 단계 S300에 대해서는 도 6 내지 도 8을 참조하여 보다 구체적으로 설명하기로 한다.

이어서, 질의 수신부(16)는 사용자로부터 질의를 입력받을 수 있다(S400). 일 실시예에서, 질의 수신부(16)는 육하원칙에 따른 6가지 질의 요소를 입력할 수 있는 인터페이스를 통해서, 육하원칙에 해당하는 6가지 요소 중에서 하나 이상을 포함하는 질의를 사용자로부터 입력 받을 수 있다.

도 3은 질의 입력을 예시하는 도면으로서, 도 3에 예시된 바와 같이 육하원칙에 따른 질의를 사용자로부터 입력 받을 수 있다.

다음으로, 데이터셋 추천부(17)는 상기 질의에서 키워드를 식별하고, 키워드와 매칭되는 분류 정보를 식별한 후, 식별된 분류 정보와 연결된 데이터셋을 사용자에게 추천 데이터셋으로서 제공할 수 있다(S500). 질의와 관련된 데이터셋을 제공하는 단계 S500는 도 9를 참조하여 자세하게 설명한다.

이하, 도 4를 참조하여, 도 2의 단계 S200에 대해서 자세하게 설명한다.

도 4를 참조하면, 공통 데이터셋 구축부(14)는 원본 데이터셋으로부터 분석 대상에 필요한 하나 이상의 항목명, 기관명, 메타데이터, 시간정보 및 위치정보를 포함하는 공통 데이터셋을 추출할 수 있다.

이어서, 공통 데이터셋 구축부(14)는 상기 추출한 공통 데이터셋에서 하나 이상의 항목명을 식별할 수 있다(S205). 다음으로, 공통 데이터셋 구축부(14)는 식별한 항목명이 사전에 설정된 표준 항목명인지 여부를 판정할 수 있다(S210). 상기 표준 항목명은 사전에 설정될 수 있으며, 또한 표준 항목명과 유사한 하나 이상의 명칭이 사전에 매핑되어 저장될 수 있다. 예컨대, "미세먼지 농도"이라는 표준 항목명과 유사 단어로 "대기중 먼지 농도", "대기 먼지 농도", "부유 먼지 농도" 등이 매핑되어 있을 수 있다.

상기 식별한 항목명이 표준 항목 명칭이 아니라는 것에 응답하여, 공통 데이터셋 구축부(14)는 상기 식별한 항목명을 표준 항목명으로 변경할 수 있다(S215). 예를 들어, 식별한 항목명이 비표준 항목명인 "대기중 먼지 농도"인 경우, "대기중 먼지 농도"를 상기 "대기중 먼지 농도"와 매핑된 표준 항목명인 "미세먼지 농도"로 변경할 수 있다.

다음으로, 공통 데이터셋 구축부(14)는 상기 공통 데이터셋에서 포함된 기관명을 식별할 수 있다(S220). 공통 데이터셋 구축부(14)는 식별한 기관명이 사전에 설정된 표준 기관명인지 여부를 판정할 수 있다(S225). 상기 표준 기관명은 사전에 설정될 수 있으며, 또한 표준 기관명과 유사한 하나 이상의 기관명이 사전에 매핑되어 저장될 수 있다. 예컨대, "부산대학교"이라는 표준 기관명과 유사 기관명으로서 "부산대" 등이 매핑되어 기록될 수 있다.

상기 식별한 기관명이 표준 기관명이 아니라는 것에 응답으로, 공통 데이터셋 구축부(14)는 상기 식별한 기관명과 대응하는 표준 기관명으로 상기 기관명을 변경할 수 있다(S230). 예를 들어, 식별한 기관명이 비표준 기관명인 "부산대"인 경우 "부산대"을 표준 기관명인 "부산대학교"로 변경할 수 있다.

다음으로, 공통 데이터셋 구축부(14)는 상기 공통 데이터셋에 포함된 위치 정보를 식별할 수 있다(S325). 공통 데이터셋 구축부(14)는 식별한 위치 정보의 포맷이 사전에 설정된 위치 정보의 표준 포맷인지 여부를 판정할 수 있다(S240). 즉, 공통 데이터셋 구축부(14)는 식별한 위치 정보의 기재 형식이, 사전에 설정된 위치 정보의 표준 형식에 해당하는지 여부를 판정할 수 있다. 예를 들어, 위치 정보의 표준 포맷은, 도로명을 포함하는 행정 주소 형식일 수 있다.

상기 식별한 위치 정보의 포맷이 위치 정보의 표준 포맷이 아니라는 것에 응답하여, 공통 데이터셋 구축부(14)는 상기 식별한 위치 정보를 표준 포맷으로 변경할 수 있다(S245). 예를 들어, 식별한 위치 정보의 포맷이 위경도 좌표인 경우, 공통 데이터셋 구축부(14)는 상기 위경도 좌표를 도로명을 포함하는 행정 주소 형식으로 변경할 수 있다.

다음으로, 공통 데이터셋 구축부(14)는 공통 데이터셋에 포함된 시간 정보를 식별할 수 있다(S250). 공통 데이터셋 구축부(14)는 식별한 시간 정보의 포맷이 사전에 설정된 시간 정보의 표준 포맷에 해당하는지 여부를 판정할 수 있다(S255). 즉, 공통 데이터셋 구축부(14)는 식별한 시간 정보의 기재 형식이, 사전에 설정된 시간 정보의 표준 형식에 해당하는지 여부를 판정할 수 있다. 예를 들어, 시간 정보의 표준 포맷은, 년도, 월 및 날짜 순서를 가지며, 네 자리 수의 년도, 두 자리 수의 월 및 두 자리 수의 날짜를 포함할 수 있다.

상기 식별한 시간 정보의 포맷이 표준 포맷이 아니라는 것에 응답하여, 공통 데이터셋 구축부(14)는 상기 식별한 시간 정보를 시간 정보의 표준 포맷으로 변경할 수 있다(S260). 예를 들어, 월일년 순의 시간 정보를 년월일 순서의 시간 정보로 변경할 수 있다.

다음으로, 공통 데이터셋 구축부(14)는 표준 포맷으로 기재된 시간 정보와 위치 정보 및 표준 명칭으로 기재된 항목명과 기관명을 포함하는 공통 데이터셋을 공통 데이터셋 저장부(13)에 저장할 수 있다(S265).

본 실시예에 따르면, 원본 데이터셋에 포함된 데이터 중에서, 필요 데이터가 선별되고, 더불어 선별된 데이터가 표준 포맷과 명칭으로 변경되어 공통 데이터셋에 기록된다. 상기 공통 데이터셋을 이용하는 경우에, 온톨로지 구축이 용이해지고 더불어 온톨로지의 구축 속도도 향상될 수 있다.

한편, 공통 데이터셋 구축부(14)는 공통 데이터셋을 획득하기 위한 하나 이상의 온톨로지를 이용하여, 원본 데이터셋에서 시간 정보, 위치 정보, 하나 이상의 항목 및 기관명을 획득할 수 있다.

도 5는 위치 정보를 획득하기 위한 위치정보 온톨로지를 예시하는 것으로서, 부산시 수영구의 행정 주소가 위치 정보 온톨로지를 통해서 획득할 수 있다. 도 5에 따른 위치 정보 온톨로지는, 행정 구역의 상하 관계를 구조와 관계를 정의하고 있으며, 이러한 관계 정의를 포함하는 위치 정보 온톨로지에 이용하면, 원본 데이터셋에서 위치 정보가 획득될 수 있으며, 더불어 위치 정보가 표준 포맷으로 변경될 수 있다.

위치 정보 온톨로지 이외에, 항목 관련 온톨로지, 시간 정보 온톨로지 및 기관명 온톨로지가 이용되어, 원본 데이터셋으로부터 항목, 시간 정보 및 기관명이 획득되고 표준 포맷 또는 표준 명칭으로 변경될 수 있다.

이하, 도 6 내지 도 8을 참조하여, 온톨로지를 구축하는 도 2의 단계 S300에 대해서 보다 구체적으로 설명한다.

도 6을 참조하면, 온톨로지 구축부(15)는 온톨로지에 정의된 프로세스와 분류 정보를 식별할 수 있다(S305). 여기서, 프로세스는 온톨로지에서의 데이터셋의 대분류를 나타내는 것으로서, 육하원칙에 따른 어느 한 요소에 해당할 수 있다.

도 7은 재냔 관련 온톨로지의 개념을 예시하는 도면으로서, 도 7에 예시된 바와 같이, 재난 관련 온톨로지는, "발생 원인(why)"을 가리키는 프로세스, "발생 일시(when)"를 가리키는 프로세스, "발생 지역(where)"을 가리키는 프로세스, "재난 종류(what)"를 가리키는 프로세스, "관련 기관(who)"을 가리키는 프로세스 및 "해결 방법(how)"을 가리키는 프로세스를 포함할 수 있다.

온톨로지는 하나 이상의 프로세스를 포함할 수 있으며, 프로세스는 상위 프로세스와 하위 프로세스로 구분될 수도 있다.

도 7에서 원 형태로 표현된 노드가 프로세스를 나타내고, 사각형 노드는 분류 정보를 나타낸다. 분류 정보는 데이터셋을 분류하고 연결하기 위한 것으로서, 시간, 위치, 데이터 유형 등 중에서 어느 하나에 기초하여 속성이 정의될 수 있다. 예를 들어, 시간에 따른 분류 정보는, 제1 기간의 속성과, 제2 기간의 속성 등으로 정의될 수 있고, 위치에 따른 분류 정보는 육지에 해당하는 속성, 바다에 해당하는 속성, 제1 위치 범위의 속성, 제2 위치 범위 속성 등으로 정의될 수 있다. 또한, 유형에 따른 분류 정보는, 미세먼지, 침수 또는 지진에 따른 속성으로 정의될 수 있다. 또한, 각각의 분류 정보는 키워드 또는 데이터 범위를 포함할 수 있다. 예컨대, 시간 정보와 관련된 분류 정보는 시간 대표 값 또는 시간 범위를 포함할 수 있으며, 위치 정보와 관련된 분류 정보는 위치의 대표 값 또는 위치 범위를 포함할 수 있다. 또한, 유형 정보와 관련된 분류 정보는, 해당 유형을 대표할 수 있는 하나 이상의 키워드를 포함할 수 있다.

상기 온톨로지에 따르면, 프로세스는 하나 이상의 분류 정보 또는 하나 이상의 하위 프로세스와 연결될 수 있다. 또한, 분류 정보는 1개 이상의 하위 분류 정보와 연결될 수도 있다. 또한, 분류 정보는 프로세스와 연결될 수도 있다. 즉, 분류 정보는 하나 이상의 프로세스에 속할 수 있다. 여기서, 분류 정보가 프로세스에 속하는 것은, 상위 개념의 프로세스에 하위 개념의 분류 정보가 연결되는 것을 가리킬 수 있다. 데이터셋은 하나의 이상의 분류 정보에 연결될 수 있다. 상기 데이터셋은 공통 데이터셋 일 수 있다. 각 프로세스와 분류 정보는 관리자에 의해서 정의될 수 있으며, 또한 프로세스의 위치, 분류 정보의 위치, 이들의 연결관계도 관리자에 의해서 정의될 수 있다.

도 8은 재난 관련 온톨로지를 예시하는 도면으로서, 도 8을 참조하면, 상위 프로세스로서 "발생 원인", "발생 장소", "발생일시" 및 "관련기관"이 온톨로지에 정의되어 있다. 도 8에 따르면, "재난 해결"을 나타내는 분류 정보가 상위에 정의되고, "재난 해결"의 분류 정보와 "어떻게"에 해당하는 프로세스가 하나의 그룹으로서 정의되어 있다. 즉, 재난 해결 방식을 가리키는 "재난 해결"의 분류 정보와 "어떻게"에 해당하는 프로세스가 서로 연결되어 있다. 또한, "어떻게" 프로세스의 하위 계층에는 "무엇을" 나타내는 프로세스가 위치되어 있다. 최하위 노드에 형성된 데이터셋은 하나 이상의 분류 정보와 연결될 수 있다.

다시 도 6을 참조하면, 온톨로지 구축부(15)는 공통 데이터셋과 각각의 분류 정보 간의 연관 관계를 연산할 수 있다(S315). 구체적으로, 온톨로지 구축부(15)는 공통 데이터셋으로부터 위치 정보를 식별한 경우, 위치 관련 프로세스와 연결된 분류 정보를 식별하고, 상기 위치 정보와 상기 식별된 분류 정보에 포함된 위치 정보 간의 거리를 연산함으로써, 상기 위치 정보와 상기 분류 정보 간의 위치 기반의 연관 관계의 강도를 연산할 수 있다. 또는, 온톨로지 구축부(15)는 상기 위치 정보가 상기 식별된 분류 정보에 포함된 위치 범위에 포함되는지 여부를 판정함으로써, 상기 위치 정보와 상기 분류 정보 간의 위치 기반의 연관 관계의 강도를 연산할 수 있다. 도 8을 예를 들어 설명하면, 온톨로지 구축부(15)는 "서울", "부산", "동해", "서해" 각각의 분류 정보에 포함된 위치 정보(또는 위치 범위)와 상기 공통 데이터셋으로부터 식별한 위치 정보를 비교하여, 위치 기반의 연관 관계의 강도를 연산할 수 있다. 온톨로지 구축부(15)는 공통 데이터셋에 포함된 위치 정보가 분류 정보의 위치 범위에 포함되거나 공통 데이터셋에 포함된 위치 정보와 분류 정보의 위치 정보 간의 거리가 임계거리 이내인 경우, 위치 기반의 연결 강도가 "강"인 것으로 연산할 수 있다.

또한, 온톨로지 구축부(15)는 공통 데이터셋으로부터 시간 정보를 식별한 경우, 상기 시간 관련 프로세스와 연결된 분류 정보를 식별하고, 상기 시간 정보와 상기 식별된 분류 정보에 포함된 시간 정보 간의 차이를 연산함으로써, 상기 시간 정보와 상기 분류 정보 간의 시간 기반의 연관 관계의 강도를 연산할 수 있다. 또는, 온톨로지 구축부(15)는 상기 시간 정보가 상기 식별된 분류 정보에 포함된 시간 범위에 포함되는지 여부를 판정함으로써, 상기 시간 정보와 상기 분류 정보 간의 시간 기반의 연관 관계의 강도를 연산할 수 있다. 도 8을 예를 들어 설명하면, 온톨로지 구축부(15)는 "제1 기간", "제2 기간" 분류 정보에 포함된 시간 범위와 상기 공통 데이터셋으로부터 식별한 시간 정보를 비교하여, 시간 기반의 연관 관계의 강도를 연산할 수 있다. 온톨로지 구축부(15)는 공통 데이터셋에 포함된 시간 정보가 분류 정보의 시간 범위에 포함되거나, 공통 데이터셋에 포함된 시간 정보와 분류 정보의 시간 정보 간의 시간 차이가 임계시간 이내인 경우, 시간 기반의 연결 강도가 "강"인 것으로 연산할 수 있다.

또한, 온톨로지 구축부(15)는 공통 데이터셋으로부터 발행 기관명(즉, 육하원칙 중에서 누구)을 식별한 경우, 기관명 프로세스와 연결된 분류 정보를 식별하고, 상기 발행 기관명과 상기 식별된 분류 정보에 포함된 기관명 간의 유사도를 연산함으로써, 상기 시간 정보와 상기 분류 정보 간의 발행 기관 기반의 연관 관계의 강도를 연산할 수 있다. 도 8을 예를 들어 설명하면, 온톨로지 구축부(15)는 "기상청", "발전소" 분류 정보에 포함된 기관명과 상기 공통 데이터셋으로부터 식별한 기관명의 일치 여부를 판정하여, 발행 기관 기반의 연관 관계 강도를 연산할 수 있다. 온톨로지 구축부(15)는 공통 데이터셋에 포함된 기관명과 분류 정보에 포함된 기관명이 일치하는 경우, 기관명 기반의 연결 강도가 "강"인 것으로 연산할 수 있다.

또한, 온톨로지 구축부(15)는 공통 데이터셋에 포함된 메타데이터 및 항목명 중에서 하나 이상을 이용하여 공통 데이터셋의 유형을 식별할 수 있다. 예컨대, 온톨로지 구축부(15)는 상기 공통 데이터셋의 항목명 중에서 미세먼지 농도를 나타내는 단위가 인식되는 경우, 해당 공통 데이터셋의 유형을 미세먼지인 것으로 식별할 수 있다. 또는, 온톨로지 구축부(15)는 상기 공통 데이터셋의 항목명 중에서 지진 강도를 나타내는 단위가 인식되는 경우에 해당 공통 데이터셋의 유형을 지진으로 식별할 수 있다. 한편, 공통 데이터셋의 메타 데이터에는 설명 정보가 기록될 수 있는데, 온톨로지 구축부(15)는 상기 설명 정보를 이용하여 공통 데이터셋의 유형을 식별할 수 있다. 온톨로지 구축부(15)는 데이터의 유형을 가리키는 프로세스를 식별하고, 상기 식별된 데이터 유형의 프로세스에 속하는 분류 정보의 유형과 상기 식별한 공통 데이터셋의 유형을 비교하여, 공통 데이터셋과 상기 분류 정보 간의 유형 기반의 연관 관계의 강도를 연산할 수 있다. 도 8을 예를 들어 설명하면, 온톨로지 구축부(15)는 "침수", "지진", "미세 먼지" 분류 정보에 포함된 유형 정보와 상기 공통 데이터셋으로부터 식별한 유형 간의 일치 여부를 판정하여, 유형 기반의 연관 관계 강도를 연산할 수 있다. 온톨로지 구축부(15)는 공통 데이터셋의 유형과 분류 정보에 포함된 유형이 일치하는 경우, 유형 기반의 연결 강도가 "강"인 것으로 연산할 수 있다.

또한, 온톨로지 구축부(15)는 공통 데이터셋에 포함된 메타데이터를 이용하여, 공통 데이터셋이 발생원인(육하원칙 중에서 why) 또는 해결방안(육하원칙 중에서 how)에 해당하는지 여부를 식별할 수 있다. 메타 데이터에는 공통 데이터셋의 설명 정보가 기록될 수 있으며, 온톨로지 구축부(15)는 상기 설명 정보에 "해결 방안", "해결책", "대응안" 등과 같은 해결방안 관련 키워드가 인식되는 경우 상기 공통 데이터셋이 해결방안에 해당하는 것으로 식별할 수 있다. 온톨로지 구축부(15)는 상기 설명 정보를 분석하여 해결방안이 "예방", "대응", "복구" 중 어느 하나에 해당하는지 여부를 판정할 수도 있다. 또한, 온톨로지 구축부(15)는 상기 설명 정보에 "원인", "이유" 등과 같은 발생원인 관련 키워드가 인식되는 경우 상기 공통 데이터셋이 발생원인에 해당하는 것으로 식별할 수 있다. 온톨로지 구축부(15)는 상기 설명 정보를 분석하여 발생원인이 자연적 발생에 해당하는지 또는 인위적인 발생에 해당하는지 여부를 판정할 수도 있다.

온톨로지 구축부(15)는 공통 데이터셋이 발생원인에 해당하는 경우, 발생원인을 가리키는 프로세스와 연결된 분류 정보를 식별하고, 그 식별한 분류 정보와 상기 공통 데이터셋 간의 연관 관계의 강도를 연산할 수 있다. 도 8을 예를 들어 설명하면, 공통 데이터셋이 자연적 발생원인에 해당하는 데이터셋인 경우, 온톨로지 구축부(15)는 "침수", "지진", "미세먼지"에 해당하는 분류 정보와 상기 공통 데이터셋 간의 유형 기반의 연관 관계 강도를 연산할 수 있다. 도 8에 있어서, 공통 데이터셋이 재난해결에 해당하는 데이터셋인 경우, 온톨로지 구축부(15)는 "무엇을" 프로세스와 연결된 "침수", "지진", "미세먼지"에 해당하는 분류 정보와 상기 공통 데이터셋 간의 유형 기반의 연관 관계 강도를 연산할 수 있다.

분류 정보와 공통 데이터셋 간의 연관 관계 강도가 연산이 완료되면, 온톨로지 구축부(15)는 일정 강도(예컨대, "강") 이상의 연관 관계를 가지는 하나 이상의 분류 정보와 상기 공통 데이터셋을 연결시킬 수 있다(S315). 예컨대, 온톨로지 구축부(15)는 연관 관계가 "강"으로 연산된 하나 이상의 분류 정보와 상기 공통 데이셋을 연결할 수 있다.

도 8에 예시된 바와 같이, 각각의 데이터셋은 하나 이상의 분류 정보와 연결되어 있다. 도 8에서는 점선이 연결선인 것으로 예시되어 있다. 예컨대, 데이터셋 #1은 "발생원인" 프로세스에 속하는 "침수" 분류 정보, "발생장소" 프로세스의 "서울" 분류 정보 및 "발생일시" 프로세스에 해당하는 "제1 기간" 분류 정보에 연결되어 있다. 여기서, 데이터셋 #1은 상기 "침수" 분류 정보, "서울" 분류 정보 및 "제1 기간" 분류 정보 각각과 연관 관계의 강도가 "강"으로 연산된 것일 수 있다.

도 6에 따른 방법에 의해서, 각각 공통 데이터셋은 연관 관계의 강도에 따라 하나 이상의 분류 정보에 자동적으로 연결되고, 분류 정보에 연결된 데이터셋들이 포함하는 온톨로지가 구축될 수 있다.

본 실시예에 따르면, 수집된 제1 데이터셋이 연관 관계의 강도에 따라, 자동적으로 온톨로지의 분류 정보에 연결됨으로써, 데이터 전처리에 투입되는 노동력과 시간을 절감한다.

이하, 도 9를 참조하여, 질의와 관련된 데이터셋을 사용자에게 제공하는 도 2의 단계 S500에 대해서 보다 자세하게 설명한다.

도 9를 참조하면, 데이터셋 추천부(17)는 사용자로부터 입력된 질의에 포함된 하나 이상의 키워드를 식별할 수 있다(S505). 상기 키워드는 육하원칙에 해당하는 요소일 수 있으며, 데이터셋 추천부(17)는 질의에서 육하원칙에 해당하는 여섯가지 요소 중에서 하나 이상을 식별할 수 있다. 예컨대, 질의가 "부산시의 2021년 5월 3일의 침수 현황"이라는 문구를 포함하는 경우, 데이터셋 추천부(17)는 "부산시", "2021년 5월 3일" 및 "침수"를 키워드로서 식별할 수 있다.

데이터셋 추천부(17)는 식별한 키워드에 해당하는 프로세스와 분류 정보를 온톨로지에서 식별할 수 있다(S510). 일 실시예에서, 데이터셋 추천부(17)는 상기 식별한 키워드와 관련되는 프로세스를 먼저 식별하고, 상기 식별한 키워드에 속하는 분류 정보들 중에서 상기 식별한 각 키워드와 연관되는 하나 이상의 분류 정보를 온톨로지에서 식별할 수 있다. 일 실시예에서, 데이터셋 추천부(17)는 키워드와 각 분류 정보 간의 연관 관계 강도를 연산하고, 그 연산된 결과를 이용하여 해당 키워드와 매칭되는 분류 정보를 식별할 수 있다. 도 8을 참조하여 설명하면, 질의로부터 식별된 키워드가 "부산시"인 경우, 데이터셋 추천부(17)는 복수의 프로세스 중에서 발생장소 프로세스를 상기 "부산시"와 관련되는 프로세스로서 식별하고, 발생장소 프로세스에 포함된 복수의 분류 정보 중에서 "부산시" 키워드와 연관 관계가 가장 강한 "부산" 분류 정보를 온톨로지에서 식별할 수 있다.

각 키워드와 관련된 하나 이상의 분류 정보에 대한 식별이 완료되면, 상기 식별된 각 분류 정보와 연결된 하나 이상의 데이터셋을 온톨로지에서 식별할 수 있다(S515). 도 8을 예를 들어 설명하면, 발생원인 프로세스의 자연적 발생의 분류 정보에 속하는 침수 분류 정보, 발생 장소 프로세스에 속하는 부산 분류 정보 및 발생 일시 프로세스에 속하는 제1 기간 분류 정보가 식별된 경우, 상기 침수 분류 정보와 연결된 데이터셋 #1 및 데이터셋 #11이 식별되고, 상기 부산 분류 정보와 연결된 데이터셋 #1 및 데이터셋 #5가 식별되고, 상기 제1 기간 분류 정보와 연결된 데이터셋 #1, 데이터셋 #2 및 데이터셋 #3이 식별될 수 있다.

이어서, 데이터셋 추천부(17)는 식별된 데이터셋들 전부 또는 일부를 추천 데이터셋으로 선정하고, 그 선정된 데이터셋을 사용자에게 제공할 수 있다(S520). 이때, 데이터셋 추천부(17)는 상기 선정된 데이터셋을 출력하거나, 사용자의 단말로 전송할 수 있다. 일 실시예에서, 데이터셋 추천부(17)는 식별된 분류 정보와 연결된 데이터셋들 중에서 중복된 데이터셋을 추천 데이터셋으로 선정할 수 있다. 예를 들어, 침수 분류 정보와 연결된 데이터셋 #1 및 데이터셋 #11이 식별되고, 상기 부산 분류 정보와 연결된 데이터셋 #1 및 데이터셋 #5가 식별되고, 상기 제1 기간 분류 정보와 연결된 데이터셋 #1, 데이터셋 #2 및 데이터셋 #3이 식별된 경우, 침수 분류 정보, 부산 분류 정보 및 제1 기간 분류 정보 모두와 연결된 데이터셋 #1을 추천 데이터셋으로 선별하여 추천할 수 있다.

도 3 및 도 8을 참조하면 예를 들어 설명하면, 도 3과 같은 질의가 수신된 경우, 유형이"침수(flood)"이고 위치가 "부산"에 해당하는 데이터셋 #1이 추천 데이터셋으로 선정될 수 있다.

본 실시예에 따르면, 사용자는 질의 입력을 통해서, 원하는 데이터셋을 제공받을 수 있으며, 해당 데이터셋을 이용하여 심층적인 데이터 분석을 수행할 수도 있다. 본 실시예에 따르면, 사용자는 육하원칙에 입각한 질의를 입력한 경우, 더욱 정확한 데이터셋을 획득할 수 있다.

도 10은 다양한 실시예에서 컴퓨팅 장치를 구현할 수 있는 예시적인 하드웨어 구성도이다.

본 실시예에 따른 컴퓨팅 장치(1000)는 하나 이상의 프로세서(1100), 시스템 버스(1600), 통신 인터페이스(1200), 프로세서(1100)에 의하여 수행되는 컴퓨터 프로그램(1500)을 로드(load)하는 메모리(1400)와, 컴퓨터 프로그램(1500)을 저장하는 스토리지(1300)를 포함할 수 있다. 도 10에서는 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 명세서의 실시예들이 속한 기술분야의 통상의 기술자라면 도 10에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(1100)는 컴퓨팅 장치(1000)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1100)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 명세서의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(1100)는 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(1000)는 둘 이상의 프로세서를 구비할 수 있다.

메모리(1400)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1400)는 본 명세서의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(1300)로부터 하나 이상의 프로그램(1500)을 로드(load) 할 수 있다. 메모리(1400)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다.

통신 인터페이스(1200)는 이동통신망, 유선 인터넷망 등의 네트워크를 이용하여 이동통신단말, 개인용 컴퓨터, 서버 등과 같은 외부의 통신 장치와 통신할 수 있다. 상기 통신 인터페이스(1200)는 통신 장치로부터 입력 정보를 수신할 수 있다.

시스템 버스(1600)는 컴퓨팅 장치(1000)의 구성 요소 간 통신 기능을 제공한다. 상기 시스템 버스(1600)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

스토리지(1300)는 하나 이상의 컴퓨터 프로그램(1500)을 비임시적으로 저장할 수 있다. 스토리지(1300)는 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 명세서의 실시예들이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다. 또한, 상기 스토리지(1300)는 상술한 사용자의 과거 거래 이력을 저장할 수 있고, 또한 상품의 과거 거래 이력을 저장할 수도 있다.

컴퓨터 프로그램(1500)은 본 명세서의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션(instruction)들을 포함할 수 있다. 컴퓨터 프로그램(1500)이 메모리(1400)에 로드 되면, 프로세서(1100)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 명세서의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다. 컴퓨터 프로그램(1500)은, 도 2 내지 도 9를 참조하여 설명한 방법을 위한 인스트럭션들을 포함할 수 있다.

일 실시예에서, 컴퓨터 프로그램(1500)은 복수의 프로세스, 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축하되, 각 프로세스가 하나 이상의 분류 정보에 연결되고 각 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축하는 동작과, 질의를 수신하고, 상기 질의에 포함된 하나 이상의 키워드를 식별하는 동작과, 상기 식별된 키워드와 관련된 프로세스를 식별하고, 상기 식별된 프로세스에 연결된 분류 정보들 중에서 상기 키워드와 관련된 분류 정보를 식별하는 동작과, 상기 온톨로지에 포함된 데이터셋 중에서, 상기 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로서 제공하는 동작을 수행하기 위한 인스트럭션들을 포함할 수 있다.

지금까지 도 1 내지 도 10을 참조하여 본 발명의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

지금까지 도 1 내지 도 10을 참조하여 설명된 본 발명의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의해서 수행되는 방법에 있어서,
원본 데이터셋 저장부에 저장된 원본 데이터셋에 포함된 항목들 중에서, 분석이 필요한 항목들만을 추출하고, 상기 추출된 항목들만을 포함하는 공통 데이터셋을 구축하는 단계;
복수의 프로세스, 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축하되, 각 프로세스가 하나 이상의 분류 정보에 연결되고 각 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축하는 단계;
질의를 수신하고, 상기 질의에 포함된 하나 이상의 키워드를 식별하는 단계;
상기 식별된 키워드와 관련된 프로세스를 식별하고, 상기 식별된 프로세스에 연결된 분류 정보들 중에서 상기 키워드와 관련된 분류 정보를 식별하는 단계; 및
상기 온톨로지에 포함된 데이터셋 중에서, 상기 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로서 제공하되, 상기 식별된 분류 정보와 연결된 복수의 데이터셋이 존재할 경우, 상기 복수의 데이터셋 중에서 상기 분류 정보들 각각에 최다 빈도로 연결되는 데이터셋을 상기 질의에 대한 응답으로서 제공하는 단계를 포함하되,
상기 공통 데이터셋을 구축하는 단계는,
상기 추출된 항목들 중 표준 포맷이 아닌 것으로 판단되는 항목의 포맷을 표준 포맷으로 수정하는 단계를 포함하는,
데이터셋 제공 방법.
제1 항에 있어서,
상기 온톨로지를 구축하는 단계는,
제1 데이터셋을 수집하는 단계;
상기 온톨로지에 포함된 각 분류 정보와 상기 제1 데이터셋 간의 연관 관계를 연산하는 단계; 및
상기 연산된 연관 관계의 강도가 소정의 강도 이상인 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계를 포함하는,
데이터셋 제공 방법.
제2 항에 있어서,
상기 연관 관계는 위치 연관 관계를 포함하고, 상기 복수의 프로세스는 위치와 연관된 프로세스를 포함하고,
상기 연관 관계를 연산하는 단계는,
상기 수집된 제1 데이터셋으로부터 위치 정보를 식별하는 단계; 및
상기 위치와 연관된 프로세스에 연결된 각 분류 정보와, 상기 식별한 위치 정보 간의 상기 위치 연관 관계의 강도를 연산하는 단계를 포함하고,
상기 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계는,
상기 위치 연관 관계의 강도가 소정의 강도 이상인 분류 정보에 상기 제1 데이터셋을 연결하는 단계를 포함하는,
데이터셋 제공 방법.
제2 항에 있어서,
상기 연관 관계는 시간 연관 관계를 포함하고, 상기 복수의 프로세스는 시간과 연관된 프로세스를 포함하고,
상기 연관 관계를 연산하는 단계는,
상기 수집된 제1 데이터셋으로부터 시간 정보를 식별하는 단계; 및
상기 시간과 연관된 프로세스에 연결된 각 분류 정보와, 상기 식별한 시간 정보 간의 상기 시간 연관 관계의 강도를 연산하는 단계를 포함하고,
상기 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계는,
상기 시간 연관 관계의 강도가 소정의 강도 이상인 분류 정보에 상기 제1 데이터셋을 연결하는 단계를 포함하는,
데이터셋 제공 방법.
제2 항에 있어서,
상기 연관 관계는 유형 기반의 연관 관계를 포함하고, 상기 복수의 프로세스는 유형과 연관된 프로세스를 포함하고,
상기 연관 관계를 연산하는 단계는,
상기 수집된 제1 데이터셋으로부터 데이터 유형을 식별하는 단계; 및
상기 유형과 관련된 프로세스에 연결된 각 분류 정보와, 상기 식별한 데이터 유형 간의 상기 유형 기반의 연관 관계 강도를 연산하는 단계를 포함하고,
상기 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계는,
상기 유형 기반의 연관 관계 강도가 소정의 강도 이상인 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계를 포함하는,
데이터셋 제공 방법.
제2 항에 있어서,
상기 연관 관계는 대응 방안 연관 관계를 포함하고, 상기 복수의 프로세스는 대응 방안과 연관된 프로세스를 포함하고,
상기 연관 관계를 연산하는 단계는,
상기 수집된 제1 데이터셋으로부터 대응 방안을 식별하는 단계; 및
대응 방안과 관련된 프로세스에 연결된 각 분류 정보와, 상기 식별한 대응 방안 간의 대응 방안 연관 관계의 강도를 연산하는 단계를 포함하고,
상기 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계는,
상기 연산된 상기 대응 방안 연관 관계의 강도가 소정의 강도 이상인 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계를 포함하는,
데이터셋 제공 방법.
제2 항에 있어서,
상기 연관 관계는 기관 연관 관계를 포함하고, 상기 복수의 프로세스는 기관명과 연관된 프로세스를 포함하고,
상기 연관 관계를 연산하는 단계는,
상기 수집된 제1 데이터셋으로부터 기관명을 식별하는 단계; 및
상기 기관명과 관련된 프로세스에 연결된 각 분류 정보와, 상기 식별한 기관명 간의 상기 기관 연관 관계 강도를 연산하는 단계를 포함하고,
상기 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계는,
상기 연산된 기관 연관 관계 강도가 소정의 강도 이상인 분류 정보에 상기 수집된 제1 데이터셋을 연결하는 단계를 포함하는,
데이터셋 제공 방법.
제2 항에 있어서,
상기 제1 데이터셋을 수집하는 단계는,
상기 제1 데이터셋에서 포함된 데이터가 표준 포맷 또는 표준명으로 기록되어 있는지를 판정하는 단계; 및
상기 데이터셋에 포함된 데이터가 표준 포맷 또는 표준명으로 기록되지 않은 판정에 응답하여, 상기 데이터를 표준 형식 또는 상기 표준명으로 변경하는 단계를 포함하는,
데이터셋 제공 방법.
제1 항에 있어서,
상기 하나 이상의 키워드를 식별하는 단계는,
상기 키워드로서 육하원칙에 해당하는 6 요소 중에서 하나 이상을 식별하는 단계를 포함하는,
데이터셋 제공 방법.
제9 항에 있어서,
상기 질의를 수신하는 단계는,
상기 육하원칙에 따른 질의를 입력할 수 있는 인터페이스를 통해서, 상기 질의를 수신하는 단계를 포함하는,
데이터셋 제공 방법.
제9 항에 있어서,
각 프로세스는, 육하원칙의 6 요소 중에서 어느 하나와 대응되는 것인,
데이터셋 제공 방법.
삭제
하나 이상의 프로세서;
상기 프로세서에 의하여 수행되는 프로그램을 로드(load)하는 메모리; 및
상기 프로그램이 저장된 스토리지를 포함하되,
상기 프로그램은,
원본 데이터셋 저장부에 저장된 원본 데이터셋에 포함된 항목들 중에서, 분석이 필요한 항목들만을 추출하고, 상기 추출된 항목들만을 포함하는 공통 데이터셋을 구축하는 동작;
복수의 프로세스, 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축하되, 각 프로세스가 하나 이상의 분류 정보에 연결되고 각 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축하는 동작;
질의를 수신하고, 상기 질의에 포함된 하나 이상의 키워드를 식별하는 동작;
상기 식별된 키워드와 관련된 프로세스를 식별하고, 상기 식별된 프로세스에 연결된 분류 정보들 중에서 상기 키워드와 관련된 분류 정보를 식별하는 동작; 및
상기 온톨로지에 포함된 데이터셋 중에서, 상기 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로서 제공하되, 상기 식별된 분류 정보와 연결된 복수의 데이터셋이 존재할 경우, 상기 복수의 데이터셋 중에서 상기 분류 정보들 각각에 최다 빈도로 연결되는 데이터셋을 상기 질의에 대한 응답으로서 제공하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함하되,
상기 공통 데이터셋을 구축하는 동작은,
상기 추출된 항목들 중 표준 포맷이 아닌 것으로 판단되는 항목의 포맷을 표준 포맷으로 수정하는 동작을 포함하는,
컴퓨팅 장치.
명령어를 포함하는 컴퓨터 판독 가능한 비일시적 저장 매체로서,
상기 명령어는 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
원본 데이터셋 저장부에 저장된 원본 데이터셋에 포함된 항목들 중에서, 분석이 필요한 항목들만을 추출하고, 상기 추출된 항목들만을 포함하는 공통 데이터셋을 구축하는 단계;
복수의 프로세스, 복수의 분류 정보 및 복수의 데이터셋을 포함하는 온톨로지를 구축하되, 각 프로세스가 하나 이상의 분류 정보에 연결되고 각 데이터셋이 하나 이상의 분류 정보에 연결되는 상기 온톨로지를 구축하는 단계;
질의를 수신하고, 상기 질의에 포함된 하나 이상의 키워드를 식별하는 단계;
상기 식별된 키워드와 관련된 프로세스를 식별하고, 상기 식별된 프로세스에 연결된 분류 정보들 중에서 상기 키워드와 관련된 분류 정보를 식별하는 단계; 및
상기 온톨로지에 포함된 데이터셋 중에서, 상기 식별된 분류 정보와 연결된 하나 이상의 데이터셋을 상기 질의에 대한 응답으로서 제공하되, 상기 식별된 분류 정보와 연결된 복수의 데이터셋이 존재할 경우, 상기 복수의 데이터셋 중에서 상기 분류 정보들 각각에 최다 빈도로 연결되는 데이터셋을 상기 질의에 대한 응답으로서 제공하는 단계를 포함하되,
상기 공통 데이터셋을 구축하는 단계는,
상기 추출된 항목들 중 표준 포맷이 아닌 것으로 판단되는 항목의 포맷을 표준 포맷으로 수정하는 단계를 포함하는,
동작을 수행하도록 하는,
컴퓨터로 판독 가능한 비일시적 저장 매체.