KR20150084706A

KR20150084706A - 온톨로지의 지식 학습 장치 및 그의 방법

Info

Publication number: KR20150084706A
Application number: KR1020150090911A
Authority: KR
Inventors: 박성배; 박세영; 이상조; 한용진; 윤희근
Original assignee: 경북대학교 산학협력단
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2015-07-22

Abstract

온톨로지의 지식 학습 방법이 개시된다. 본 지식 학습 방법은, 비구조 정보로부터 복수의 지식 정보를 추출하는 단계, 추출된 복수의 지식 정보를 이용하여 하나의 지식 그래프를 생성하는 단계, 및 생성된 지식 그래프를 이용하여, 추출된 복수의 지식 정보 각각에 대한 온톨로지 학습을 수행하는 단계를 포함한다.

Description

온톨로지의 지식 학습 장치 및 그의 방법{APPARATUS FOR KNOWLEDGE LEARNING OF ONTOLOGY AND METHOD THEREOF}

본 발명은 온톨로지의 지식 학습 장치 및 그의 방법에 관한 것으로, 비구조 웹 문서로부터 복수의 지식 정보를 추출하고, 추출된 복수의 지식 정보를 이용하여 지식 그래프를 생성하고, 생성된 지식 그래프를 이용하여 온톨로지의 지식을 확장할 수 있는 온톨로지의 지식 학습 장치 및 그의 방법에 관한 것이다.

인터넷 기술이 발달함에 따라 인터넷상의 정보는 기하급수적으로 증가하였다. 이에 따라, 인터넷상의 정보를 컴퓨터를 이용하여 처리할 필요성이 증가하였다. 구체적으로, 웹상의 정보들에 잘 정의된 공용의 의미를 부여하여, 사람뿐만 아니라 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있도록 하는 시멘틱 웹이 제안되었다.

이러한 시맨틱 웹을 위해 '잘 정의된 공용의 의미 체계'인 '온톨로지'가 구축되고 있다. 여기서 온톨로지는 공유된 개념화(shared conceptualization)에 대한 정형화되고 명시적인 명세이다. 여기서, 온톨로지는 실세계 객체 간의 의미적인 관계를 정의함으로써 지식 정보를 컴퓨터로 처리할 수 있는 명시적인 명세(explicit specification)를 제공한다.

이러한 온톨로지를 표현하는 방법으로 RDF/RDFS, 그리고 OWL과 같은 그래프 기반 표현 언어가 널리 알려져 있다. 이들 온톨로지 언어는 객체 혹은 객체에 대한 개념, 그리고 객체가 가지는 속성의 유형을 정점(vertex)으로 표현하고, 객체 간의 관계 및 객체의 속성을 변(edge)으로 표현한다. 온톨로지 스키마는 온톨로지로 표현할 수 있는 사실 정보를 이러한 그래프 형태로 정의한다.

일반적으로 한 번 구축된 온톨로지 스키마는 거의 변하지 않는다. 반면, 온톨로지 스키마에 정의된 개념 관계 및 속성에 해당하는 지식 정보는 새롭게 추가될 수 있으며 온톨로지 그래프에서 확장될 수 있는 영역에 해당한다. 온톨로지는 열린 세계 가정(open world assumption)에 기초하기 때문에 이러한 지식 정보의 확장이 자연스러우며 양질의 서비스 제공을 위해 지속적인 지식 확장이 요구되었다.

이러한 지식 확장을 위한 방법으로 온톨로지 확장(ontology population)에 대한 다양한 연구들이 진행되어 오고 있다. 온톨로지 확장은 지식 정보를 추출하는 원천 자료에 따라 크게 두 가지 방법으로 수행된다. 하나는 구조 혹은 반구조 정보로부터 지식 정보를 확장하는 것이다. 대표적으로 DBPedia와 Yago는 Wikipedia의 구조 정보를 활용하여 구축된 온톨로지이다. 다른 하나는 텍스트와 같은 비구조 정보로부터 지식 정보를 확장하는 것이다. 이를 위해 텍스트로부터 지식 정보를 추출하고, 추출된 정보를 온톨로지의 개념 관계와 매칭하는 방법이 요구되었다.

한편, 최근 지식 정보를 포함하는 웹상의 공개된 비구조 정보와 함께 지식 정보를 표현할 수 있는 온톨로지가 기하급수적으로 증가하고 있다. 비구조 정보로부터 얻은 지식 정보를 온톨로지 확장에 활용하기 위해서는 자동화된 지식 정보 추출 기술뿐만 아니라 추출된 지식의 객체와 온톨로지의 객체 간의 효과적인 매칭 방법이 요구되었다.

기존의 방법들은 단편적인 지식 혹은 제한된 컨텍스트 정보를 활용하여 추출된 객체와 온톨로지 객체 간의 매칭을 시도하였다. 이러한 접근은 동명 이의에 의한 모호성이나 높은 문자 유사도(lexical similarity)에 따른 오류가 발생할 수 있다. 예를 들어, “홍길동”의 경우, 사업가, 전 환경부 장관, 아나운서, 감독 등 공인으로 알려진 동명이인이 다수일 수 있다. 단순한 lexical matching만으로 텍스트 상의 지식 정보와 온톨로지 그래프 간의 매칭을 시도한다면 이러한 동명이인에 따른 모호성 문제가 발생할 수 있다. 또한, “홍길동”과 같이 문자 유사도가 높은 표현은 잘못된 매칭을 찾는 원인이 될 수도 있었다.

1. 등록특허공보 제10-0729103호 (2007.06.08) 2. 공개특허공보 제10-2011-0064833호 (2011.06.15) 3. 공개특허공보 제10-2009-0051612호 (2009.05.22)

따라서, 본 발명은 비구조 웹 문서로부터 복수의 지식 정보를 추출하고, 추출된 복수의 지식 정보를 이용하여 지식 그래프를 생성하고, 생성된 지식 그래프를 이용하여 온톨로지의 지식을 확장할 수 있는 온톨로지의 지식 학습 장치 및 그의 방법을 제공하는 데 있다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 온톨로지의 지식 학습 장치는, 온톨로지를 저장하는 저장부, 비구조 정보로부터 복수의 지식 정보를 추출하는 지식 정보 추출부, 상기 추출된 복수의 지식 정보를 이용하여 하나의 지식 그래프를 생성하는 지식 그래프 생성부, 및, 상기 생성된 지식 그래프를 이용하여, 상기 추출된 복수의 지식 정보 각각에 대한 상기 온톨로지의 학습을 수행하는 학습부를 포함한다.

이 경우, 상기 비구조 정보는, 웹 페이지로부터 수집된 정보일 수 있다.

한편, 상기 지식 정보는, 술어를 중심으로 하는 문장 성분들의 의존 관계를 트리플 형태로 표시한 트리플 인스턴스일 수 있다.

이 경우, 상기 트리플 인스턴스는, RDF/RDFS 또는 OWL 표현 언어로 기술된 것일 수 있다.

한편, 상기 지식정보 추출부는, 상기 비구조 정보로부터 복문으로 구성되는 문장을 추출하고, 상기 추출된 복문 상의 객체 및 술어를 이용하여 복수의 지식 정보를 추출할 수 있다.

한편, 상기 지식 그래프 생성부는, 상기 비구조 정보에서의 유사한(coocurrence) 정보를 이용하여 상기 추출된 지식 정보를 하나의 지식 그래프로 생성할 수 있다.

한편, 상기 지식 그래프는, 비구조 정보의 복수의 객체에 대응되는 복수의 정점 및 상기 비구조 정보의 술어에 대응되는 상기 복수의 정점 사이의 변을 포함할 수 있다.

한편, 상기 학습부는, 온톨로지를 구성하는 복수의 서브 그래프 각각과 상기 추출된 지식 정보 간의 유사도를 상기 생성된 지식 그래프를 이용하여 비교하고, 비교 결과 가장 유사도가 높은 서브 그래프에 상기 추출된 지식 정보를 학습시킬 수 있다.

한편, 본 실시 예에 따른 온톨로지의 지식 학습 방법은, 비구조 정보로부터 복수의 지식 정보를 추출하는 단계, 상기 추출된 복수의 지식 정보를 이용하여 하나의 지식 그래프를 생성하는 단계, 및, 상기 생성된 지식 그래프를 이용하여, 상기 추출된 복수의 지식 정보 각각에 대한 온톨로지 학습을 수행하는 단계를 포함한다.

이 경우, 상기 비구조 정보는, 웹 페이지로부터 수집된 정보이다.

한편, 상기 추출하는 단계는, 상기 비구조 정보로부터 복문으로 구성되는 문장을 추출하고, 상기 추출된 복문 상의 객체 및 술어를 이용하여 복수의 지식 정보를 추출하는 것일 수 있다.

한편, 상기 지식 그래프를 생성하는 단계는, 상기 비구조 정보에서의 유사한(coocurrence) 정보를 이용하여 상기 추출된 지식 정보를 하나의 지식 그래프로 생성할 수 있다.

한편, 상기 학습을 수행하는 단계는, 온톨로지를 구성하는 복수의 서브 그래프 각각과 상기 추출된 지식 정보 간의 유사도를 상기 생성된 지식 그래프를 이용하여 비교하고, 비교 결과 가장 유사도가 높은 서브 그래프에 상기 추출된 지식 정보를 학습할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 지식 학습 장치의 구성을 도시한 블록도,
도 2는 본 발명의 일 실시 예에 따른 지식 정보의 예를 도시한 도면,
도 3은 도 1의 지식 그래프 생성부에서 생성된 지식 그래프의 예를 도시한 도면,
도 4는 온톨로지의 예를 도시한 도면,
도 5는 제2 실시 예에 따른 지식 학습 장치의 구성을 도시한 블록도, 그리고,
도 6은 본 발명의 일 실시 예에 따른 지식 학습 방법을 설명하기 위한 흐름도이다.

이하 첨부된 도면들을 참조하여 본 발명에 대하여 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시 예에 따른 지식 학습 장치의 구성을 도시한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 온톨로지 지식 학습 장치(100)는 입력부(110), 지식정보 추출부(120), 지식 그래프 생성부(130), 학습(140), 저장부(150) 및 제어부(160)로 구성될 수 있다.

입력부(110)는 인터넷 망과 연결하기 위해 형성되며, 인터넷 망에 무선 또는 유선 방식으로 접속될 수 있다. 입력부(110)는 인터넷 망을 통하여 웹 페이지를 수집할 수 있으며, 수집된 웹 페이지 상의 비구조 정보를 지식정보 추출부(120)에 제공할 수 있다. 본 실시 예에서는 인터넷 망을 통하여 웹 페이지를 수신하는 것을 기술하였지만, 인터넷 망이 아닌 외부 장치로부터 웹 페이지 또는 정보를 입력받을 수도 잇다.

지식정보 추출부(120)는 비구조 정보로부터 복수의 지식 정보를 추출한다. 구체적으로, 지식정보 추출부(120)는 웹 페이지 등과 같은 텍스트에서 복문으로 구성된 문장을 추출하고, 추출된 복문 상의 객체 및 술어를 이용하여 트리플 인스턴스 형태의 복수의 지식 정보를 추출할 수 있다. 여기서 트리플 인스턴스란 술어를 중심으로 하는 문장 성분들의 의존 관계를 트리플 형태로 표시한 것으로, 하나의 트리플 인스턴스는 도 2와 같이 표현될 수 있다. 그리고 트리플 인스턴스는 RDF/RDFS 또는 OWL 표준 언어로 기술될 수 있는데, 지식정보 추출부(120)는 저장부(130)의 온톨로지 언어에 대응되는 언어로 트리플 인스턴스를 추출할 수 있다.

지식 그래프 생성부(130)는 추출된 복수의 지식 정보를 이용하여 하나의 지식 그래프를 생성한다. 구체적으로, 지식 그래프 생성부(130)는 지식정보 추출부(120)에서 추출된 복수의 지식 정보를 '비구조 정보의 유사한(coocurrence) 정보'를 이용하여 하나의 지식 그래프로 생성할 수 있다. 여기서 지식 그래프는 비구조 정보의 복수의 객체에 대응되는 복수의 정점 및 비구조 정보의 술어에 대응되는 변을 포함하는 그래프이다. 지식 그래프 생성부(130)의 구체적인 동작에 대해서는 도 3과 관련하여 후술한다.

학습부(140)는 생성된 지식 그래프를 이용하여, 추출된 복수의 지식 정보 각각에 대한 온톨로지의 학습을 수행한다. 구체적으로, 학습부(140)는 온톨로지를 구성하는 복수의 서브 그래프 각각과 추출된 지식 정보 간의 유사도를 생성된 지식 그래프를 이용하여 비교하고, 비교 결과 가장 유사도가 높은 서브 그래프에 추출된 지식 정보를 학습시킬 수 있다. 학습부(140)의 구체적인 동작에 대해서는 도 4를 참조하여 후술한다.

저장부(150)는 온톨로지를 저장한다. 그리고 저장부(150)에 저장된 온톨로지는 복수의 서브 그래프를 포함하며, 상술한 학습부(140)에 의하여 학습이 된다.

제어부(160)는 지식 학습 장치(100)에 포함된 각 구성을 제어한다. 구체적으로, 제어부(160)는 입력부(110)를 통하여 비구조 정보가 입력되면, 입력된 비구조 정보에 기초하여 저장부(130)에 저장된 온톨로지가 학습이 될 수 있도록, 지식 정보 추출부(120), 지식 그래프 생성부(130) 및 학습부(140)를 제어할 수 있다.

이상과 같이 본 실시 예에 따른 지식 학습 장치(100)는 복수의 지식 정보로 구성되는 지식 그래프를 이용하여 온톨로지를 학습하는바, 온톨로지 학습시의 정보 부족 현상을 방지할 수 있다. 구체적으로, 지식 정보에 대응되는 온톨로지의 서브 그래프를 매칭하는 과정에서, 복수의 지식 정보로 생성된 지식 그래프를 이용하는바, 즉, 충분한 정보를 기초로 서브 그래프와의 매칭이 수행되는바, 보다 정확한 매칭을 수행할 수 있게 된다.

한편, 도 1을 설명함에 있어서, 지식 학습 장치(100)는 온톨로지를 학습하는 동작만을 수행하는 것으로 설명하였지만, 구현시에는 학습된 온톨로지를 이용하여 검색 및 정보 제공의 기능을 수행할 수도 있다. 또한, 도 1을 설명함에 있어서, 지식 학습 장치(100)가 하나의 장치로 구현되는 것으로 설명하였지만, 구현시에는 복수의 장치로 구현될 수 있다. 이에 대해서는 도 5를 참조하여 후술한다.

이상에서는 지식 학습 장치(100)의 구성에 대해서 설명하였으며, 도 2 내지 도 4를 참조하여, 지식 학습 장치(100)의 구체적인 동작에 대해서 설명한다.

본 발명의 비구조 정보는 자연어 문장으로 구성된 텍스트를 의미한다. 웹 페이지 또는 다른 텍스트들은 비구조 정보에 해당하나, HTML tag나 링크 정보는 이에 해당하지 않는다. 이러한 텍스트로부터 지식 그래프를 생성하는 것은 크게 두 단계로 구분될 수 있다.

첫번째로, 기존의 자연어 처리 기술을 이용하여 텍스트를 분석하고, 단편적인 지식 정보를 추출하는 것이고, 두번째로는 추출된 지식 정보를 공유하는 객체를 이용하여 지식 그래프를 구축하는 것이다.

첫번째 단계에서 단편적인 지식 정보는 술어를 중심으로 하는 문장 성분들의 의존 관계를 트리플 형태로 표현한 것이다. 즉, 트리플 정보의 첫번째 인자는 술어이고, 두 번째 및 세 번째 인자는 술어와 의존관계가 있는 문자 성분의 해당 객체를 표현한다.

예를 들어, "A는 대한민국의 기업가이다."라는 텍스트가 입력부(110)를 통하여 입력된다면, 지식정보 추출부(120)는 아래와 같은 트리플(또는 트리플 인스턴스)을 추출할 수 있다.

(기업가이다, 이재용, 대한민국)

일반적으로 한국어의 술어 '이다', '되다'는 명사와 결합하여 보다 구체적인 서술적인 의미를 표현한다. 따라서, 지식 정보 추출부(120)는 '이다', '되다' 술어의 결합을 하나의 술어로 간주하고, 해당 술어와 의존 관계에 있는 주어 및 보어, 목적어를 이용하여 트리플 형태의 지식 정보를 추출할 수 있다.

한편, "A는 D그룹 회장인 C의 아들이며, D 그룹의 창업주인 호암 C의 손자이다"라는 텍스트에서 트리플을 추출한다면, 지식정보 추출부(120)는 아래와 같은 5개의 트리플을 추출할 수 있다.

(아들이다, A, B)

(회장이다, B, D그룹)

(창업주이다, C, D그룹)

(손자이다, A, C)

(호, C, 호함)

추출된 5개의 트리플 중 앞선 4개는 앞선 단문에 대한 추출 방식과 동일한 방식으로 추출된 것이고, 다섯 번째 트리플은 호칭과 관련되어 추출된 것으로, 호는 사람의 호칭을 표현하는 특별한 경우로서, 이름 앞에 선행하는 명사를 호 또는 별칭, 직위를 나타내는 어휘로 간주하여 추출된 것이다.

이상에서는 트리플 추출 방법에 대해서 설명하였으며, 이하에서는 추출된 트리플을 이용하여 지식 그래프를 생성하는 과정에 대해서 설명한다.

구체적으로, 추출된 트리플의 객체들이 한 문자에서 유사한(coocurrence) 정보를 이용해 하나의 그래프를 만든다. 이러한 과정에 의하여 생성된 그래프를 지식 그래프라고 하는데, 앞서 단문 텍스트에서 추출된 트리플을 이용하여 지식 그래프를 생성하면 도 2와 같다. 구체적으로, 그래프의 정점(vertex)는 개체, 변(edge)은 술어에 대응된다. 따라서, 도 2를 참조하면, 술어에 대응되는 주어, 보어인 A, 대한민국이 그래프의 정점에 위치하고, 술어인 '기업가이다.'가 그래프의 변으로 위치하게 된다.

한편, 복문 텍스트에서 추출된 복수의 트리플을 이용하여 지식 그래프를 생성하면 도 3과 같다. 구체적으로, 단문과 같은 방법으로 트리플로부터 간단한 그래프를 생성하고, 문장 내 객체를 공유하는 정보를 이용해 여러 개의 간단한 그래프를 단일한 그래프로 생성한 것이다. 객체에서 부착된 인덱스는 그래프에서 연결하는 정점으로 사용된 것을 의미하면, 도 3에서는 네 개의 객체가 연결 정점으로 사용되었다.

이와 같이 지식 그래프가 생성되면, 생성된 지식 그래프를 이용하여 온톨로지를 학습하여야 하는데, 우선적으로 도 4를 참조하여 학습 대상인 온톨로지에 대해서 먼저 설명한다.

RDF/RDFS 또는 OWL로 구축된 온톨로지는 그 자체로 그래프 형태로 표현된다. 이때 객체 및 관계, 그리고 속성은 고유의 식별자로 표현되고, 이들에 사람들이 쉽게 식별할 수 있는 레이블이 부착될 수 있다. 따라서, 온톨로지는 그 자체로 정점과 변이 레이블된 레이블 그래프로 간주할 수 있는데, 도 3에 그러한 레이블 그래프로서의 온톨로지가 표시되어 있다.

도 4는 온톨로지의 예를 도시한 도면이다.

도 4를 참조하면, 온톨로지의 스키마 그래프에는 인물 간의 가족 관계, 인물의 회사에서의 역할, 직위 관계를 정의하고 있다. 인스턴스 그래프는 이러한 관계 정보 중 A, B, C 사이의 가족 관계에 관한 사실 정보만을 표현하고 있다.

특히, 도 3과 같은 지식 그래프는 기저장된 온톨로지에서 표현하고 있지 않은 새로운 사실정보로서, 인물들에 대한 역할 및 직위 정보를 보유하고 있다. 따라서, 지식 그래프의 객체와 온톨로지 그래프의 객체를 매칭함으로써 온톨로지에서 표현하고 있지 않은 새로운 정보를 추가할 수 있다.

상기 예와 같이 지식 그래프와 온톨로지 그래프를 병렬로 보임으로써 사용자가 직관적으로 동일한 객체를 식별하는데 도움이 되면, 특히 온톨로지 그래프의 경우, 그래프 기반 탐색 방법을 적용하여 효과적인 검색을 지원할 수 있다.

이하에서는 지식 그래프와 온톨로지 그래프 간의 매칭하는 방법에 대해서 설명한다.

먼저, 지식 그래프 및 온톨로지 그래프의 시각화를 통해 사용자가 직관적으로 동일한 객체를 인지할 수 있지만, 보다 효율적인 객체 간 매칭을 위해서는 매칭 가능성이 큰 객체를 자동으로 찾을 수 있는 방법이 요구된다.

따라서, 본 발명의 일 실시 예에 따른 지식 학습 장치(100)는 그래프 커널을 이용한 지식 그래프 커널을 이용한다. 지식 그래프 커널이란 텍스트로부터 생성된 지식 그래프와 온톨로지 서브 그래프를 매칭하기 위한 유사도 측정 방법으로, 이것은 종래의 그래프 커널을 기반으로 한다. 지식 그래프 커널을 용이하게 설명하기 위하여, 종래의 그래프 커널을 먼저 설명한다.

그래프 커널은 그래프의 서브 구조(substucture)를 이용하여 그래프 간의 유사도를 구하는 것으로, 그래프 커널의 서브 구조는 다양하게 정의될 수 있다.

본 발명의 지식 그래프 커널은 랜덤 워크(random walk)를 서브구조로 사용하는 그래프 커널을 이용하였으나, 이에 한정되지 않는다. 랜덤 워크 기반 그래프 커널에서 두 그래프가 유사하다는 것은 두 그래프가 가지는 공통된 랜덤 워크 수가 많다는 것을 의미한다. 따라서, 두 그래프 G1과 G2가 주어졌을 때, 그래프 커널 Kgraph(G1, G2)는 아래의 수학식 1과 같이 정의된다.

여기서 Kwalk(walk1, walk2)는 주어진 두 워크 walk1과 walk2의 유사도를 측정하는 것으로 아래의 수학식 2과 같이 정의된다.

여기서, Kstep은 각 워크를 이루는 두 정점과 이들을 잇는 변 간의 유사도를 측정하는 함수이다. 본 발명에서는 이러한 Kstep을 본 발명에 적합하게 정의하여 이용한다.

구체적으로, 텍스트로부터 추출한 지식 그래프를 G1이라 지칭하고, 온톨로지의 서브 그래프를 G2라고 지칭할 때, 지식 그래프 커널을 위한 Kstep은 아래의 수학식 3과 같이 정의된다.

여기서, Kvertex는 두 그래프 G1과 G2의 정점에 대한 유사도를 측정하는 함수이고, Kedge는 두 그래프 G1과 G2의 변(edge)에 대한 유사도를 측정하는 함수이다. 각 함수는 아래의 수학식 4과 같이 정의된다.

여기서, 함수 I는 주어진 두 정점이 동일한 역할, 즉 머리(head) 또는 꼬리(tail)일 때, 1을 반환하고 아니면 0을 반환한다. 그리고 Sim 함수는 정점 또는 변 간의 문자 유사도에 해당하며, 기존의 잘 알려진 string kernal 또는 edit distance 같은 문자열 매칭 방법을 사용한다.

지식 그래프와 온톨로지 서브 그래프 사이에 유사도가 계산되면, 이를 바탕으로 지식 그래프가 온톨로지의 특정 인스턴스와 결합되는 지식 확장 단계가 수행된다. 이는 지식 그래프 커널을 통해 계산된 지식 그래프와 모든 온톨로지 서브 그래프의 유사도를 바탕으로 결정된다.

이를 위하여, 지식 그래프는 기존의 온톨로지 서브 그래프 중 유사도가 가장 높은 서브 그래프를 선택한 후, 해당 서브 그래프와 새로운 지식 그래프를 결합하여 지식 확장이 수행된다.

도 5는 제2 실시 예에 따른 지식 학습 시스템의 구성을 도시한 블록도이다.

도 5를 참조하면, 지식 학습 시스템(1000)은 서비스 파트(200) 및 입력 자원(300)으로 구성된다.

입력 자원(300)은 웹 텍스트, 온톨로지(410), 웹 텍스트 끝단(310), 온톨로지 끝단(420)으로 구성된다. 그리고 입력 자원(300)과 서비스 파트(200)는 인터넷을 통하여 연결된다.

*웹 텍스트는 웹상의 대량의 텍스트 정보로, 지식 추출 자원으로 활용된다.

온톨로지(410)는 RDF/RDFS 또는 OWL로 구축된 지식 정보이다.

웹 텍스트 끝단(310)은 임의의 웹 텍스트를 얻기 위한 API를 제공한다. 구현시에는 기존의 포탈에서 제공하는 API를 활용할 수 있다.

온톨로지 끝단(420)은 지식 기반에 접근하기 위한 API를 제공한다. 특정 객체에 대한 검색부터 전체 온톨로지를 제공받는 등 다양한 기능을 활용할 수 있다. SPARQL과 같은 온톨로지 질의 언어를 이용할 수 있다.

서비스 파트(200)는 지식 그래프 생성기(210), 지식 후보 생성기(220), 온톨로지 서브 그래프 생성기(230), 및 지식 확장 GUI(240)로 구성된다.

지식 그래프 생성기(210)는 웹 텍스트 끝단(310)을 통해 얻은 텍스트로부터 지식 트리플을 추출하고, 추출된 트리플을 지식 그래프로 생성한다. 구현시에는 형태소 분석기와 같은 의존 파서를 이용할 수 있다.

온톨로지 서브 그래프 생성기(230)는 온톨로지 끝단(420)을 통해 온톨로지의 각 인스턴스를 표현하는 서브 그래프를 생성한다. 생성된 서브 그래프는 비구조 문서로부터 생성된 지식 그래프와의 매칭에 활용될 수 있다.

지식 후보 생성기(220)는 지식 그래프 생성기(210)에서 얻은 하나의 지식 그래프와 온톨로지 서브 그래프 생성기(230)에서 얻은 온톨로지 서브 그래프를 비교한다. 구현시에는 상술한 지식 그래프 커널을 이용할 수 있다.

지식 확장 GUI(240)는 지식 후보 생성기(220)로부터 매칭 신뢰도가 높은 상위의 온톨로지 서브 그래프와 지식 그래프를 사용자에게 제시한다. 사용자는 생성된 지식 그래프와 시스템이 제공한 후보 온톨로지 서브 그래프들을 비교하여 추출된 지식에 대응하는 온톨로지 인스턴스를 찾는다. 이렇게 각 지식에 대응하는 적합 온톨로지의 인스턴스가 찾아지면, 온톨로지 끝단(420)을 이용하여 온톨로지의 지식 확장이 수행된다.

도 6은 본 발명의 일 실시 예에 따른 지식 학습 방법을 설명하기 위한 흐름도이다.

도 6을 참조하면, 먼저, 비구조 정보로부터 복수의 지식 정보를 추출한다(S610). 구체적으로, 웹 페이지 등과 같은 텍스트에서 복문으로 구성된 문장을 추출하고, 추출된 복문 상의 객체 및 술어를 이용하여 트리플 인스턴스 형태의 복수의 지식 정보를 추출할 수 있다. 여기서 트리플 인스턴스란 술어를 중심으로 하는 문장 성분들의 의존 관계를 트리플 형태로 표시한 것이다.

그리고 추출된 복수의 지식 정보를 이용하여 하나의 지식 그래프를 생성한다(S620). 구체적으로, 추출된 복수의 지식 정보를 '비구조 정보의 유사한(coocurrence) 정보'를 이용하여 하나의 지식 그래프로 생성할 수 있다. 여기서 지식 그래프는 비구조 정보의 복수의 객체에 대응되는 복수의 정점 및 비구조 정보의 술어에 대응되는 변을 포함하는 그래프이다.

그리고 생성된 지식 그래프를 이용하여, 상기 추출된 복수의 지식 정보 각각에 대한 온톨로지 학습을 수행한다(S630). 구체적으로, 온톨로지를 구성하는 복수의 서브 그래프 각각과 추출된 지식 정보 간의 유사도를 생성된 지식 그래프를 이용하여 비교하고, 비교 결과 가장 유사도가 높은 서브 그래프에 추출된 지식 정보를 학습시킬 수 있다.

한편, 이상에서는 비구조 정보를 이용하여 온톨로지를 학습하는 동작에 대해서만 설명하였지만, 구현시에는 학습된 온톨로지를 이용하여 검색 및 정보 제공 기능을 수행할 수도 있다.

따라서, 본 실시 예에 따른 지식 학습 방법은 복수의 지식 정보로 구성되는 지식 그래프를 이용하여 온톨로지를 학습하는바, 온톨로지 학습시의 정보 부족 현상을 방지할 수 있다. 도 6과 같은 지식 학습 방법은 도 1의 구성을 가지는 지식 학습 장치상에서 실행될 수 있으며, 그 밖의 다른 구성을 가지는 약병 분류 장치상에서도 실행될 수 있다.

또한, 상술한 바와 같은 지식 학습 방법은, 상술한 바와 같은 지식 학습 방법을 실행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 컴퓨터 판독 기록매체에 저장될 수 있다.

따라서, 본 발명의 각 블록들은 컴퓨터 판독가능한 기록매체 상의 컴퓨터 기록 가능한 코드로써 실시될 수 있다. 컴퓨터 판독가능한 기록매체는 컴퓨터시스템에 의해 판독될 수 있는 데이터를 저장할 수 있는 디바이스가 될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 애플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

100: 지식 학습 장치 110: 입력부
120: 지식정보 추출부 130: 지식 그래프 생성부
140: 학습부 150: 저장부
160: 제어부

Claims

온톨리지의 지식 학습 장치에 있어서,
온톨로지를 저장하는 저장부;
비구조 정보로부터 복수의 지식 정보를 추출하는 지식 정보 추출부;
상기 추출된 복수의 지식 정보를 이용하여 하나의 지식 그래프를 생성하는 지식 그래프 생성부; 및
상기 생성된 지식 그래프를 이용하여, 상기 추출된 복수의 지식 정보 각각에 대한 상기 온톨로지의 학습을 수행하는 학습부;를 포함하는 지식 학습 장치.
제1항에 있어서,
상기 비구조 정보는,
웹 페이지로부터 수집된 정보인 것을 특징으로 하는 지식 학습 장치.
제1항에 있어서,
상기 지식 정보는,
술어를 중심으로 하는 문장 성분들의 의존 관계를 트리플 형태로 표시한 트리플 인스턴스인 것을 특징으로 하는 지식 학습 장치.
제3항에 있어서,
상기 트리플 인스턴스는,
RDF/RDFS 또는 OWL 표현 언어로 기술된 것을 특징으로 하는 지식 학습 장치.
제1항에 있어서,
상기 지식정보 추출부는,
상기 비구조 정보로부터 복문으로 구성되는 문장을 추출하고, 상기 추출된 복문 상의 객체 및 술어를 이용하여 복수의 지식 정보를 추출하는 것을 특징으로 하는 지식 학습 장치.
제1항에 있어서,
상기 지식 그래프 생성부는,
상기 비구조 정보에서의 유사한(coocurrence) 정보를 이용하여 상기 추출된 지식 정보를 하나의 지식 그래프로 생성하는 것을 특징으로 하는 지식 학습 장치.
제1항에 있어서,
상기 지식 그래프는,
비구조 정보의 복수의 객체에 대응되는 복수의 정점 및 상기 비구조 정보의 술어에 대응되는 상기 복수의 정점 사이의 변을 포함하는 것을 특징으로 하는 지식 학습 장치.
제1항에 있어서,
상기 학습부는,
온톨로지를 구성하는 복수의 서브 그래프 각각과 상기 추출된 지식 정보 간의 유사도를 상기 생성된 지식 그래프를 이용하여 비교하고, 비교 결과 가장 유사도가 높은 서브 그래프에 상기 추출된 지식 정보를 학습하는 것을 특징으로 하는 지식 학습 장치.
온톨로지의 지식 학습 방법에 있어서,
지식 정보 추출부가, 비구조 정보로부터 복수의 지식 정보를 추출하는 단계;
지식 그래프 생성부가, 상기 추출된 복수의 지식 정보를 이용하여 하나의 지식 그래프를 생성하는 단계; 및
상기 생성된 지식 그래프를 이용하여, 학습부가, 상기 추출된 복수의 지식 정보 각각에 대한 온톨로지 학습을 수행하는 단계;를 포함하는 지식 학습 방법.
제9항에 있어서,
상기 비구조 정보는,
웹 페이지로부터 수집된 정보인 것을 특징으로 하는 지식 학습 방법.
제9항에 있어서,
상기 지식 정보는,
술어를 중심으로 하는 문장 성분들의 의존 관계를 트리플 형태로 표시한 트리플 인스턴스인 것을 특징으로 하는 지식 학습 방법.
제11항에 있어서,
상기 트리플 인스턴스는,
RDF/RDFS 또는 OWL 표현 언어로 기술된 것을 특징으로 지식 학습 방법.
제9항에 있어서,
상기 추출하는 단계는,
상기 지식 정보 추출부가, 상기 비구조 정보로부터 복문으로 구성되는 문장을 추출하고,
상기 추출된 복문 상의 객체 및 술어를 이용하여 복수의 지식 정보를 추출하는 것을 특징으로 하는 지식 학습 방법.
제9항에 있어서,
상기 지식 그래프 생성부가, 상기 지식 그래프를 생성하는 단계는,
상기 비구조 정보에서의 유사한(coocurrence) 정보를 이용하여 상기 추출된 지식 정보를 하나의 지식 그래프로 생성하는 것을 특징으로 하는 지식 학습 방법.
제9항에 있어서,
상기 지식 그래프는,
비구조 정보의 복수의 객체에 대응되는 복수의 정점 및 상기 비구조 정보의 술어에 대응되는 상기 복수의 정점 사이의 변을 포함하는 것을 특징으로 하는 지식 학습 방법.
제9항에 있어서,
상기 학습부가, 상기 학습을 수행하는 단계는,
온톨로지를 구성하는 복수의 서브 그래프 각각과 상기 추출된 지식 정보 간의 유사도를 상기 생성된 지식 그래프를 이용하여 비교하고, 비교 결과 가장 유사도가 높은 서브 그래프에 상기 추출된 지식 정보를 학습하는 것을 특징으로 하는 지식 학습 방법.