KR102111733B1 - 데이터 증강 기반 지식 통합 시스템 및 방법 - Google Patents

데이터 증강 기반 지식 통합 시스템 및 방법 Download PDF

Info

Publication number
KR102111733B1
KR102111733B1 KR1020180151222A KR20180151222A KR102111733B1 KR 102111733 B1 KR102111733 B1 KR 102111733B1 KR 1020180151222 A KR1020180151222 A KR 1020180151222A KR 20180151222 A KR20180151222 A KR 20180151222A KR 102111733 B1 KR102111733 B1 KR 102111733B1
Authority
KR
South Korea
Prior art keywords
instance
knowledge
information
candidate
unit
Prior art date
Application number
KR1020180151222A
Other languages
English (en)
Inventor
이경일
김광민
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to KR1020180151222A priority Critical patent/KR102111733B1/ko
Application granted granted Critical
Publication of KR102111733B1 publication Critical patent/KR102111733B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

지식 도메인의 지식 데이터를 지식 베이스에 통합하기 위한 지식 통합 시스템은, 본 발명의 예시적 실시예에 따라, 지식 도메인의 제1 인스턴스를 획득하고, 지식 도메인에서 검색된 적어도 하나의 제2 인스턴스에 기초하여 제1 인스턴스의 정보를 증강시킴으로써 대상 인스턴스를 생성하는 데이터 증강부, 대상 인스턴스에 기초하여 지식 베이스로부터 적어도 하나의 후보 인스턴스를 획득하는 후보 선출부, 및 대상 인스턴스 및 적어도 하나의 후보 인스턴스 사이 유사도를 계산하고, 유사도에 기초하여 대상 인스턴스를 지식 베이스에 통합하는 데이터 통합부를 포함할 수 있다.

Description

데이터 증강 기반 지식 통합 시스템 및 방법{SYSTEM AND METHOD FOR INTEGRATING KNOWLEDGE BASED ON DATA REINFORCEMENT}
본 발명의 기술적 사상은 지식 통합에 관한 것으로서, 자세하게는 데이터 증강 기반 지식 통합 시스템 및 방법에 관한 것이다.
본 발명은 과학기술정보통신부 SW컴퓨팅산업원천기술개발사업(SW)의 일환으로 (주)솔트룩스에서 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2018.01.01~2018.12.31, 연구관리 전문기관: 정보통신기술진흥센터, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 2013-0-00109]
지식 데이터를 저장하고 저장된 지식 데이터를 제공하는 지식 베이스(knowledge base)가 구축될 수 있다. 지식 베이스에 포함된 지식(또는 지식 데이터)을 보충하거나 지식 베이스에 새로운 지식을 추가하기 위하여, 지식 베이스의 외부에서 제공되는 지식 리소스에 따라 신규 지식이 지식 베이스에 추가되거나 지식 베이스에 포함된 지식이 수정될 수 있다. 이와 같은 지식 통합을 위하여, 외부의 지식 리소스에 대응하는 지식 베이스의 지식을 정확하게 검출하는 것이 요구될 수 있다. 사람에 의한 큐레이션 작업을 통해서 지식 베이스의 지식 및 지식 리소스 사이 관계를 설정하는 것은, 방대한 지식의 양에 기인하여 매우 제한적일 수 있다.
본 발명의 기술적 사상은, 데이터 증강에 기반하여 자동으로 지식 통합을 수행하기 위한 시스템 및 방법을 제공한다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상에 따라 지식 도메인의 지식 데이터를 지식 베이스에 통합하기 위한 지식 통합 시스템은, 지식 도메인의 제1 인스턴스를 획득하고, 지식 도메인에서 검색된 적어도 하나의 제2 인스턴스에 기초하여 제1 인스턴스의 정보를 증강시킴으로써 대상 인스턴스를 생성하는 데이터 증강부, 대상 인스턴스에 기초하여 지식 베이스로부터 적어도 하나의 후보 인스턴스를 획득하는 후보 선출부, 및 대상 인스턴스 및 적어도 하나의 후보 인스턴스 사이 유사도를 계산하고, 유사도에 기초하여 대상 인스턴스를 지식 베이스에 통합하는 데이터 통합부를 포함할 수 있다.
본 발명의 예시적 실시예에 따라, 데이터 증강부는, 후보 인스턴스의 정보를 증강시킬 수 있고, 데이터 통합부는, 대상 인스턴스 및 증강된 정보를 가지는 후보 인스턴스 사이 유사도를 계산할 수 있다.
본 발명의 예시적 실시예에 따라, 데이터 증강부는, 지식 베이스의 온톨로지에 따라 지식 도메인의 지식 데이터로부터 변환된 인스턴스들을 저장하는 도메인 데이터베이스로부터 제1 인스턴스 및 제2 인스턴스를 획득할 수 있다.
본 발명의 예시적 실시예에 따라, 데이터 증강부는, 제1 인스턴스에 기초하여 지식 도메인에서 적어도 하나의 제2 인스턴스를 검색하는 인스턴스 검색부, 적어도 하나의 제2 인스턴스의 정보를 제1 인스턴스에 추가하는 정보 추론부, 및 제1 인스턴스에 추가된 정보를 후처리함으로써 대상 인스턴스를 생성하는 대상 인스턴스 생성부를 포함할 수 있다.
본 발명의 예시적 실시예에 따라, 데이터 증강부는, 인스턴스를 주어로서 포함하고 인스턴스에 대한 정보를 술어 및 목적어로서 포함하는 트리플(triple)을 저장하는 도메인 데이터베이스로부터 상기 제1 인스턴스 및 상기 제2 인스턴스를 획득할 수 있고, 인스턴스 검색부는, 도메인 데이터베이스에서 제1 인스턴스의 식별자를 트리플의 목적어로서 가지는 적어도 하나의 제2 인스턴스를 검색할 수 있다.
본 발명의 예시적 실시예에 따라, 정보 추론부는, 적어도 하나의 제2 인스턴스의 식별자를 주어로서 포함하는 적어도 하나의 트리플로부터 적어도 하나의 역(inverse) 트리플을 생성하고, 제1 인스턴스에 적어도 하나의 역 트리플에 대응하는 정보를 추가할 수 있다.
본 발명의 예시적 실시예에 따라, 대상 인스턴스 생성부는, 제2 인스턴스에 의해서 추가된 역 트리플의 목적어가 도메인 데이터베이스에서 인스턴스를 가리키는 식별자인 경우, 식별자가 가리키는 인스턴스의 명칭으로서 식별자를 대체할 수 있다.
본 발명의 예시적 실시예에 따라, 후보 선출부는, 지식 베이스에서 대상 인스턴스의 명칭을 주어로서 가지는 인스턴스를 검색함으로써 적어도 하나의 후보 인스턴스를 획득할 수 있다.
본 발명의 예시적 실시예에 따라, 데이터 통합부는, 대상 인스턴스의 정보 및 적어도 하나의 후보 인스턴스의 정보 사이 일치 여부를 판단하는 공통 정보 검출부, 및 일치하는 정보의 개수에 기초하여 유사도를 계산하고, 가장 높은 유사도에 대응하는 후보 인스턴스에 대상 인스턴스의 정보를 추가하는 유사도 계산부를 포함할 수 있다.
본 발명의 예시적 실시예에 따라, 유사도 계산부는, 일치하는 정보의 개수의 로그값에 기초하여 유사도를 계산할 수 있다.
본 발명의 기술적 사상에 따른 시스템 및 방법에 의하면, 지식 베이스의 외부로부터 제공되는 지식 리소스의 지식이 지식 베이스에 자동으로 통합될 수 있다.
또한, 본 발명의 기술적 사상에 따른 시스템 및 방법에 의하면, 다양한 지식 도메인들에 포함된 지식들의 통합을 가속화시킬 수 있고, 이에 따라 방대한 양의 지식을 포함하는 지식 베이스가 용이하게 구축될 수 있다.
본 발명의 예시적 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 아니하며, 언급되지 아니한 다른 효과들은 이하의 기재로부터 본 발명의 예시적 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 발명의 예시적 실시예들을 실시함에 따른 의도하지 아니한 효과들 역시 본 발명의 예시적 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.
도 1은 본 발명의 예시적 실시예에 따른 시스템 및 그 입출력 관계를 나타내는 블록도이다.
도 2는 본 개시의 예시적 실시예에 따라 인스턴스의 예시를 나타내는 도면이다.
도 3은 본 개시의 예시적 실시예에 따라 도 1의 데이터 증강부의 예시를 나타내는 블록도이다.
도 4는 본 개시의 예시적 실시예에 따라 도 3의 데이터 증강부의 동작의 예시를 나타내는 도면이다.
도 5는 본 개시의 예시적 실시예에 따라 도 1의 후보 선출부의 동작의 예시를 나타내는 도면이다.
도 6은 본 개시의 예시적 실시예에 따라 도 1의 데이터 통합부의 예시를 나타내는 블록도이다.
도 7은 본 개시의 예시적 실시예에 따라 도 6의 데이터 통합부의 동작의 예시를 나타내는 테이블이다.
도 8은 본 개시의 예시적 실시예에 따른 지식 통합 시스템 및 그 입출력 관계를 나타내는 블록도이다.
도 9는 본 개시의 예시적 실시예에 따른 지식 통합 방법을 나타내는 순서도이다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 아니하는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하 도면 및 설명에서, 하나의 블록으로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다. 또한, 본 명세서에서 "시스템" 또는 "데이터베이스"는 적어도 하나의 프로세서 및 프로세서에 의해서 액세스되는 메모리를 포함하는 컴퓨팅 시스템을 지칭할 수 있다.
도 1은 본 발명의 예시적 실시예에 따른 시스템 및 그 입출력 관계를 나타내는 블록도이다. 도 1에 도시된 바와 같이, 지식 통합 시스템(100)은 지식 도메인들(310, 320 등)로부터 제1 인스턴스(IN_1) 및 제2 인스턴스(IN_2)를 수신할 수 있고, 지식 베이스(200)와 통신가능하게 연결될 수 있다. 후술되는 바와 같이, 지식 통합 시스템(100)은 지식 도메인들(310, 320 등)로부터 제공되는 지식 리소스, 즉 제1 인스턴스(IN_1)를 지식 베이스(200)에 저장된 지식과 통합할 수 있고, 통합된 지식을 지식 베이스(200)에 다시 제공할 수 있다. 도 1에 도시된 블록들(100, 200, 310, 320)은 네트워크를 통해서 상호 통신할 수도 있고, 일대일 통신을 위한 전용 채널을 통해서 상호 통신할 수도 있다. 또한, 도 1에 도시된 블록들(100, 200, 310, 320) 중 2개 이상이 하나의 시스템(예컨대, 컴퓨팅 시스템)에 포함될 수 있고, 일부 실시예들에서 지식 통합 시스템(100)은 지식 베이스(200)에 포함될 수도 있다.
지식 도메인들(310, 320 등) 각각은 다양한 지식 리소스를 보유할 수 있고, 지식 리소스를 제공하는 임의의 주체를 지칭할 수 있다. 예를 들면, 지식 도메인들(310, 320 등) 중 일부는 위키피디아(www.wikipedia.org)와 같이 사용자에 정보를 제공하는 주체를 지칭할 수도 있고, 특정 분야의 지식들을 저장하고 있는 서버를 지칭할 수도 있고, 뉴스와 같은 기사들을 저장하고 있는 서버를 지칭할 수도 있으며, 지식 베이스(200)와 상이한 다른 지식 베이스를 지칭할 수도 있다. 본 명세서에서, 인스턴스(예컨대, IN_1, IN_2 등)는 특정 지식을 나타내는 데이터 단위로서 정의될 수 있으며, 본 명세서에서 지식 인스턴스로서 지칭될 수도 있다. 예를 들면, 도 2를 참조하여 후술되는 바와 같이, 제1 인스턴스(IN_1)는 "이순신"에 대응할 수 있고, 제1 인스턴스(IN_1)에 관한 정보를 지식 베이스(200)에 저장된 인스턴스 "이순신"과 정확하게 통합하는 것이 요구될 수 있다.
지식 베이스(200)는 온톨로지에 기초하여 구조화된 지식(또는 지식 데이터)을 포함할 수 있다. 온톨로지(ontology)는 실존하거나 사람이 인식 가능한 것들을 컴퓨터에서 다룰 수 있는 형태로 표현한 것으로서, 온톨로지 구성요소들은, 예컨대 엔티티(entity; E)(또는 인스턴스(instance)), 클래스(class; C), 속성(property; P), 값(value; V)을 포함할 수 있다. 추가적으로, 온톨로지 구성요소들은, 관계(relation)(엔티티간 속성 또는 클래스간 속성), 함수 텀(function term), 제한(restriction), 규칙(rule), 사건(event) 등을 더 포함할 수 있다. 지식 베이스(200)는 온톨로지에 기반하여 방대한 지식 데이터를 저장할 수 있고, 예컨대 지식 베이스(200)는 RDF(Resource Description Framework)를 사용하여 표현된 지식 데이터를 포함할 수 있으며, 도 2를 참조하여 후술되는 바와 같이, 지식 데이터 단위로서 트리플(triple)이 사용될 수 있다. 지식 베이스(200)는 쿼리, 예컨대 SPARQL(SPARQL Protocol and RDF Query Language) 쿼리에 응답하여 트리플을 반환할 수 있다. 트리플은 "주어-술어-목적어"로 구성될 수 있고, 인스턴스는 트리플의 주어뿐만 아니라 목적어도 될 수 있고, 일부 실시예들에서 술어도 될 수 있다.
지식 통합 시스템(100)은 지식 도메인들(310, 320 등)로부터 제공되는 제1 인스턴스(IN_1)에 대한 정보를 증강(또는 증폭)할 수 있고, 증강된 정보를 사용하여 지식 베이스(200)의 인스턴스들, 즉 후보 인스턴스들과 비교할 수 있다. 이에 따라 제1 인스턴스(IN_1)와 동일한 대상을 가리키는 후보 인스턴스가 정확하게 검출될 수 있고, 검출된 후보 인스턴스에 제1 인스턴스(IN_1)에 관한 정보가 통합될 수 있다. 도 1에 도시된 바와 같이, 지식 통합 시스템(100)은 데이터 증강부(120), 후보 선출부(140) 및 데이터 통합부(160)를 포함할 수 있다.
데이터 증강부(120)는 지식 도메인(예컨대, 310 또는 320)으로부터 제1 인스턴스(IN_1)를 획득할 수 있고, 지식 도메인(예컨대, 310 또는 320)에서 검색된 적어도 하나의 제2 인스턴스(IN_2)에 기초하여 제1 인스턴스(IN_1)의 정보를 증강시킴으로써 대상 인스턴스(IN_O)를 생성할 수 있다. 전술된 바와 같이, 제1 인스턴스(IN_1)에 대응하는 지식 베이스(200)의 인스턴스를 검출하기 위하여, 제1 인스턴스(IN_1)(또는, 대상 인스턴스) 및 지식 베이스(200)의 인스턴스들(또는, 후보 인스턴스들) 사이 유사도가 계산될 수 있고, 지식 베이스(200)의 인스턴스들 중 제1 인스턴스(IN_1)와 가장 유사도가 높은 인스턴스에 제1 인스턴스(IN_1)가 통합될 수 있다. 이에 따라, 인스턴스들 사이 유사도를 정확하게 도출하는 것이 요구될 수 있고, 유사도의 정확도를 높이기 위하여 제1 인스턴스(IN_1)의 정보가 증강될 수 있다.
도 2를 참조하여 후술되는 바와 같이, 인스턴스의 정보(또는 인스턴스에 대한 정보)는 인스턴스가 가지는 다양한 정보를 지칭할 수 있고, 제1 인스턴스(IN_1)의 정보가 증강됨으로써 지식 베이스(200)의 인스턴스와의 유사도가 보다 정확하게 산출될 수 있다. 제1 인스턴스(IN_1)의 정보는 지식 도메인(예컨대, 310 또는 320)에서 검색된 인스턴스, 즉 제2 인스턴스(IN_2)에 기초하여 증강될 수 있고, 본 명세서에서 제1 인스턴스(IN_1)로부터 증강된 정보를 가지는 인스턴스는 대상 인스턴스(IN_O)로서 지칭될 수 있다. 데이터 증강부(120)의 예시는 도 3을 참조하여 후술될 것이다.
후보 선출부(140)는 데이터 증강부(120)로부터 대상 인스턴스(IN_O)를 수신할 수 있고, 대상 인스턴스(IN_O)에 기초하여 지식 베이스(200)로부터 적어도 하나의 후보 인스턴스(IN_C)를 획득할 수 있다. 일부 실시예들에서, 후보 선출부(140)는 대상 인스턴스(IN_O)의 명칭(또는 레이블)에 기초하여 검색을 수행할 수 있고, 대상 인스턴스(IN_O)의 명칭을 포함하거나 그와 유사한 명칭을 가지는 적어도 하나의 인스턴스가 후보 인스턴스(IN_C)로서 검색될 수 있다. 지식 베이스(200)로부터 2이상의 후보 인스턴스들이 검색된 후, 대상 인스턴스(IN_O)가 통합될 후보 인스턴스가 결정될 수 있다. 후보 선출부(140)가 동작의 예시는 도 5를 참조하여 후술될 것이다.
데이터 통합부(160)는 데이터 증강부(120)로부터 대상 인스턴스(IN_O)를 수신할 수 있고, 후보 선출부(140)로부터 후보 인스턴스(IN_C)를 수신할 수 있다. 데이터 통합부(160)는 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C) 사이 유사도를 계산할 수 있고, 유사도에 기초하여 대상 인스턴스를 지식 베이스(200)에 통합할 수 있다. 예를 들면, 데이터 통합부(160)는 가장 높은 유사도에 대응하는 후보 인스턴스(IN_C)의 정보를 대상 인스턴스(IN_O)에 대한 정보에 기초하여 추가하거나 수정할 수 있고, 추가되거나 수정된 정보를 가지는 후보 인스턴스(IN_C)를 지식 베이스(200)에 저장할 수 있다. 전술된 바와 같이, 데이터 증강부(120)에 의해서 대상 인스턴스(IN_O)는 증강된 정보를 가질 수 있고, 이에 따라 유사도는 높은 정확도를 가질 수 있으며, 대상 인스턴스(IN_O)가 적절하게 지식 베이스(200)에 통합될 수 있다. 본 명세서에서, 대상 인스턴스(IN_O)의 정보가 지식 베이스(200)에 반영되는 것은 대상 인스턴스(IN_O)가 지식 베이스(200)에 통합되는 것으로 지칭될 수 있다. 데이터 통합부(160)의 예시는 도 6을 참조하여 후술될 것이다.
도 2는 본 개시의 예시적 실시예에 따라 인스턴스의 예시를 나타내는 도면이다. 구체적으로, 도 2는 인스턴스의 예시로서 "이순신" 및 "이순신"에 대한 정보의 예시를 나타낸다. 도 1을 참조하여 전술된 바와 같이, 지식 도메인으로부터 획득된 인스턴스(예컨대, 도 1의 IN_1) 및 지식 베이스(200)의 인스턴스(예컨대, IN_C) 사이 유사도가 인스턴스의 정보에 기초하여 계산될 수 있다. 이하에서, 도 2는 도 1을 참조하여 설명될 것이다.
도 2를 참조하면, 인스턴스 "이순신"은 다양한 정보를 가질 수 있고, 각각의 정보는 트리플에 의해서 인스턴스 "이순신"과 연계될 수 있다. 예를 들면, "이순신"은 트리플 "이순신-국적-조선"에 의해서 "국적-조선"이라는 정보를 가질 수 있다. 유사하게, 인스턴스는 "이순신-저서-난중일기"에 의해서 "저서-난중일기"라는 정보를 가질 수 있다. 인스턴스 "이순신"은 "사람"이라는 클래스에 속할 수 있고, 클래스 "사람"은 도 2에 도시된 바와 같이, "사람"에 대한 다수의 술어들(예컨대, 국적, 출생, 사망 등)을 정의할 수 있다. 도 2에 도시된 바와 같이, 본 명세서에 첨부된 도면들에서, 트리플의 주어는 사각형으로 표현될 수 있고, 목적어는 원형으로 표현될 수 있으며, 술어는 사각형 및 원형을 연결하는 에지로서 표현될 수 있다.
도 1의 지식 베이스(200)는 불완전한 정보를 가지는 지식을 포함할 수 있다. 예를 들면, 도 2의 인스턴스 "이순신"이 지식 베이스(200)에 포함된 경우, 인스턴스 "이순신"은, 술어 "한자명"에 대한 목적어를 가지지 아니할 수 있고, 술어 "고향"에 대한 목적어를 가지지 아니할 수 있다. 이와 같이, 불완전한 정보를 가지는 지식을 보충하기 위하여 지식 베이스(200) 외부의 지식, 즉 지식 도메인들(310, 320 등)로부터 제공되는 지식 리소스가 사용될 수 있다. 예를 들면, 도 1의 제1 인스턴스(IN_1)는 "이순신"에 대응할 수 있고, 지식 도메인(예컨대, 310)은 "이순신"의 한자명 "李舜臣"에 대한 정보를 포함할 수 있으며, 지식 통합 시스템(100)은 제1 인스턴스(IN_1)(또는 대상 인스턴스(IN_O))의 정보에 기초하여 트리플 "이순신-한자명-李舜臣"을 생성하여 지식 베이스(200)에 추가할 수 있다.
도 3은 본 개시의 예시적 실시예에 따라 도 1의 데이터 증강부(120)의 예시를 나타내는 블록도이고, 도 4는 본 개시의 예시적 실시예에 따라 도 3의 데이터 증강부(120')의 동작의 예시를 나타내는 도면이다. 도 1을 참조하여 전술된 바와 같이, 도 3의 데이터 증강부(120')는 제1 인스턴스(IN_1) 및 제2 인스턴스(IN_2)를 획득할 수 있고, 제2 인스턴스(IN_2)에 기초하여 제1 인스턴스(IN_1)의 정보를 증강시킴으로써 대상 인스턴스(IN_O)를 생성할 수 있다. 이하에서 도 3 및 도 4는 도 1을 참조하여 설명될 것이다.
일부 실시예들에서, 데이터 증강부(120')는 도 3에 도시된 바와 같이, 도메인 데이터베이스(330)로부터 제1 인스턴스(IN_1)를 획득할 수 있다. 도메인 데이터베이스(330)는 지식 베이스(200)의 온톨로지에 따라 지식 도메인(예컨대, 도 1의 310 또는 320)의 지식 데이터로부터 변환된 인스턴스들을 저장할 수 있다. 즉, 지식 도메인들에 포함된 지식을 지식 베이스(200)에 통합하기 위하여, 지식 도메인들에 포함된 지식은 지식 베이스(200)의 온톨로지에 따라 사전에 변환될 수 있다. 예를 들면, 지식 도메인에 포함된 지식 데이터는 지식 도메인에 기초하여 작성된 스키마에 따라 다수의 트리플들로 변환되어 도메인 데이터베이스(330)에 저장될 수 있다. 도 3에 도시된 바와 같이, 데이터 증강부(120')는 인스턴스 검색부(122), 정보 추론부(124) 및 대상 인스턴스 생성부(126)를 포함할 수 있다.
인스턴스 검색부(122)는 도메인 데이터베이스(330)로부터 제1 인스턴스(IN_1) 및 제2 인스턴스(IN_2)를 수신할 수 있다. 인스턴스 검색부(122)는 제1 인스턴스(IN_1)에 기초하여 도메인 데이터베이스(330)에서 적어도 하나의 제2 인스턴스(IN_2)를 검색할 수 있다. 예를 들면, 인스턴스 검색부(122)는 지식 베이스(200)에서 제1 인스턴스(IN_1)의 식별자에 기초하여 적어도 하나의 제2 인스턴스(IN_2)를 검색할 수 있다. 도메인 데이터베이스(330) 및 도 1의 지식 베이스(200)에서 인스턴스는 고유한 식별자, 예컨대 URI(Uniform Resource Identifier)를 가질 수 있고, 인스턴스는 URI에 의해서 식별될 수 있다. 이에 따라 트리플에서 주어는 식별자로 표현될 수 있고, 목적어 역시 식별자로 표현될 수 있다. 예를 들면, 도 2의 예시에서, 트리플 "이순신-출생-1545.04.28"은 목적어로서 값 "1545.04.28"을 가질 수 있는 한편, 트리플 "이순신-국적-조선"은 목적어으로서 인스턴스 "조선"을 가질 수 있다.
도 4를 참조하면, 인스턴스 검색부(122)는 제1 인스턴스(IN_1)의 식별자를 트리플의 목적어으로서 가지는 적어도 하나의 제2 인스턴스(IN_2)를 검색할 수 있다. 예를 들면, 도 4의 좌측에서 동일한 무늬의 원형들과 같이, 제1 인스턴스(IN_1)의 식별자를 목적어로서 가지는 다수의 트리플들이 검색될 수 있다. 이에 따라, 도 4의 좌측에서 상이한 무늬들을 가지는 사각형들에 대응하는 제2 인스턴스들이 검색될 수 있다. 인스턴스 검색부(122)는 검색된 제2 인스턴스들뿐만 아니라 제2 인스턴스들 각각에 관한 정보, 즉 제2 인스턴스들을 주어로서 가지는 트리플들을 정보 추론부(124)에 제공할 수 있다.
다시 도 3을 참조하면, 정보 추론부(124)는 제2 인스턴스(IN_2)의 정보를 제1 인스턴스(IN_1)에 추가할 수 있다. 예를 들면, 정보 추론부(124)는 인스턴스 검색부(122)로부터 수신한, 제2 인스턴스들을 주어로서 가지는 트리플들로부터 역(inverse) 트리플들을 생성할 수 있고, 역 트리플들에 대응하는 정보를 제1 인스턴스(IN_1)에 추가할 수 있다. 도 4를 참조하면, 도 4의 좌측에 도시된, 제2 인스턴스의 식별자를 주어로서 각각 가지는 다수의 트리플들이 인스턴스 검색부(122)로부터 정보 추론부(124)에 제공되는 경우, 정보 추론부(124)는 도 4의 가운데에 도시된 바와 같이 다수의 역 트리플들을 생성할 수 있다. 역 트리플은, 트리플의 주어를 목적어로서 가지고, 트리플의 목적어를 주어로서 가질 수 있고, 트리플의 술어와 반대 의미의 술어를 가질 수 있다. 예를 들면, 트리플 "대한민국-수도-서울"의 역 트리플은 트리플 "서울-소속-대한민국"일 수 있고, 이에 따라 인스턴스 "서울"에 대한 추가 정보로서 "소속-대한민국"이 생성될 수 있다.
대상 인스턴스 생성부(126)는 정보 추론부(124)에 의해서 제1 인스턴스(IN_1)에 추가된 정보를 후처리함으로써 대상 인스턴스(IN_O)를 생성할 수 있다. 트리플 "서울-소속-대한민국" 및 도 2의 트리플 "이순신-국적-조선" 등과 같이, 목적어로서 인스턴스의 식별자를 가지는 트리플은, 도 1의 데이터 통합부(160)가 양 인스턴스들 사이 유사도를 계산하기 위하여 정보의 일치 여부를 판단할 때 장애를 유발할 수 있다. 이에 따라, 일부 실시예들에서 대상 인스턴스 생성부(126)는 인스턴스의 식별자로 표현된 인스턴스를 명칭으로 대체함으로써 대상 인스턴스(IN_O)를 생성할 수 있다. 도 4를 참조하면, 도 4의 우측에 도시된 바와 같이, 정보 추론부(124)에 의해서 생성된 역 트리플들이 추가됨으로써 대상 인스턴스(IN_O)는 증가된 트리플들, 대상 인스턴스를 주어로서 가지는 증가된 트리플들을 가질 수 있다.
도 5는 본 개시의 예시적 실시예에 따라 도 1의 후보 선출부(140)의 동작의 예시를 나타내는 도면이다. 구체적으로, 도 5는 후보 선출부(140)에 의해서 검색된 후보 인스턴스들(51, 52, 53)을 나타낸다. 도 1을 참조하여 전술된 바와 같이, 후보 선출부(140)는 대상 인스턴스(IN_O)에 기초하여 지식 베이스(200)로부터 적어도 하나의 후보 인스턴스(IN_C)를 획득할 수 있다. 도 5의 예시에서 대상 인스턴스(IN_O)는 "북구"를 나타내는 것으로 가정되고, 이하에서 도 5는 도 1을 참조하여 설명될 것이다.
도 5를 참조하면, 대상 인스턴스(IN_O)의 명칭인 "북구"에 기인하여, "북구"를 명칭으로서 가지는 다수의 후보 인스턴스들(51, 52, 53 등)이 지식 베이스(200)에서 검색될 수 있다. 후보 인스턴스들(51, 52, 53 등)은 비록 동일한 명칭 "북구"를 가짐에도 불구하고, 상이한 의미를 가질 수 있다. 예를 들면, 제1 후보 인스턴스(51)는 "울산"에 소속된 "북구"에 대응할 수 있고, 제2 후보 인스턴스(52)는 "광주"에 소속된 "북구"에 대응할 수 있으며, 제3 후보 인스턴스(53)는 "부산"에 소속된 "북구"에 대응할 수 있다. 이와 같이, 대상 인스턴스(IN_O)에 기초하여 다수의 후보 인스턴스들이 지식 베이스(200)에서 검색될 수 있고, 다수의 후보 인스턴스들 중 대상 인스턴스(IN_O)의 정보가 추가될 인스턴스를 정확하게 검출하는 것이 요구될 수 있다.
도면들을 참조하여 전술된 바와 같이, 대상 인스턴스(IN_O)는 제1 인스턴스(IN_1)의 정보를 증강시킴으로써 생성될 수 있고, 이에 따라 제1 인스턴스(IN_1)보다 많은 수의 트리플들을 가질 수 있다. 결과적으로, 대상 인스턴스(IN_O)의 정보(즉, 트리플들)와 후보 인스턴스들(51, 52, 53)의 정보(즉, 트리플들)에 기초하여 계산되는 유사도는 높은 신뢰성을 가질 수 있다.
도 6은 본 개시의 예시적 실시예에 따라 도 1의 데이터 통합부(160)의 예시를 나타내는 블록도이고, 도 7은 본 개시의 예시적 실시예에 따라 도 6의 데이터 통합부(160')의 동작의 예시를 나타내는 테이블(T70)이다. 도 1을 참조하여 전술된 바와 같이, 도 6의 데이터 통합부(160')는 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C) 사이 유사도를 계산할 수 있고, 유사도에 기초하여 대상 인스턴스를 지식 베이스(200)에 통합할 수 있다. 도 6에 도시된 바와 같이, 데이터 통합부(160')는 공통 정보 검출부(162) 및 유사도 계산부(164)를 포함할 수 있고, 이하에서 도 6 및 도 7은 도 1을 참조하여 설명될 것이다.
공통 정보 검출부(162)는 데이터 증강부(120)로부터 대상 인스턴스(IN_O)를 수신할 수 있고, 후보 선출부(140)로부터 후보 인스턴스(IN_C)를 수신할 수 있다. 일부 실시예들에서, 공통 정보 검출부(162)는 대상 인스턴스(IN_O)의 정보 및 후보 인스턴스(IN_C)의 정보 사이 일치 여부를 판단할 수 있다. 예를 들면, 공통 정보 검출부(162)는 대상 인스턴스(IN_O)를 주어로서 가지는 트리플들 및 후보 인스턴스(IN_C)를 주어로서 가지는 트리플들을 비교할 수 있다. 공통 정보 검출부(162)는 술어 및 목적어가 일치하는 트리플들을 카운트할 수 있다. 공통 정보 검출부(162)는, 일부 실시예들에서 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C)의 양 트리플들의 목적어들이 정확하게 일치하는 경우 카운트할 수도 있고, 일부 실시예들에서 양 트리플들의 목적어들이 포함관계에 있는 경우 카운트할 수도 있으며, 일부 실시예들에서 양 트리플들의 목적어들이 동의어 관계에 있는 경우 카운트할 수도 있다. 공통 정보 검출부(162)는 적어도 하나의 후보 인스턴스(IN_C) 각각에 대응하는 적어도 하나의 카운트 값을 유사도 계산부(164)에 제공할 수 있다.
도 7을 참조하면, 테이블(T70)은 대상 인스턴스(IN_O)인 "북구"와 7개의 후보 인스턴스들 사이 비교 결과들을 나타낸다. 테이블(T70)의 첫 번째 컬럼(SUBJECT)과 같이, 대상 인스턴스(IN_O)인 "북구"는 "adm:Buk-gu_3120000000"로서 표현될 수 있는 한편, 테이블(T70)의 두 번째 컬럼(CANDIDATE)과 같이, 후보 인스턴스(IN_C)는 "adr:0000150347" 등으로 표현될 수 있다. 테이블(T70)의 세 번째 컬럼(LN)은 대상 인스턴스(IN_O)의 트리플 개수를 나타낼 수 있고, 테이블(T70)의 네 번째 컬럼(CN)은 후보 인스턴스(IN_C)의 트리플 개수를 나타낼 수 있으며, 테이블(T70)의 다섯 번째 컬럼(MN)은 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C) 사이 일치하는 트리플의 개수를 나타낸다.
세 번째 컬럼(LN)에 표시된 바와 같이, 대상 인스턴스(IN_O)는 도 1의 데이터 증강부(120)에 의해서 증강된 정보에 기인하여 많은 수(즉, 518)의 트리플들을 가질 수 있다. 또한, 네 번째 컬럼(CN)에 표시된 바와 같이, "북구"로 검색된 후보 인스턴스들은 상이한 트리플 개수들을 각각 가질 수 있고, 다섯 번째 컬럼(MN)에 표시된 바와 같이 대상 인스턴스(IN_O)의 트리플과 일치하는 후보 인스턴스(IN_C)의 트리플 개수는 후보 인스턴스(IN_C)의 트리플 개수와 무관할 수 있다. 도 7에 도시된 예시에서, 후보 인스턴스(IN_C)인 "adr:0000062284"가 대상 인스턴스(IN_O)와 가장 많은 수의 공통되는 트리플들을 가지는 것으로 판정될 수 있다.
다시 도 6을 참조하면, 유사도 계산부(164)는 공통 정보 검출부(162)로부터 제공된 카운트 값에 기초하여 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C)의 유사도를 계산할 수 있다. 높은 카운트 값은 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C)의 공통 정보가 많은 것을 의미할 수 있고, 이에 따라 유사도 계산부(164)는 카운트 값에 비례하는 유사도를 계산할 수 있다. 유사도 계산부(164)에 의해서 다수의 후보 인스턴스들에 대응하는 다수의 유사도들이 계산될 수 있고, 다수의 유사도들 중 가장 높은 유사도에 대응하는 후보 인스턴스가 대상 인스턴스(IN_O)가 통합될 인스턴스로서 판정될 수 있다. 이와 같이, 일치하는 정보의 절대 숫자에 기초하여 유사도를 계산하는 것은, 전체 보유 정보 및 일치하는 정보의 비율에 기초하여 유사도를 계산하는 것보다, 예컨대 전체 보유 정보의 수가 약소한 경우를 회피할 수 있는 점에서 정확할 수 있다.
일부 실시예들에서, 유사도 계산부(164)는 유사도의 미리 정의된 상한을 가질 수 있고, 계산된 유사도가 상한을 초과하는 경우 유사도를 상한으로 제한할 수 있고, 상한으로 제한된 유사도에 대응하는 후보 인스턴스(IN_C)가 대상 인스턴스(IN_O)가 통합될 인스턴스로 판정될 수 있다. 또한, 일부 실시예들에서, 유사도 계산부(164)는 카운트 값의 로그값에 기초하여 유사도를 계산할 수 있다. 예를 들면, 도 7에 도시된 바와 같이, 유사도 계산부(164)는 다섯 번째 컬럼(MN)의 값들에, 밑이 10인 로그 함수를 적용함으로써 테이블(T70)의 여섯 번째 컬럼(10)의 값들을 계산할 수 있다. 전술된 바와 같이, 유사도 계산부(164)는 미리 정의된 유사도의 상한을 가질 수 있고, 테이블(T70)의 일곱 번째 컬럼(정답여부)에 표현된 바와 같이 상한 '1'을 초과하는 경우 대상 인스턴스(IN_O)와 일치하는 후보 인스턴스(IN_C)로서 판정될 수 있다.
도 8은 본 개시의 예시적 실시예에 따른 지식 통합 시스템(100') 및 그 입출력 관계를 나타내는 블록도이다. 구체적으로, 도 8의 지식 통합 시스템(100')에서는 제1 인스턴스(IN_1)뿐만 아니라 후보 인스턴스(IN_C)의 정보가 증강될 수 있다. 도 8에 도시된 바와 같이, 도 1의 지식 통합 시스템(100)과 유사하게, 지식 통합 시스템(100')은 지식 도메인들(310, 320 등)로부터 제1 인스턴스(IN_1) 및 제2 인스턴스(IN_2)를 획득할 수 있으며, 지식 베이스(200)와 통신 가능하게 연결될 수 있다. 또한, 도 1의 지식 통합 시스템(100)과 유사하게, 지식 통합 시스템(100')은 데이터 증강부(120"), 후보 선출부(140") 및 데이터 통합부(160")를 포함할 수 있다. 이하에서, 도 8에 대한 설명 중 도 1과 중복되는 내용은 생략될 것이다.
후보 선출부(140")는 지식 베이스(200)로부터 획득된 후보 인스턴스(IN_C)를 데이터 증강부(120")에 제공할 수 있고, 증강된 정보를 가지는 증강된 후보 인스턴스(IN_C')를 데이터 증강부(120")로부터 수신할 수 있으며, 증강된 후보 인스턴스(IN_C')를 데이터 통합부(160")에 제공할 수 있다. 도면들을 참조하여 전술된 바와 같이, 양 인스턴스들의 유사도를 판정하기 위하여 인스턴스들이 많은 양의 정보를 가지는 것이 유리할 수 있다. 이에 따라, 도 8의 예시에서는 제1 인스턴스(IN_1)의 정보를 증강시킴으로써 대상 인스턴스(IN_O)가 생성될 뿐만 아니라, 후보 인스턴스(IN_C)의 정보를 증강시킴으로써 증강된 후보 인스턴스(IN_C')가 생성될 수 있다.
일부 실시예들에서, 지식 베이스(200)는 지식을 저장하기 위한 저장공간을 절약하기 위하여, 지식의 일부만을 저장할 수 있고, 지식의 나머지는 필요시 저장된 지식으로부터 추론함으로써 생성될 수 있다. 이에 따라, 후보 선출부(140")가 지식 베이스(200)로부터 획득한 후보 인스턴스(IN_C)의 정보는 추론과정을 통해서 증강될 수 있다. 예를 들면, 데이터 증강부(120")는, 도 4를 참조하여 전술된 바와 유사하게, 후보 선출부(140")로부터 제공된 후보 인스턴스(IN_C)의 식별자를 목적어로서 가지는 트리플로부터 역 트리플을 생성함으로써 증강된 후보 인스턴스(IN_C')를 생성할 수 있다. 후보 선출부(140")는 증강된 후보 인스턴스(IN_C')를 데이터 통합부(160")에 제공할 수 있고, 데이터 통합부(160")는 대상 인스턴스(IN_O) 및 증강된 후보 인스턴스(IN_C')의 유사도를 계산함으로써 대상 인스턴스(IN_O)를 지식 베이스(200)에 통합할 수 있다.
도 9는 본 개시의 예시적 실시예에 따른 지식 통합 방법을 나타내는 순서도이다. 일부 실시예들에서, 도 9는 도 1의 지식 통합 시스템(100)에 의해서 수행될 수 있고, 이하에서 도 9는 도 1을 참조하여 설명될 것이다.
도 9를 참조하면, 단계 S10에서 제1 인스턴스(IN_1)를 획득하는 동작이 수행될 수 있다. 제1 인스턴스(IN_1)는 지식 도메인들(310, 320 등)의 지식 리소스로부터 생성된 데이터를 지칭할 수 있다. 예를 들면, 지식 통합 시스템(100)의 데이터 증강부(120)는 지식 도메인(예컨대, 310 등)의 지식 리소스로부터 지식 베이스(200)의 온톨로지에 따라 생성된 인스턴스들을 저장하는 도메인 데이터베이스(330)로부터 제1 인스턴스(IN_1)를 수신할 수 있다.
단계 S20에서, 제2 인스턴스(IN_2)를 획득하는 동작이 수행될 수 있다. 제2 인스턴스(IN_2)는 제1 인스턴스(IN_1)의 정보를 증강시키기 위하여 지식 도메인들(310, 320 등)로부터 획득되는 인스턴스를 지칭할 수 있다. 예를 들면, 데이터 증강부(120)는 제1 인스턴스(IN_1), 예컨대 제1 인스턴스(IN_1)의 식별자에 기초하여 지식 도메인들(또는, 도메인 데이터베이스(330))에서 적어도 하나의 제2 인스턴스(IN_2)를 검색할 수 있다.
단계 S30에서, 대상 인스턴스(IN_O)를 생성하는 동작이 수행될 수 있다. 대상 인스턴스(IN_O)는 제1 인스턴스(IN_1)의 정보로부터 보강된 정보를 가질 수 있다. 예를 들면, 데이터 증강부(120)는 단계 S20에서 획득된 제2 인스턴스(IN_2)의 정보를 제1 인스턴스(IN_1)에 추가할 수 있다. 이에 따라, 제1 인스턴스(IN_1)의 정보가 증강될 수 있고, 증강된 정보를 가지는 대상 인스턴스(IN_O)가 생성될 수 있다.
단계 S40에서, 후보 인스턴스(IN_C)를 획득하는 동작이 수행될 수 있다. 후보 인스턴스(IN_C)는 대상 인스턴스(IN_O)가 통합될 후보를 지칭할 수 있다. 예를 들면, 지식 통합 시스템(100)의 후보 선출부(140)는 대상 인스턴스(IN_O)에 기초하여 지식 베이스(200)로부터 적어도 하나의 후보 인스턴스(IN_C)를 획득할 수 있다. 도 5 등을 참조하여 전술된 바와 같이, 지식 베이스(200)로부터 2이상의 후보 인스턴스들이 획득될 수 있고, 이에 따라 2이상의 후보 인스턴스들 중 대상 인스턴스(IN_O)가 통합될 하나의 인스턴스를 판정하는 것이 요구될 수 있다. 도 8을 참조하여 전술된 바와 같이, 단계 S40에서 획득된 후보 인스턴스(IN_C)의 정보 역시 증강될 수 있다.
단계 S50에서, 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C) 사이 유사도를 계산하는 동작이 수행될 수 있다. 예를 들면, 지식 통합 시스템(100)의 데이터 통합부(160)는 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C)의 공통 정보의 양에 기초하여 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C)의 유사도를 계산할 수 있다. 단계 S30에서, 대상 인스턴스(IN_O)는 증강된 정보를 가질 수 있고, 이에 따라 대상 인스턴스(IN_O) 및 후보 인스턴스(IN_C)의 유사도가 용이하고 정확하게 계산될 수 있다.
단계 S60에서, 대상 인스턴스(IN_O)를 지식 베이스(200)에 통합하는 동작이 수행될 수 있다. 예를 들면, 데이터 통합부(160)는 가장 높은 유사도에 대응하는 후보 인스턴스(IN_C)를 대상 인스턴스(IN_O)와 일치하는 것으로 판정할 수 있고, 지식 베이스(200)에서 후보 인스턴스(IN_C)에 대상 인스턴스(IN_O)가 정보를 추가함으로써 대상 인스턴스(IN_O)를 지식 베이스(200)에 통합할 수 있다.
이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들이 설명되었으나, 이는 단지 본 발명의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (10)

  1. 지식 도메인의 지식 데이터를 지식 베이스에 통합하기 위한 지식 통합 시스템으로서,
    상기 지식 도메인의 제1 인스턴스를 획득하고, 상기 지식 도메인에서 검색된 적어도 하나의 제2 인스턴스에 기초하여 상기 제1 인스턴스의 정보를 증강시킴으로써 대상 인스턴스를 생성하도록 구성된 데이터 증강부;
    상기 대상 인스턴스에 기초하여 상기 지식 베이스로부터 적어도 하나의 후보 인스턴스를 획득하도록 구성된 후보 선출부; 및
    상기 대상 인스턴스 및 상기 적어도 하나의 후보 인스턴스 사이 유사도를 계산하고, 상기 유사도에 기초하여 상기 대상 인스턴스를 상기 지식 베이스에 통합하도록 구성된 데이터 통합부를 포함하고,
    상기 데이터 증강부는,
    상기 제1 인스턴스에 기초하여 상기 지식 도메인에서 상기 적어도 하나의 제2 인스턴스를 검색하도록 구성된 인스턴스 검색부;
    상기 적어도 하나의 제2 인스턴스의 정보를 상기 제1 인스턴스에 추가하도록 구성된 정보 추론부; 및
    상기 제1 인스턴스에 추가된 정보를 후처리함으로써 상기 대상 인스턴스를 생성하도록 구성된 대상 인스턴스 생성부를 포함하고,
    상기 데이터 증강부는, 인스턴스를 주어로서 포함하고 상기 인스턴스에 대한 정보를 술어 및 목적어로서 포함하는 트리플(triple)을 저장하는 도메인 데이터베이스로부터 상기 제1 인스턴스 및 상기 제2 인스턴스를 획득하고,
    상기 인스턴스 검색부는, 상기 도메인 데이터베이스에서 상기 제1 인스턴스의 식별자를 상기 트리플의 목적어로서 가지는 상기 적어도 하나의 제2 인스턴스를 검색하도록 구성된 것을 특징으로 하는 지식 통합 시스템.
  2. 청구항 1에 있어서,
    상기 데이터 증강부는, 상기 후보 인스턴스의 정보를 증강시키도록 구성되고,
    상기 데이터 통합부는, 상기 대상 인스턴스 및 증강된 정보를 가지는 상기 후보 인스턴스 사이 유사도를 계산하도록 구성된 것을 특징으로 하는 지식 통합 시스템.
  3. 청구항 1에 있어서,
    상기 데이터 증강부는, 상기 지식 베이스의 온톨로지에 따라 상기 지식 도메인의 지식 데이터로부터 변환된 인스턴스들을 저장하는 도메인 데이터베이스로부터 상기 제1 인스턴스 및 상기 제2 인스턴스를 획득하도록 구성된 것을 특징으로 하는 지식 통합 시스템.
  4. 삭제
  5. 삭제
  6. 청구항 1에 있어서,
    상기 정보 추론부는, 상기 적어도 하나의 제2 인스턴스의 식별자를 주어로서 포함하는 적어도 하나의 트리플로부터 적어도 하나의 역(inverse) 트리플을 생성하고, 상기 제1 인스턴스에 상기 적어도 하나의 역 트리플에 대응하는 정보를 추가하도록 구성된 것을 특징으로 하는 지식 통합 시스템.
  7. 청구항 1에 있어서,
    상기 대상 인스턴스 생성부는, 상기 제2 인스턴스에 의해서 추가된 역 트리플의 목적어가 상기 도메인 데이터베이스에서 인스턴스를 가리키는 식별자인 경우, 상기 식별자가 가리키는 인스턴스의 명칭으로서 상기 식별자를 대체하도록 구성된 것을 특징으로 하는 지식 통합 시스템.
  8. 청구항 1에 있어서,
    상기 지식 베이스는, 인스턴스를 주어로서 포함하고 상기 인스턴스에 대한 정보를 술어 및 목적어로서 포함하는, 트리플(triple)을 포함하고,
    상기 후보 선출부는, 상기 지식 베이스에서 상기 대상 인스턴스의 명칭을 주어로서 가지는 인스턴스를 검색함으로써 상기 적어도 하나의 후보 인스턴스를 획득하도록 구성된 것을 특징으로 하는 지식 통합 시스템.
  9. 청구항 1에 있어서,
    상기 데이터 통합부는,
    상기 대상 인스턴스의 정보 및 상기 적어도 하나의 후보 인스턴스의 정보 사이 일치 여부를 판단하도록 구성된 공통 정보 검출부; 및
    일치하는 정보의 개수에 기초하여 상기 유사도를 계산하고, 가장 높은 유사도에 대응하는 후보 인스턴스에 상기 대상 인스턴스의 정보를 추가하도록 구성된 유사도 계산부를 포함하는 것을 특징으로 하는 지식 통합 시스템.
  10. 청구항 9에 있어서,
    상기 유사도 계산부는, 상기 일치하는 정보의 개수의 로그값에 기초하여 상기 유사도를 계산하도록 구성된 것을 특징으로 하는 지식 통합 시스템.
KR1020180151222A 2018-11-29 2018-11-29 데이터 증강 기반 지식 통합 시스템 및 방법 KR102111733B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180151222A KR102111733B1 (ko) 2018-11-29 2018-11-29 데이터 증강 기반 지식 통합 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180151222A KR102111733B1 (ko) 2018-11-29 2018-11-29 데이터 증강 기반 지식 통합 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102111733B1 true KR102111733B1 (ko) 2020-05-15

Family

ID=70678821

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180151222A KR102111733B1 (ko) 2018-11-29 2018-11-29 데이터 증강 기반 지식 통합 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102111733B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230035834A (ko) 2021-09-06 2023-03-14 연세대학교 산학협력단 도메인 지식 기반 설계 가능한 인공지능 모델을 이용한 성능 예측 시스템 및 그 방법
CN117725222A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 融合知识图谱与大语言模型的文献复杂知识对象抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112442A (ko) * 2014-03-28 2015-10-07 주식회사 솔트룩스 지식 생성 시스템 및 방법
KR20170089142A (ko) * 2016-01-26 2017-08-03 경북대학교 산학협력단 트리플 데이터의 생성 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112442A (ko) * 2014-03-28 2015-10-07 주식회사 솔트룩스 지식 생성 시스템 및 방법
KR20170089142A (ko) * 2016-01-26 2017-08-03 경북대학교 산학협력단 트리플 데이터의 생성 방법 및 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230035834A (ko) 2021-09-06 2023-03-14 연세대학교 산학협력단 도메인 지식 기반 설계 가능한 인공지능 모델을 이용한 성능 예측 시스템 및 그 방법
CN117725222A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 融合知识图谱与大语言模型的文献复杂知识对象抽取方法

Similar Documents

Publication Publication Date Title
US9183511B2 (en) System and method for universal translating from natural language questions to structured queries
US20080256121A1 (en) Method and system for mapping multi-dimensional model to data warehouse schema
US20140081941A1 (en) Semantic ranking using a forward index
CN108710662B (zh) 语言转换方法和装置、存储介质、数据查询***和方法
US9411803B2 (en) Responding to natural language queries
KR20110020462A (ko) 지능형 질의 응답 검색 시스템 및 방법
Fernandez-Álvarez et al. Automatic extraction of shapes using sheXer
KR102111733B1 (ko) 데이터 증강 기반 지식 통합 시스템 및 방법
US20140379753A1 (en) Ambiguous queries in configuration management databases
Cortis et al. Discovering semantic equivalence of people behind online profiles
He et al. CASIA@ QALD-3: A Question Answering System over Linked Data.
US9098543B2 (en) Attribute detection
Ajoudanian et al. Deep web content mining
EP2778971A1 (en) Rule triggering for search rule engine
US20140280337A1 (en) Attribute detection
Matuszka et al. Geodint: towards semantic web-based geographic data integration
Lu et al. An experiment on the matching and reuse of XML schemas
CN110147396B (zh) 一种映射关系生成方法及装置
KR20200136707A (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
CN114896269A (zh) 结构化查询语句检测方法、装置、电子设备及存储介质
Fudholi et al. Code (common ontology development): A knowledge integration approach from multiple ontologies
KR102130779B1 (ko) 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템
Hernández et al. Certain answers for SPARQL with blank nodes
Nguyen et al. A vietnamese natural language interface to database
Asadifar et al. Hcqa: Hybrid and complex question answering on textual corpus and knowledge graph

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant