KR101835345B1 - 지식베이스 기반의 개념그래프 확장 시스템 - Google Patents

지식베이스 기반의 개념그래프 확장 시스템 Download PDF

Info

Publication number
KR101835345B1
KR101835345B1 KR1020160024383A KR20160024383A KR101835345B1 KR 101835345 B1 KR101835345 B1 KR 101835345B1 KR 1020160024383 A KR1020160024383 A KR 1020160024383A KR 20160024383 A KR20160024383 A KR 20160024383A KR 101835345 B1 KR101835345 B1 KR 101835345B1
Authority
KR
South Korea
Prior art keywords
concept
graph
triple
concept graph
extension
Prior art date
Application number
KR1020160024383A
Other languages
English (en)
Other versions
KR20170101609A (ko
Inventor
최성필
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Priority to KR1020160024383A priority Critical patent/KR101835345B1/ko
Priority to PCT/KR2017/001592 priority patent/WO2017150820A1/ko
Publication of KR20170101609A publication Critical patent/KR20170101609A/ko
Application granted granted Critical
Publication of KR101835345B1 publication Critical patent/KR101835345B1/ko

Links

Images

Classifications

    • G06F17/30672
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F17/30401
    • G06F17/3043
    • G06F17/30654
    • G06F17/30663

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

개념그래프 확장 시스템이 개시된다. 이 시스템은 개념그래프 확장을 위한 참조 정보가 저장된 관계트리플 지식베이스, 및 자연어 문장으로 이루어진 질의로부터 변환된 개념그래프를 바탕으로 관계트리플 지식베이스에 저장된 참조 정보를 이용하여 확장된 형태의 개념그래프를 생성하는 개념그래프 확장 모듈을 포함할 수 있다.

Description

지식베이스 기반의 개념그래프 확장 시스템{Concept graph expansion system based on knowledge base}
본 발명은 질의응답 기술에 관한 것으로, 특히 질의에 대한 의역 생성 기술에 관한 것이다.
종래에는 표면적 상이성을 가진 두 텍스트의 의미적 연관성 및 유사성을 식별하는 연구가 활발히 진행되어 왔다. 대부분 연구들의 세부적인 목적은 정보 검색(information retrieval), 질의응답(question answering) 혹은 문서 요약(summarization) 등에서 특정 의미에 대한 서로 다른 표층적 언어 표현들이 성능 저하의 요인이 되지 않도록 하는 것이다. 그리고 이러한 의역 식별 및 생성(paraphrase recognition and generation)에 대한 연구는 초창기에 위에서 나열한 세부 분야들에 속한 하위 요소 연구로서 질의 확장(query expansion)이나 구문 추출(keyphrase extraction) 등과 같은 분야명 하에 수행되었다. 그러나 현재는 텍스트 추론(textual inference)이라는 큰 틀에서 독립적으로 연구가 진행 중에 있다. 그러나 지금까지도 대부분의 연구들이 주어진 두 문장이 서로 의미적으로 연관되어 있는지를 결정하는 의역 식별(paraphrase recognition)에 초점이 맞추어져 있으며 의역 생성(paraphrase generation)에 대한 연구는 상대적으로 부족한 실정이다.
미국공개특허공보 제2005/0102614호 (2005년 05월 12일 공개)
본 발명은 질의응답의 포괄성 및 확장성에 도움을 줄 수 있는 기술적 방안을 제공함을 목적으로 한다.
일 양상에 따른 개념그래프 확장 시스템은 개념그래프 확장을 위한 참조 정보가 저장된 관계트리플 지식베이스, 및 자연어 문장으로 이루어진 질의로부터 변환된 개념그래프를 바탕으로 관계트리플 지식베이스에 저장된 참조 정보를 이용하여 확장된 형태의 개념그래프를 생성하는 개념그래프 확장 모듈을 포함할 수 있다.
개념그래프는 질의를 구성하는 적어도 일부 객체들을 나타낸 개념 노드들과 개념 노드간의 관계를 나타낸 관계 노드들을 포함할 수 있다.
개념그래프 확장 모듈은 개념 노드를 중심으로 개념그래프를 확장할 수 있으며, 확장된 개념 그래프를 개념 노드를 중심으로 반복 확장할 수 있다.
개념그래프 확장 시스템은 개념그래프를 가시화하여 사용자 인터페이스를 통해 제공하며, 개념그래프 확장 모듈과 연동하는 개념그래프 확장 가시화 모듈을 더 포함할 수 있다.
관계트리플 지식베이스에 저장된 참조 정보에는 개념 개체 및 개념 개체간 관계를 나타내는 관계 트리플에 대한 정보가 포함될 수 있다.
관계트리플 지식베이스는 관계형 지식 데이터 저장을 위한 스키마 구조를 가질 수 있다.
관계트리플 지식베이스의 데이터베이스 스키마 구조는 개념 레이블과 정의문 및 링크를 포함하는 제 1 명세와, 개념들을 연결하는 속성과 관계 레이블 및 정의문을 포함하는 제 2 명세와, 객체에 대한 관계 트리플 집합이 저장된 제 1 정보 및 제 2 정보와, 속성들 사이의 관계가 포함된 제 3 정보, 및 속성에 저장될 값의 범위를 지정한 제 4 정보를 포함할 수 있다.
개념그래프 확장 모듈은 질의 개념그래프의 질문 트리플 집합에서 확장할 하나 이상의 개념 개체를 선택하고, 선택된 개념 개체의 정의문에서 트리플 집합을 추출하며, 추출된 정의문 트리플 집합으로부터 선택된 정의문 트리플을 이용하여 개념그래프를 확장할 수 있다.
개념그래프 확장 모듈은 질문 트리플 집합에 속하는 개념 개체들 중에서 중요도가 높은 개념 개체를 선택할 수 있다.
중요도가 높은 개념 개체는 관계트리플 지식베이스에 등재된 용어일 수 있다.
개념그래프 확장 모듈은 정의문 트리플 집합과 질문 트리플 집합을 비교하여 중복되는 정의문 트리플을 제거하고, 질문 트리플과 주어(subject) 또는 목적어(object)가 일치하는 정의문 트리플을 선택하고, 선택된 정의문 트리플과 주어(subject) 또는 목적어(object)가 일치하는 정의문 트리플을 선택하며, 나머지 정의문 트리플은 모두 제거할 수 있다.
개시된 시스템에 따르면, 개념그래프를 기반으로 한 질의 응답의 포괄성 및 확장성에 도움을 줄 수 있는 질의 의역 및 확장이 가능해진다.
도 1은 일 실시예에 따른 개념그래프 기반의 질의 의역 및 확장을 위한 블록도이다.
도 2는 특정 질문에 대한 개념그래프를 나타낸 예시도이다.
도 3은 질의 개념그래프 확장과 관련된 예시도이다.
도 4는 일 실시예에 따른 질의 개념그래프 확장 시스템 개념도이다.
도 5는 위키데이터 저장을 위한 데이터베이스 스키마 구조의 예를 나타낸다.
도 6은 일 실시예에 따른 지식베이스 기반 개념그래프 확장 시스템을 나타낸 블록도이다.
도 7은 개념그래프 확장 입출력 테스트베드 화면의 예를 나타낸다.
도 8은 “universe” 개념에 대한 확장 결과 화면의 예를 나타낸다.
도 9는 개념그래프 확장 시스템을 구성하는 API들의 출력 결과물의 예를 나타낸다.
도 10은 일 실시예에 따른 질의 개념그래프 확장 가시화 모듈이 추가된 질의 개념그래프 확장 시스템을 나타낸 블록도이다.
도 11은 개념그래프 확장 가시화 모듈 구성의 예를 나타낸다.
도 12는 WebVOWL의 전체 화면 구성의 예를 나타낸다.
도 13은 개념그래프 초기 확장을 나타낸 예시도이다.
도 14는 “빅뱅”에 대한 추가적인 개념 노드 확장을 나타낸 예시도이다.
도 15는 “조르주 르메트르”에 대한 상세 확장 개념그래프의 예를 나타낸다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 개념그래프 기반의 질의 의역 및 확장을 위한 블록도이이고, 도 2는 특정 질문에 대한 개념그래프를 나타낸 예시도이며, 도 3은 개념그래프 확장과 관련된 예시도이다. 개념그래프 생성 모듈(100)은 자연어로 구성된 질의 문장(query sentences)을 입력받아 개념그래프(concept graph, CG)를 생성한다. 이 개념그래프는 질의 문장으로부터 생성된 개념그래프이므로, 질의 개념그래프(Query CG)라 부를 수 있다. 일 실시예에 있어서, 개념그래프 생성 모듈(100)은 주어(subject), 술부(predicate) 혹은 관계(relation), 목적어(object) 정보를 가지는 질의 문장의 트리플 구조를 이용하여 개념그래프를 생성할 수 있다.
개념그래프는 개념 노드들과 개념 노드 간에 관계를 나타내는 관계 노드들로 구성될 수 있다. 일 실시예에 있어서, 주어(subject)와 목적어(object)는 개념 노드로 지정되며, 관계(relation)는 관계 노드로 지정된다. 따라서, 개념그래프 생성 모듈(100)은 질의 문장에 대해 트리플 구조를 파악하고, 주어와 관계 및 목적어를 가지고 개념그래프를 생성할 수 있다. 예를 들어, 개념그래프 생성 모듈(100)이 “탄소 배출권 거래제는 지구 온난화를 유발하는 온실가스의 배출을 규제하기 위해 도입된 제도로, 우리나라는 내년부터 시행할 계획이다. 탄소 배출권 거래제의 초석을 마련한 국제 협약은 무엇일까”를 질의 문장으로 입력받을 경우, 도 2와 같은 개념그래프를 생성할 수 있다. 이를 원본 개념그래프라 한다.
개념그래프 확장 모듈(200)은 개념그래프 생성 모듈(100)로부터 원본 개념그래프를 입력받아 이를 확장한다. 일 실시예에 있어서, 개념그래프 확장 모듈(200)은 입력된 원본 개념그래프를 의미적 트리플 집합으로 변환한 다음에 후술할 개념그래프 확장 알고리즘을 수행한다. 개념그래프 확장 알고리즘은 지식베이스를 기반으로 수행될 수 있다. 개념그래프 확장 모듈(200)은 원본 개념그래프로부터 변환된 의미적 트리플 집합과 지식베이스에 근거하여 도 3의 좌측에 씌여진 문장들을 도출할 수 있고, 이로부터 도 3의 우측에 도시된 표와 같이 트리플 집합을 생성할 수 있으며, 생성된 트리플 집합에 근거하여 확장된 개념그래프를 생성할 수 있다.
도 4는 일 실시예에 따른 개념그래프 확장 시스템 개념도이다. 개념그래프에는 다양한 정보가 포함되어 있는데, 인명, 지명, 기관명 등과 같은 개체명은 물론 그들 간의 관계, 속성명, 및 속성값들이 존재한다. 참고로, 주어와 목적어는 개체(개념 개체)이며, 관계는 술부라 할 수 있다. 개시된 시스템은 이들 모든 요소를 대상으로 확장이 가능하도록 유연한 구조를 가진다. 생성되는 개념그래프의 노드 및 연결을 구성하는 모든 요소는 의미적으로 분별되어 모호성이 없는 형태라고 가정할 수 있으나, 개시된 시스템은 그렇지 않은 경우에도 문맥에 따라 적절한 확장이 가능하도록 문맥 및 모호성 해소 정보를 추가적으로 입력하여 처리할 수 있도록 구성하였다. 그리고 상황에 따라서 다양한 참조 정보가 적용될 수 있으며, 일 예로 위키데이터와 같은 관계형 지식 데이터를 기반으로 한 개념그래프 확장 시스템 구현이 가능하다. 개시된 시스템에서 수행되는 개념그래프 확장 알고리즘은 다음과 같다.
위의 알고리즘이 수행되기 전에, 입력된 원본 개념그래프는 질문 트리플 집합(의미적 트리플 집합)으로 변환된다. ① 과정에서, 개념그래프 확장 모듈(200)은 질문 트리플 집합에서 확장할 용어들을 선택한다. 일 실시예에 있어서, 개념그래프 확장 모듈(200)은 개념그래프의 개념 개체(concept entity) 중에서 중요도(significance)가 높은 개념들을 선정한다. 예를 들어, 개념그래프 확장 모듈(200)은 개념그래프의 개념 개체 중에서 위키데이터에 등재된 용어를 중요도가 높은 것으로 선정한다. 다른 예로, 개념그래프 확장 모듈(200)은 개념그래프 생성 모듈(100)에서 선택되어 제공되는 주어(subject)와 목적어(object)를 중요도가 높은 개념들로 선정할 수 있다. ② 과정에서, 개념그래프 확장 모듈(200)은 샌택된 개체의 정의문에서 트리플 집합을 추출하며, 추출된 정의문 트리플 집합과 질문 트리플 집합을 비교한다. 비교를 통해, 질문 트리플과 중복되는 정의문 트리플은 제거하고, 질문 트리플과 주어(subject) 혹은 목적어(object)가 일치하는 정의문 트리플을 선택하며, 선택된 정의문 트리플과 주어(subject) 혹은 목적어(object)가 일치하는 정의문 트리플을 선택한다. 그리고 나머지 정의문 트리플은 모두 제거한다. ③ 과정에서, 개념그래프 확장 모듈(200)은 정해진 확장 반복 횟수에 따라 ① 과정으로 돌아간다. 즉, 확장 반복 횟수가 1회일 경우에는 ① 과정으로 한 번만 돌아가며, 확장 반복 횟수가 2회일 경우에는 ① 과정으로 두 번 돌아가는 것이다. 확장 반복 횟수는 사용자에 의해 지정될 수 있다.
도 5는 위키데이터 저장을 위한 데이터베이스 스키마 구조의 예를 나타낸다. 위키데이터 기반의 개념그래프 확장 시스템이 활용하는 데이터베이스 구조는 도 5예 예시된 바와 같다. 도 5에서 제 1 명세(Description 1)에는 객체, 즉 위키데이터의 단일 페이지를 나타내는 개념 레이블, 정의 구문 그리고 링크 등이 포함되어 있고, 제 2 명세(Description 2)에는 개념들을 연결하는 속성과 관계 레이블 및 정의 구문을 포함되어 있다. 참고로, 여기서 객체의 의미는 상술한 목적어를 의미하는 것이 아니라 위키데이터에서 사용하는 용어로서, 특정 위키피디아 페이지가 설명하는 설명의 대상을 의미한다. 예를 들어, “정보 검색”이라는 용어로 위키피디아 페이지를 검색하면 이 객체에 해당하는 페이지가 검색되고, 검색된 페이지에서 해당 객체를 설명하고 있다.
도 5에 대해 계속 설명하면, 제 1 정보(Information 1)와 제 2 정보(Information 2)에는 객체에 대한 관계 트리플 집합이 저장되어 있으며, 제 3 정보(Information 3)에는 속성들 사이의 관계가 포함되어 있다. 마지막으로, 제 4 정보(Information 4)에는 속성에 저장될 값의 범위가 지정되어 있다. 개시된 모듈화된 데이터베이스 스키마는 위키데이터 뿐만 아니라 다양한 형태의 시맨틱 트리플 데이터베이스를 수용할 수 있도록 설계되었다. 특히, 동일한 레이블(이름)을 가지는 서로 다른 개념들에 대한 식별이 용이할 수 있도록 특정 개념에 대한 부가 정보 및 주변 정보들을 쉽게 참조할 수 있다.
도 6은 일 실시예에 따른 지식베이스 기반 개념그래프 확장 시스템을 나타낸 블록도이다. 도 6은 주어진 개념그래프를 기반으로 관계트리플 지식베이스(300)에서 개념그래프에 속한 개념 노드, 속성 등에 대한 순차적 확장을 하는 시스템에 대한 상세 구성도를 나타낸 것이다. 개념그래프 확장 시스템은 개념그래프 확장 모듈(200)과 관계트리플 지식베이스(300)를 포함할 수 있다. 관계트리플 지식베이스(300)에는 개념그래프 확장을 위한 참조 정보가 저장되는데, 참조 정보에는 개념 개체 및 개념 개체간 관계를 나타내는 관계 트리플에 대한 정보가 포함된다. 여기서, 개념 개체라 함은 주어(subject)와 목적어(object)를 의미하는 것일 수 있다. 일 실시예에 있어서, 관계트리플 지식베이스(300)의 데이터베이스 스키마 구조는 도 5에 도시된 바와 같다.
개념그래프 확장 모듈(200)은 사용자 접속 모듈(210)과 관계 트리플 확장 모듈(220)을 포함한다. 사용자 접속 모듈(210)은 사용자 인터페이스(211)와 자바패키지 인터페이스를 포함할 수 있으며, 이를 통해 사용자는 개념그래프 확장 모듈(200)을 이용하여 원하는 기능을 호출하고 결과를 전달받을 수 있다. 관계 트리플 확장 모듈(220)은 관계트리플 지식베이스(300)로 조회 쿼리하며 이에 대한 결과로 지식베이스 트리플(관계 트리플)을 얻는다. 이를 위해, 도 6에 도시된 바와 같이, 관계 트리플 확장 모듈(220)은 레이블의 객체 아이디 파악, 객체 아이디의 레이블 파악, 객체의 정의문 파악, 속성 아이디의 레이블 파악, 속성 레이블의 아이디 파악, 속성의 정의문 파악, 객체-객체 관계 구조 파악, 객체-값 관계 구조 파악, 정제된 관계로의 필터링, 객체의 위키 링크 파악 등을 할 수 있다.
이 같은 트리플 기반의 개념그래프 확장 모듈(200)은 다양한 형태의 기능을 포함하고 있다. 우선 개체명(레이블 혹은 개념명)에 대한 관계트리플 지식베이스(300)에서의 식별자를 파악하거나 그 반대의 기능을 수행하는 모듈이 존재하며, 모호성이 제거된 개체의 정의문 및 관계트리플을 가져오는 기능들도 존재한다. 세부적인 기능 API 명세는 표 1과 같다.
Figure 112016019798364-pat00002
Figure 112016019798364-pat00003
Figure 112016019798364-pat00004
Figure 112016019798364-pat00005
Figure 112016019798364-pat00006
Figure 112016019798364-pat00007
Figure 112016019798364-pat00008
표 1에서 보듯이, 개념그래프 내의 특정 개념 노드를 확장하기 위해서는 해당 노드의 명칭(개념 명칭, 개체명, 객체 이름)에 대한 식별자가 필요하다. 본 개시에서는 개념그래프의 모든 노드들은 의미적으로 분별(semantically discrimination)되어 있음을 가정한다. 다시 말해서, 동일한 노드 명칭이라고 하더라도 다양한 의미를 가질 수 있으나, 개념그래프 생성 과정에서 단일 의미로 매핑이 되어서 의미적 모호성이 제거되어 하나의 식별자만 가질 수 있음을 전제로 한다. 예를 들어, “universe”라는 개념은 아래와 같이 위키데이터에서 총 23가지의 다양한 의미를 가질 수 있으나, 개념그래프 내에서는 “label#1”의 의미로 지정되어 본 시스템의 입력으로 들어오게 된다.
Figure 112016019798364-pat00009
개념 명칭을 검색할 경우, 완전 일치(exact matching)와 부분 일치(partial matching) 기능을 동시에 지원함으로써 검색의 범위를 확장할 수 있도록 구현되었다. 개시된 시스템의 출력은 JSON 형태로 저장되어 제공될 수 있다.
개념그래프 확장 모듈(200)의 테스트 및 검증을 위해서 두 가지 형태의 테스트베드가 개발되었다. 우선, 시스템의 동작을 직접적으로 검증하기 위한 간단한 클라이언트 형태의 확장 입출력 테스트베드가 도 7과 같이 구성됨으로써 특정 질의 개념에 대한 확장 결과를 직접적으로 확인할 수 있다. 도 7에서 ①은 개념 명칭 입력 부분이고, ②는 속성 입력 부분이며, ③은 확장 범위(Depth) 설정 부분이다. 그리고 ④는 결과 출력 부분이다. 특정 개념에 해당하는 명칭 혹은 식별자와 속성, 그리고 확장 범위를 입력하면 최종적으로 확장된 개념이 출력된다. 출력 방식은 입력 식별자에 해당하는 개념을 간략하게 정의한 정의문(영문 및 한글)이 우선적으로 출력되고, 그 아래에 입력 개념과 특정 관계로 맺어진 다양한 확장 개념들이 출력된다. 위키데이터에서는 관계명 각각도 식별자로 관리가 되므로, 이들 식별자도 함께 출력이 될 수 있다. 마지막에는 다양한 관계들로 맺어진 확장 개념들에 대한 정의문이 추가적으로 출력된다. 만일 확장 범위를 1에서 2로 증가시키면, 1차적으로 확장된 개념들과 연결된 2차 개념들이 추가적으로 출력될 수 있다. 위키데이터에서의 특정 개념은 다른 개념들과의 연결고리는 물론이거니와 카테고리 정보, 주제명, 시소러스 식별자, 이미지 파일, 입력 일자 등과 같은 부가 정보와도 연동이 되어 있다.
도 8은 앞에서 살펴본 “universe”에 대한 확장 결과를 보여주고 있다. 도 9에서 “q1”은 편의상 “universe”의 특정 식별자를 나타내고 있고, 이에 대한 영문 및 한글 정의문이 맨 위에 출력되고 있다. 그 아래에는 “universe”를 주어(subject)로 포함하는 다양한 종류의 관계 트리플이 출력된다. 이들 트리플은 데이터베이스 내에서 직접 실시간으로 검색해서 나온 결과로서 “P793”, “P31” 등과 같은 관계식별자가 존재한다. 예를 들어, “universe”-“significant event”-“Big Bang”은 “우주”와 “중요한 사건” 관계로 맺어진 “Big Bang”을 나타내고 있다. 비록 그 외에도 다양한 관계가 있을 수 있으나 개시된 시스템에서는 선택 사항에 따라서 모든 관계를 바탕으로 하는 트리플을 출력할 수도 있고, 개념그래프에서 지정된 관계에 해당하는 트리플 집합만을 출력할 수도 있다. 비록 시스템이 2차 이상의 확장을 의미하는 다중 확장 기능을 포함하고 있으나, 실제 질의 개념그래프의 확장 측면에서는 불필요한 정보들을 도출할 수 있는 위험이 있으므로, 2차 이상의 확장은 가급적 지양하는 편이 더 효과적일 수 있다.
상술하였듯이, 개시된 시스템은 다양한 세부 확장 API들을 제공하고 있으며, 이 API들은 그 출력 방식으로 JSON을 이용할 수 있다. 도 9는 API들이 출력한 JSON 파일들과 특정 JSON 파일의 내용을 보여주고 있다. 특히, “Q1_ID_O_Triple_i.json”은 입력 개념을 주어(subject)로 가지는 모든 1차 트리플 집합을 저장하고 있다. 실제 JSON 파일에는 주어(subject), 관계(relation), 목적어(object)에 해당하는 식별자만을 포함하고 있으며, 해당 식별자에 대한 상세 정보(레이블, 영문/한글 정의문, 위키페이지 번호 등)를 참조하기 위해서는 연관된 API를 활용하면 된다.
한편, 상술한 시스템을 통해 개념그래프 내에서 특정 노드에 대한 단편적인 확정 결과를 확인할 수 있으나 개념그래프 전체의 확장 양상을 확인할 수는 없다. 이러한 단점을 극복하기 위해, 즉 상술한 개념그래프 확장 시스템을 검증하고 그 기능을 시험하기 위해서 도 10과 같이 동적인 개념그래프 확장 가시화 모듈(400)을 질의 개념그래프 확장 시스템에 추가하여 개념그래프 확장 모듈(200)과 연동시킬 수 있다. 이때의 시스템을 질의 개념그래프 확장 시스템과 구분하여 질의 개념그래프 확장 가시화 시스템이라 명할 수도 있고, 그대로 질의 개념그래프 확장 시스템이라 명할 수도 있다.
개념그래프 확장 가시화 모듈(400)은 노드들과 노드 간에 관계로 표현되는 개념그래프를 가시화하여 사용자 인터페이스(211)를 통해 사용자에게 제공할 수 있다. 개념그래프 확장 가시화 모듈(400)은 그래프 시각화 모듈을 기반으로 개발될 수 있다. 개념그래프 확장 가시화 모듈(400)의 예가 도 11에 도시되어 있다. 도 11은 상술한 개념그래프 확장 모듈(200)을 활용하여 개발된 AJAX 기반의 웹 가시화 모듈 및 클라이언트 기반 가시화 모듈을 나타낸다. 다양한 종류의 웹 기반 가시화 모듈을 분석한 후에 OWL(Web Ontology Language) 기반의 WebVOWL 0.5.x(http://vowl.visualdataweb.org/webvowl.html)를 채택하여 이를 확장 엔진과 연동시켰다.
도 12는 WebVOWL의 전체 화면 구성의 예를 나타낸다. 도 12의 좌측 부분은 지속적으로 확장될 수 있는 개념그래프가 가시화되고 사용자와 인터렉션을 주고받는 영역이다. 우측에는 현재 출력된 개념그래프에 대한 제목, 설명, 통계 및 선택된 노드에 대한 상세 정보 등이 출력되는 정보 제공 영역이 존재한다. 이를 통해, 사용자는 특정 개념 노드 및 관계 노드에 대한 구체적인 정보를 확인할 수 있다. 도 12에서는 관계 노드인 “중요한 사건”이 선택되었으며, 정보 제공 영역에 “중요한 사건”에 대한 상세 정보가 출력됨이 확인된다. 참고로, 노드는 사용자에 의해 선택될 수 있다. 마지막으로, 화면의 하단에는 화면 조작, 외부 저장(export), Gravity 조정, 필터링, 재구성(reseet) 등의 작업을 수행할 수 있는 유틸리티 영역이 존재한다. 기존 WebVOWL은 고정되고 정적인 단일 OWL 파일을 입력받아서 이를 가시화하는 반면에, 개시된 시스템은 지속적으로 확장되는 동적 개념그래프를 출력할 수 있도록 재구성되었다.
도 13은 개념그래프 초기 확장을 나타낸 예시도이고, 도 14는 “빅뱅”에 대한 추가적인 개념 노드 확장을 나타낸 예시도이며, 도 15는 “조르주 르메트르”에 대한 상세 확장 개념그래프의 예를 나타낸다. 이들 도면은 특정 주제(“universe”)로 시작하여 개념그래프가 지속적으로 확장되는 모습을 나타낸 것으로, 개시된 시스템의 특징을 보여준다. 도 13에서 보는 바와 같이, 만약 최초의 원본 개념그래프가 “우주(universe)”라는 개념 노드를 포함하고 있다면, 이를 특정 관계(“중요한 사건”) 중심으로 확장하여 새로운 추가 개념 노드들을 확보할 수 있다. 여기서는 “급팽창 이론”, “빅뱅 핵합성”, “빅뱅” 등이 그 예이다. 만일 “빅뱅(Big Bang)” 개념 노드를 중심으로 추가 확장을 수행하면, 이와 연관된 개념 노드로는 도 14에 도시된 바와 같이 “전체-부분” 관계로 맺어진 “일반 상대성 이론”과 “반대 개념” 관계로 맺어진 “정상우주론” 노드, 그리고 “발견자” 관계로 맺어진 “조르주 르메트르”가 도출될 수 있다. 추가적으로, “조르주 르메트르”에 대한 개념 노드 확장을 수행한 결과는 도 15에서 보여주고 있다. 도 15에 도시된 바와 같이, 특정 관게에 대한 목적어(object) 노드가 다수인 경우에는 가상 노드를 구성하여 연결하고 있다. 예를 들어, “조르주 르메트르”-“출신 학교”-“메사추세츠 공과대학”과 “조르주 르메트르”-“출신 학교”-“케임브레지 대학”은 가상 노드를 활용하여 축약 형태로 보여주고 있다.
개시된 노드 기반 개념그래프 확장 모듈에 대한 성능 평가를 위해서 주요 최신 기술 용어를 중심으로 51개의 개념어(concept word)들을 선정하여 이들 용어 각각에 대한 1차 노드 확장을 수행하고 그 결과를 수동 검증하였다. 선정된 개념어 리스트는 표 2와 같다.
Figure 112016019798364-pat00010
선정된 개념어를 중심으로 위키데이터에서 범용 관계가 아닌 의미적 연관 관계로 연결된 추가적인 개념어가 추출되어 확장되었다. 앞의 예에서 “빅뱅”이라는 개념어와 의미적으로 연결된 “조르주 르메트르”는 하나의 시맨틱 트리플로 볼 수 있으며, 위 개념어 리스트를 활용하여 직접 연결된 개념어 중심으로 1차 확장한 결과 총 142개의 의미적 트리플이 추출되었다. 추출된 트리플의 예는 표 3과 같다.
Figure 112016019798364-pat00011
성능 평가 기준은 다음과 같다. 올바르지 않은 트리플 항목을 선택하기 위해서, 우선 두 개념어 간의 관계가 어색한 트리플(“Smart City”-“종류”-“영화”), 개념그래프의 일부로서 확장되면 전체적인 의미가 불분명해지거나 달라질 수 있는 트리플(“소셜 네트워크”-“상위 분류”-“사회 구성체”), 목적어의 의미가 불명확한 트리플(“barcode”-“종류”-“machine-readable”) 그리고 개념그래프 기반 질의응답 시스템의 입력으로 활용되기에는 부적합한 트리플(“Massachusetts Institute of Technology”-“웹 사이트 계정”-“리서치게이트”) 등은 모두 틀린 트리플로 간주하였다. 총 142개의 트리플 중에서 25개의 틀린 트리플들이 존재하였으며 정확도는 78.63%로 계산되었다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 개념그래프 생성 모듈 200 : 개념그래프 확장 모듈
210 : 사용자 접속 모듈 211 : 사용자 인터페이스
220 : 관계 트리플 확장 모듈 300 : 관계트리플 지식베이스
400 : 개념그래프 확장 가시화 모듈

Claims (12)

  1. 개념그래프 확장을 위한 참조 정보가 저장된 관계트리플 지식베이스; 및
    자연어 문장으로 이루어진 질의로부터 변환된 개념그래프를 바탕으로 관계트리플 지식베이스에 저장된 참조 정보를 이용하여 개념그래프 확장 알고리즘을 통해 확장된 형태의 개념그래프를 생성하는 개념그래프 확장 모듈;을 포함하되,
    개념그래프 확장 알고리즘은 질의 개념그래프의 질문 트리플 집합에서 확장할 하나 이상의 개념 개체를 선택하고, 선택된 개념 개체의 정의문에서 트리플 집합을 추출하며, 추출된 정의문 트리플 집합으로부터 선택된 정의문 트리플을 이용하여 개념그래프를 확장하는
    개념그래프 확장 시스템.
  2. 제 1 항에 있어서,
    개념그래프는 질의를 구성하는 적어도 일부 객체들을 나타낸 개념 노드들과 개념 노드간의 관계를 나타낸 관계 노드들을 포함하는 개념그래프 확장 시스템.
  3. 제 2 항에 있어서,
    개념그래프 확장 모듈은 개념 노드를 중심으로 개념그래프를 확장하는 개념그래프 확장 시스템.
  4. 제 3 항에 있어서,
    개념그래프 확장 모듈은 확장된 개념 그래프를 개념 노드를 중심으로 반복 확장 가능한 개념그래프 확장 시스템.
  5. 제 2 항에 있어서,
    개념그래프를 가시화하여 사용자 인터페이스를 통해 제공하며, 개념그래프 확장 모듈과 연동하는 개념그래프 확장 가시화 모듈;
    을 더 포함하는 개념그래프 확장 시스템.
  6. 제 1 항에 있어서,
    관계트리플 지식베이스에 저장된 참조 정보에는 개념 개체 및 개념 개체간 관계를 나타내는 관계 트리플에 대한 정보가 포함되는 개념그래프 확장 시스템.
  7. 제 6 항에 있어서,
    관계트리플 지식베이스는 관계형 지식 데이터 저장을 위한 스키마 구조를 갖는 개념그래프 확장 시스템.
  8. 제 7 항에 있어서,
    관계트리플 지식베이스의 데이터베이스 스키마 구조는 개념 레이블과 정의문 및 링크를 포함하는 제 1 명세와, 개념들을 연결하는 속성과 관계 레이블 및 정의문을 포함하는 제 2 명세와, 객체에 대한 관계 트리플 집합이 저장된 제 1 정보 및 제 2 정보와, 속성들 사이의 관계가 포함된 제 3 정보, 및 속성에 저장될 값의 범위를 지정한 제 4 정보를 포함하는 개념그래프 확장 시스템.
  9. 삭제
  10. 제 1 항에 있어서,
    개념그래프 확장 모듈은 질문 트리플 집합에 속하는 개념 개체들 중에서 중요도가 높은 개념 개체를 선택하는 개념그래프 확장 시스템.
  11. 제 10 항에 있어서,
    중요도가 높은 개념 개체는 관계트리플 지식베이스에 등재된 용어인 개념그래프 확장 시스템.
  12. 제 1 항에 있어서,
    개념그래프 확장 모듈은 정의문 트리플 집합과 질문 트리플 집합을 비교하여 중복되는 정의문 트리플을 제거하고, 질문 트리플과 주어(subject) 또는 목적어(object)가 일치하는 정의문 트리플을 선택하고, 선택된 정의문 트리플과 주어(subject) 또는 목적어(object)가 일치하는 정의문 트리플을 선택하며, 나머지 정의문 트리플은 모두 제거하는 개념그래프 확장 시스템.
KR1020160024383A 2016-02-29 2016-02-29 지식베이스 기반의 개념그래프 확장 시스템 KR101835345B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160024383A KR101835345B1 (ko) 2016-02-29 2016-02-29 지식베이스 기반의 개념그래프 확장 시스템
PCT/KR2017/001592 WO2017150820A1 (ko) 2016-02-29 2017-02-14 지식베이스 기반의 개념그래프 확장 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160024383A KR101835345B1 (ko) 2016-02-29 2016-02-29 지식베이스 기반의 개념그래프 확장 시스템

Publications (2)

Publication Number Publication Date
KR20170101609A KR20170101609A (ko) 2017-09-06
KR101835345B1 true KR101835345B1 (ko) 2018-03-07

Family

ID=59743062

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160024383A KR101835345B1 (ko) 2016-02-29 2016-02-29 지식베이스 기반의 개념그래프 확장 시스템

Country Status (2)

Country Link
KR (1) KR101835345B1 (ko)
WO (1) WO2017150820A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021054514A1 (ko) * 2019-09-18 2021-03-25 주식회사 솔트룩스 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101934583B1 (ko) * 2018-01-17 2019-01-02 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 지식베이스의 시각화 방법 및 컴퓨터 판독가능 기록 매체
KR102090237B1 (ko) * 2018-07-31 2020-03-17 주식회사 포티투마루 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램
KR102128549B1 (ko) 2018-09-19 2020-07-08 주식회사 포티투마루 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
KR102261199B1 (ko) * 2018-09-19 2021-06-07 주식회사 포티투마루 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
KR102212310B1 (ko) * 2018-12-04 2021-02-05 숭실대학교산학협력단 오류 트리플 검출 시스템 및 방법
US11562133B2 (en) 2018-12-04 2023-01-24 Foundation Of Soongsil Univ-Industry Cooperation System and method for detecting incorrect triple
KR102206742B1 (ko) 2018-12-06 2021-01-25 한국과학기술원 자연언어 텍스트의 어휘 지식 그래프 표현 방법 및 장치
CN110457435A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利新颖性分析***及其分析方法
CN110532328B (zh) * 2019-08-26 2023-04-07 哈尔滨工程大学 一种文本概念图构造方法
KR102439165B1 (ko) * 2019-11-26 2022-09-01 한국과학기술원 상식 지식과 언어학적 패턴을 이용한 서술문 신뢰도 평가 시스템 및 그 방법
KR102398832B1 (ko) * 2020-04-23 2022-05-17 주식회사 케이티 지식 그래프에 기초하여 응답을 도출하는 장치, 방법 및 컴퓨터 프로그램
KR102655154B1 (ko) * 2021-09-30 2024-04-05 주식회사 와이즈넛 인공신경망 모델을 이용한 컨셉넷 자동 확장 방법
WO2023249558A1 (en) * 2022-06-22 2023-12-28 Gp Network Asia Pte. Ltd. Method and system for adaptively executing a plurality of tasks
WO2024007119A1 (zh) * 2022-07-04 2024-01-11 华为技术有限公司 文本处理模型的训练方法、文本处理的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100820746B1 (ko) * 2007-01-22 2008-04-11 조선대학교산학협력단 온톨로지를 이용한 정보의 브라우징 시스템 및 방법
JP2015505082A (ja) * 2011-12-12 2015-02-16 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報ドメインに対する自然言語処理モデルの生成

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101353521B1 (ko) * 2012-05-10 2014-01-23 경북대학교 산학협력단 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치
KR101458140B1 (ko) * 2012-05-10 2014-11-12 최진근 단어 연관성을 이용하는 정보 수집 시스템 및 정보 수집 방법
KR20140051606A (ko) * 2012-10-23 2014-05-02 에스케이텔레콤 주식회사 Rdf 기반의 문장 온톨로지를 이용한 일관성 평가 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100820746B1 (ko) * 2007-01-22 2008-04-11 조선대학교산학협력단 온톨로지를 이용한 정보의 브라우징 시스템 및 방법
JP2015505082A (ja) * 2011-12-12 2015-02-16 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報ドメインに対する自然言語処理モデルの生成

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021054514A1 (ko) * 2019-09-18 2021-03-25 주식회사 솔트룩스 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템
KR20210033348A (ko) * 2019-09-18 2021-03-26 주식회사 솔트룩스 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템
KR102252459B1 (ko) * 2019-09-18 2021-05-14 주식회사 솔트룩스 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템
US11960513B2 (en) 2019-09-18 2024-04-16 Saltlux Inc. User-customized question-answering system based on knowledge graph

Also Published As

Publication number Publication date
KR20170101609A (ko) 2017-09-06
WO2017150820A1 (ko) 2017-09-08

Similar Documents

Publication Publication Date Title
KR101835345B1 (ko) 지식베이스 기반의 개념그래프 확장 시스템
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
US6618727B1 (en) System and method for performing similarity searching
US10853357B2 (en) Extensible automatic query language generator for semantic data
Grolinger et al. Knowledge as a service framework for disaster data management
Sohrabi et al. Top-down vertical itemset mining
JP5639417B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Pawar et al. Keyword search in information retrieval and relational database system: Two class view
Swaminathan et al. A comparative study of recent ontology visualization tools with a case of diabetes data
Li et al. Question answering with dbpedia based on the dependency parser and entity-centric index
Carmel et al. Entity oriented search and exploration for cultural heritage collections: the EU cultura project
Nowroozi et al. Constructing an ontology based on a thesaurus: A case of ASIS&TOnto based on the ASIS&T Web-based thesaurus
KR100407033B1 (ko) 정보 모델링방법에 의해 데이터베이스를 구축하고, 구축된 데이터베이스를 이용하여 정보를 검색하는 방법,
Revuri et al. Using domain ontologies for efficient information retrieval
Yong-Xin et al. A novel method for data conflict resolution using multiple rules
Tang et al. Ontology-based semantic retrieval for education management systems
Dong et al. An R2RML-based mapping system from metal materials database to ontology
Berg et al. Query and answer forms for sophisticated database interfaces
Zhou et al. Using patterns in knowledge graphs for targeted information extraction
Yang et al. KOSMOS: Knowledge-graph oriented social media and mainstream media overview system
US11681700B1 (en) Methods and apparatuses for clustered storage of information
Zhou et al. Querying graphs with uncertain predicates
Mertens et al. Utilizing Structured Information from Multiple External Sources in the Context of the Multidimensional Data Model
Paiva et al. GSSP–A Generic Semantic Search Platform
Runge Extraction of Ontological Metadata and Generation of an OBDA Mapping from a Relational Schema

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right