KR101654717B1

KR101654717B1 - 지식 데이터베이스 기반 구조화된 질의 생성 방법 및 장치

Info

Publication number: KR101654717B1
Application number: KR1020140170333A
Authority: KR
Inventors: 이경일; 함영경; 양성권
Original assignee: 주식회사 솔트룩스
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2016-09-06
Also published as: KR20160066236A

Abstract

본 발명은 자연어로 구성된 질의문을 구조화된 질의로 변환하는 방법에 관한 것으로, 본 발명에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법은 자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단하는 단계; 및 상기 질의문의 질의 대상인 지식 데이터베이스를 기반으로, 상기 판단된 속성에 따른 상기 질의문에 대한 정답의 유형을 판단하고, 상기 판단된 정답의 유형에 따라 상기 지식 데이터베이스에 대하여 상기 문장 형식으로 구조화된 질의를 생성하는 단계를 포함한다. 본 발명에 따르면, 자연어 질의문의 구문적, 문법적 분석 결과를 활용하여 구조화된 질의를 생성하여 보다 사용자 친화적인 정보를 제공할 수 있으며, 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식 데이터베이스를 기반으로 질의를 생성하므로, 다양한 원시 정보로부터 정답을 획득 할 수 있다. 궁극적으로 기계가 인식 가능한 질의로 변환하기 때문에 자연어를 통한 인간과 기계 간의 의사소통을 지원할 수 있다.

Description

지식 데이터베이스 기반 구조화된 질의 생성 방법 및 장치{Method for producing structured query based on knowledge database and apparatus for the same}

본 발명은 자연어로 구성된 질의문을 구조화된 질의로 변환하는 방법에 관한 것이다.

현재 검색 엔진에서 주로 사용되는 기술은 키워드를 기반한다. 사용자가 자연어로서 문장 형태의 질의를 입력하면 자연어 처리 기술을 통해 주요한 키워드를 추출하고 보유하고 있는 웹 문서 집합에서 해당 키워드를 포함하는 웹 문서들을 반환한다.

이때의 자연어란 일반인이 일상에서 사용하는 한국어, 영어, 일본어 등을 의미하며 기계가 이해하는 프로그래밍 언어, 데이터 질의 언어 등과 대비된다. 자연어는 반드시 완벽한 문법을 구사하지 않아도 사람 간의 의사소통에 큰 문제가 없으나, 검색 엔진의 경우 키워드의 포함여부에 따른 결과만을 제시하므로 사용자가 원하는 정보를 얻기 위하여 구체적인 질의를 입력하면 획득할 수 있는 정보가 제한되며, 제공하는 정보의 정확도도 떨어지게 된다.

즉, 사용자가 입력하는 자연어를 지식 데이터베이스에서 인식가능 하도록 하기 위해서는 지식 데이터베이스가 인식 가능한 질의로 변환하는 시스템이 필요하다. 이때, 자연어를 구조화된 질의로 변환하기 위해 결정된 규칙에 따라 단순 변환하게 되면 다양한 사용자의 다양한 표현 방식에 따라 논리적 오류가 발생할 수 있으며, 질의에 대한 정답을 얻기 위한 지식 데이터베이스의 구조에 따라서도 적용이 불가능한 문제가 발생한다.

본 발명은 상기 기술적 과제를 해결하기 위하여 도출된 것으로 자연어 기반의 질의를 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 구조화된 질의로 변환하는 방법을 제안하는 것을 목적으로 한다.

보다 상세하게는 질의문에 포함된 키워드뿐 아니라 질의문의 구문적, 문법적 분석 결과를 활용하여 질문을 보다 구체적으로 이해하여 구조화된 질의로 변환하는 방법을 제안하는 것을 목적으로 한다.

상기 기술적 과제를 해결하기 위한 본 실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법은 자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단하는 단계; 및 상기 질의문의 질의 대상인 지식 데이터베이스를 기반으로, 상기 판단된 속성에 따른 상기 질의문에 대한 정답의 유형을 판단하고, 상기 판단된 정답의 유형에 따라 상기 지식 데이터베이스에 대하여 상기 문장 형식으로 구조화된 질의를 생성하는 단계를 포함한다.

상기 판단하는 단계는 상기 자연어 질의문을 형태소 단위로 분리하여 상기 분리된 형태소간의 언어적 연관관계에 따라 상기 형태소를 서로 연관짓고, 상기 생성하는 단계는 상기 형태소의 연관관계에 따라 상기 질의문에 대한 정답의 유형을 판단하는 것이 바람직하다.

상기 판단하는 단계는 상기 자연어 질의문을 미리 정의된 의미 단위인 프레임으로 분리하여 상기 프레임의 상기 질의문에 대한 정답과의 관계를 분석하고, 상기 생성하는 단계는 상기 프레임의 상기 접답과의 관계에 따라 상기 질의문에 대한 정답 유형을 판단하는 것이 바람직하다.

상기 판단하는 단계는 상기 자연어 질의문에 포함된 개체명의 속성을 분석하고, 상기 생성하는 단계는 상기 개체명의 속성에 따른 상기 질의문에 대한 정답 유형을 판단하는 것이 바람직하다.

상기 생성하는 단계는 상기 질의문에 대한 정답의 유형 후보를 도출하고, 상기 지식 데이터베이스를 참조하여 상기 도출된 정답의 유형 후보로부터 상기 정답의 유형을 판단하는 것이 바람직하다.

상기 생성하는 단계는 상기 정답의 유형을 이용하여 상기 구조화된 질의의 기본을 생성하고, 상기 판단된 문장 형식에 따라 미리 결정된 규칙으로 상기 구조화된 질의의 기본을 상기 구조화된 질의로 변환하는 것이 바람직하다.

상기 생성하는 단계는 상기 자연어 질의문에 포함된 시간 또는 공간적 정보를 이용하여 상기 구조화된 질의를 구체화하는 것이 바람직하다.

본 발명에 따르면, 자연어 질의문의 구문적, 문법적 분석 결과를 활용하여 구조화된 질의를 생성하여 보다 사용자 친화적인 정보를 제공할 수 있으며, 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식 데이터베이스를 기반으로 질의를 생성하므로, 다양한 원시 정보로부터 정답을 획득 할 수 있다. 궁극적으로 기계가 인식 가능한 질의로 변환하기 때문에 자연어를 통한 인간과 기계 간의 의사소통을 지원할 수 있다.

도 1은 본 발명의 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 장치를 포함하는 전체 시스템을 나타내는 도이다.
도 2는 본 발명에 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법을 나타내는 흐름도이다.
도 3은 본 발명에 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법의 판단 단계를 보다 상세히 나타나는 흐름도이다.
도 4는 본 발명에 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법의 생성 단계를 보다 상세히 나타나는 흐름도이다.

이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.

또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 장치를 포함하는 전체 시스템을 나타내는 도이다.

도 1을 참조하면, 본 실시예에 따른 시스템은 사용자 또는 외부 시스템(10)으로부터 질의를 입력 받는 질의 처리부(100), 입력된 자연어 기반의 질의문을 분석하는 질의 분석부(200), 분석된 결과를 통해 구조화된 질의를 생성하는 질의 생성부(300)를 포함하며, 질의의 생성에 기반이되는 지식 데이터베이스(400)를 포함한다.

본 실시에에서 질의문은 사용자 또는 외부 시스템으로부터 입력되는 자연어 기반의 질의문으로, 일반인이 일상에서 사용하는 한국어, 영어, 일본어 등을 의미하며 기계가 이해하는 프로그래밍 언어, 데이터 질의 언어 등과 대비된다.

자연어는 반드시 완벽한 문법을 구사하지 않아도 사람 간의 의사소통에 큰 문제가 없다. 반면 본 발명에서 제안하는 시스템의 결과로 생성되는 지식 데이터베이스(400) 기반의 질의는 기계가 이해하는 형식적이고, 구조적인 언어를 의미한다.

현재, 검색 엔진에서 주로 사용되는 기술은 키워드를 기반한다. 사용자가 문장 형태의 질의를 입력하면 자연어 처리 기술을 통해 주요한 키워드를 추출하고 보유하고 있는 웹 문서 집합에서 해당 키워드를 포함하는 웹 문서들을 반환한다. 또한, 애플이나 삼성의 인터페이스는 모바일 장비 상에 있는 데이터, 어플리케이션 등에 국한된 질문이나 명령어를 처리한다.

반면 본 발명의 시스템은 질문을 특정 데이터베이스(400) 모델에 제한된 질의가 아닌 모든 데이터베이스(400) 모델을 포괄할 수 있는 지식 데이터베이스(400) 질의로 변환한다. 또한, 키워드뿐 아니라 질문의 구문적, 문법적 분석 결과를 활용하여 질문을 보다 구체적으로 이해하여 변환한다.

본 발명에서 질의의 대상이 되는 지식 데이터베이스(400)는 시맨틱 웹(Semantic Web)일 수 있다. 시맨틱 웹이란 현재 사용되는 인터넷 등과 같은 분산 환경에서 리소스, 예컨대 웹문서, 각종 파일, 각종 응용 서비스 등에 관한 정보와 자원 사이의 관계-의미 정보(semantics)를 기계적으로 처리할 수 있는 온톨로지(ontology) 정보로서 표현하는 기술을 의미한다. `

지식 데이터베이스(400)는 데이터 관리를 위하여 가장 보편적으로 사용되고 있는 모델이며, 이를 관리하는 데이터베이스(400) 관리 시스템들(DBMSs: Database Management Systems)은 구조적 질의어를 지원하고 있다. 다만 이러한 데이터메이스 관리 시스템들의 경우 각각 자료를 기술하는 관점이나 언어적 특성이 다르기 때문에 변환 과정을 통해 본래 의도했던 것과 다른 결과물이 나오는 오류를 범할 가능성이 있다.

따라서, 본 발명에 따른 질의 분석부(200)와 질의 생성부(300)는 지식 데이터베이스(400) 기반의 구조화된 질의를 생성하는 방법을 수행하여, 질문을 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식베이스 질의로 변환한다. 또한, 키워드뿐 아니라 질문의 구문적, 문법적 분석 결과를 활용하여 질문을 보다 구체적으로 이해하여 변환한다.

이하 도 2 내지 도 4를 참조하여, 보다 상세히 설명한다.

도 2는 본 발명에 따른 지식 데이터베이스(400) 기반 구조화된 질의 생성 방법을 나타내는 흐름도이다.

도 2를 참조하면, 본 실시예에 따른 지식 데이터베이스(400) 기반 구조화된 질의 생성 방법은 판단 단계(S100), 생성 단계(S200)를 포함한다.

본 실시예에서 판단 단계(S100)는 자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단한다.

즉, 질의 분석부(200)는 질문 처리부(100)로부터 전달 받은 자연어로 작성된 질문을 언어학적으로 분석한다.

도 3을 참조하여 질의 분석부(200)에 의한 판단 단계(S100)를 보다 상세히 설명한다.

본 실시예에 따른 판단 단계(S100)는 형태소 분석 단계(S110), 구문 분석을 통한 트리 생성 단계(S120), 프레임 분석을 통한 질의문과 정답 관계 도출 단계(S130), 개체명 분석 단계(S140), 문장 형식 분석 단계(S150), 분석 결과 통합 단계(S160)를 포함한다.

본 실시예에서 형태소 분석 단계(S110)는 형태소 분석부(210)가 자연어 질문의 형태소를 분석하여 형태소 목록을 생성한다.

이하, 본 실시예에서는 자연어 질의문으로 "세계 최초로 1927년 8월 사회주의 계열과 민족주의 계열의 여성 운동가들이 세계 최초로 경상북도 영천에서 통합해 조직한 단체는?"이라는 질의문이 질문처리부에 의해 입력되었을 때의 질의 생성에 대하여 설명한다.

따라서, 형태소 분석 단계(S110)는 자연어 질의문을 형태소 단위로 분석한다. 즉, 표 1과 같이 분석될 수 있다.

`세계`[`세계`/NN:0:2] `최초로`[`최초`/NN:3:5+`로`/J:5:6] `1927년`[`1927`/SN:7:11+`년`/NN:11:12] `8월`[`8`/SN:13:14+`월`/NN:14:15] `사회주의`[`사회주의`/NN:16:20] `계열과`[`계열`/NN:21:23+`과`/J:23:24] `민족주의`[`민족주의`/NN:25:29] `계열의`[`계열`/NN:30:32+`의`/J:32:33] `여성`[`여성`/NN:34:36] `운동가들이`[`운동가`/NN:37:40+`들`/X:40:41+`이`/J:41:42] `세계`[`세계`/NN:43:45] `최초로`[`최초`/NN:46:48+`로`/J:48:49] `경상북도`[`경상북도`/NN:50:54] `영천에서`[`영천`/NN:55:57+`에서`/J:57:59] `통합해`[`통합`/NN:60:62+`해`/X:62:63] `조직한`[`조직`/NN:64:66+`한`/X:66:67] `단체는?`[`단체`/NN:68:70+`는`/J:70:71+`?`/S:71:72]

이때, NN은 명사를 의미하며, J는 조사를 의미하는 태그로 예를 들어, ' 세계`[`세계`/NN:0:2]'은 `세계`는 명사(NN)이고 문장의 0~2 번째에 있다는 의미이며, `최초로`는 명사와 조사의 조합으로 이루어져 있음을 의미한다.

구문 분석을 통한 트리 생성 단계(S120)는 구문 분석부(220)가 자연어 질문의 구문을 분석하여 구문 트리를 생성한다. 이때의 생성되는 데이터구조는 아래의 표 2와 같이 표현될 수 있다.

{"id" : 0, "text" : "세계", "head" : 1, "label" : "NP", "mod" : [] },
{"id" : 1, "text" : "최초로", "head" : 14, "label" : "NP_AJT", "mod" : [0] },
{"id" : 2, "text" : "1927년", "head" : 3, "label" : "NP", "mod" : [] },
{"id" : 3, "text" : "8월", "head" : 14, "label" : "NP_AJT", "mod" : [2] },
{"id" : 4, "text" : "사회주의", "head" : 5, "label" : "NP", "mod" : [] },
{"id" : 5, "text" : "계열과", "head" : 7, "label" : "NP_CNJ", "mod" : [4] },
{"id" : 6, "text" : "민족주의", "head" : 7, "label" : "NP", "mod" : [] },
{"id" : 7, "text" : "계열의", "head" : 9, "label" : "NP_MOD", "mod" : [5, 6] },
{"id" : 8, "text" : "여성", "head" : 9, "label" : "NP", "mod" : [] },
{"id" : 9, "text" : "운동가들이", "head" : 14, "label" : "NP_SBJ", "mod" : [7, 8] },
{"id" : 10, "text" : "세계", "head" : 11, "label" : "NP", "mod" : [] },
{"id" : 11, "text" : "최초로", "head" : 14, "label" : "NP_AJT", "mod" : [10] },
{"id" : 12, "text" : "경상북도", "head" : 13, "label" : "NP", "mod" : [] },
{"id" : 13, "text" : "영천에서", "head" : 14, "label" : "NP_AJT", "mod" : [12] },
{"id" : 14, "text" : "통합해", "head" : 15, "label" : "VP", "mod" : [1, 3, 9, 11, 13] },
{"id" : 15, "text" : "조직한", "head" : 16, "label" : "VP_MOD", "mod" : [14] },
{"id" : 16, "text" : "단체는?", "head" : -1, "label" : "ROOT", "mod" : [15] }

표 2는 어절 간의 구문관계를 표현한 것으로 id는 어절의 id를 의미한다. Text는 어절을 의미한다. Head는 부모 어절을 의미하고, Label은 어절의 구문적 역할을 의미하며, Mod는 자식 어절을 의미한다. 즉, 이 예시하는 질의문의 최상위 어절은 ROOT의 역할을 하는 16번 어절 `단체는?`이며, 자식 어절로는 15번 어절인 `조직한`을 가지고 있다. 이렇게 서로 연결된 어절 간의 관계를 구문트리라고 한다.

다음, 프레임 분석을 통한 질의문과 정답 관계 도출 단계(S130)는 프레임 분석부(230)가 자연어 질의문을 미리 정의된 의미 단위인 프레임으로 분리하여 상기 프레임의 상기 질의문에 대한 정답과의 관계를 분석한다.

이때 질의문과 프레임의 관계라 함은, 정답을 제약하기 위한 조건으로서 상술한 실시예에 따르면, 표 3과 같이 표현될 수 있다.

C:0 / X:AT_VARIABLE / PT_SUPERATIVE:PT_SUPERATIVE / 세계 최초로:AT_STRING
C:1 / X:AT_VARIABLE / PT_TEMPORAL:PT_TEMPORAL / 1927년 8월:AT_STRING
C:2 / X:AT_VARIABLE / PT_SUPERATIVE:PT_SUPERATIVE / 세계 최초로:AT_STRING
C:3 / X:AT_VARIABLE / PT_LOCATION:PT_LOCATION / 영천에서:AT_STRING
C:4 / X:AT_VARIABLE / PT_LOCATION:PT_LOCATION / 경상북도:AT_STRING
C:5 / X:AT_VARIABLE / PT_TYPE:PT_TYPE / 단체:AT_STRING
C:6 / 운동가들이:AT_STRING / 통합하어:PT_LEXICAL / X:AT_VARIABLE

표 3은 질의문 문장의 프레임을 분석한 결과로, C는 프레임에 나타나는 변수(X)에 대한 제약 조건의 id를 의미한다. 5번 조건을 예로 들면, C:5는 질의에 의한 정답인 변수(AT_VARIABLE) X의 타입(PT_TYPE)은 `단체`라는 것을 의미한다. 6번 조건은 `운동가들이` X를 `통합`했다는 의미이다. 또한 1번 조건은 `1927년 8월`에 일어난 일이라는 것을 의미한다.

개체명 분석 단계(S140)는 개체명 분석부(240)가 자연어 질의문에 포함된 개체명의 속성을 분석한다. 이때 개체명은 개체명을 관리하는 사전을 통해 식별될 수 있으며, 식별된 개체명의 속성을 분석한다.

상술한 질의문에 따른 개체명 분석 결과는 표 4와 같이 표현될 수 있다.

1927년 8월:DT,사회주의:TR,민족주의:TR,경상북도:LC,영천:LC

여기서 인식된 개체명으로 `1927년 8월`이라는 시간(DT)을 나타내는 개체명. `경상북도`라는 공간(LC)을 나타내는 개체명으로 그 속성을 분석한다.

문장 형식 분석 단계(S150)는 문장 형식 분석부(250)가 형태소의 속성, 개체명의 속성을 통한 문장의 주어 술어 관계를 파악하고 미리 결정된 형식 기준에 따라 문장 형식을 분석한다. 본 실시예에서는 분석된 문장 형식이 생성되는 구조화된 질의의 구조를 결정할 수 있다.

다음 분석 결과 통합 단계(S160)는 분석 결과 통합부(S260)가 형태소 분석부(210), 구문 분석부(220), 프레임 분석부(230), 개체명 분석부(240), 문장 형식 분석부(250)의 결과를 통합하여 질의 생성부(300)에 전달한다.

이하, 생성 단계(S200)에 대하여 도 4를 참조하여 보다 상세히 설명한다.

도 4를 참조하면 본 실시예에 따른 생성 단계(S200)는 정답 유형 후보 도출 단계(S210), 정답 유형 판단 단계(S220), 질의 기본 생성 단계(S230), 구조화된 질의 생성 단계(S240), 질의 구체화 단계(S250), 질의 통합 단계(S260)를 포함한다.

정답 유형 후보 도출 단계(S210)는 정답 유형 판단부(310)가 언어분석결과를 기반으로 자연어 질문에서 얻고자 정답의 유형을 판단한다. 먼저 언어분석결과를 통해 다수의 정답유형 후보를 도출한다.

본 실시예에서는 프레임 분석부(230)의 결과에서 변수의 조건에 대한 정보를 얻을 수 있으며, 본 실시예에서 `C:5 / X:AT_VARIABLE / PT_TYPE:PT_TYPE / 단체:AT_STRING`를 보면 변수 X의 타입이 `단체`라는 문자와 관련 있다는 정보를 얻을 수 있다. 프레임 분석 결과에서 이러한 타입은 여러 개가 나올 수 있으며, 이를 정답 유형 후보로 결정할 수 있다.

다음, 정답 유형 판단 단계(S220)는 정답 유형 판단부(310)가 지식 데이터베이스(400)를 참조하여 정답 유형을 판단한다. 즉, 질의에 대상이 되는 지식 데이터베이스(400)의 데이터 구조들을 참조하고, 가장 적합한 정답 유형을 선택할 수 있다. 따라서, 본 실시예에서는 지식 데이터베이스(400) 각각의 구조적 특징에 대응되는 정답 유형을 찾고 이로부터 구조화된 질의를 생성하므로, 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식 데이터베이스(400)를 기반으로 질의를 생성하므로, 다양한 원시 정보로부터 정답을 획득 할 수 있다

본 실시예에서는 앞서 도출된 여러 개의 정답 유형 후보를 포함하는 후보를 지식 데이터베이스(400)에서 찾는다. 찾아진 후보가 하나이면 그것을 선정하고, 없는 경우 최상의 후보를로 선정한다. 예를 들어 두 개 이상 나오는 경우 프레임 분석 결과의 PT_LEXICAL의 값과 관련된 속성이 있는 후보를 선정할 수 있다.

정답 유형 기반 구조화된 질의 기본 생성 단계(S230)는 정답 유형 판단부(310)가 도출된 정답유형을 기반으로 지식베이스 기반 구조화된 질의의 기본을 생성한다.

구조화된 질의 생성 단계(S240)는 프레임 변환부(320)가, 질의 분석 결과 자연어 질문의 문장형식에 따라 정해진 규칙으로 지식베이스 질의를 생성한다.

상술한 질의문에 따라 생성되는 구조화된 질의는 아래의 표 5와 같이 표현될 수 있다.

?stmt rdf:type rdf:Statement .
?stmt rdf:object ?X .
?stmt rdf:predicate xbp:founderOf .
?stmt rdf:subject ?ins_1393423910 .
?ins_1393423910 xbp:name ?ins_name_1393423910 .
FILTER regex(?ins_name_1393423910, "운동가")

질의 구체화 단계(S250)는 부가정보 변환부(330)가 자연어 질의문에 포함된 시간 또는 공간적 정보를 이용하여 상기 구조화된 질의를 구체화한다.

상술한 질의문에 따라 생성되는 구체화된 구조화된 질의는 아래의 표 6와 같이 표현될 수 있다.

?stmt xbp:occursOn ?tem_966484835 .
?tem_966484835 xbp:name ?tem_name_966484835 .
FILTER regex(?tem_name_966484835, "1927년 8월")
?stmt xbp:occursIn ?loc_144315937 .
?loc_144315937 xbp:name ?loc_name_144315937 .
FILTER regex(?loc_name_144315937, "영천")
?stmt xbp:ranking ?sup_1008915696 .
FILTER regex(?sup_1008915696, "세계 최초")

질의 통합 단계(S260)는 질의 조합부(340)가 정답 유형 판단부(310), 프레임 변환부(320), 부가정보 변환부(330)에서 각각 생성된 지식 데이터베이스(400)기반 질의의 부분을 조합하여 다수의 질의를 생성하여 질의 처리부(100)에 전달한다.

상술한 질의문에 따라 생성되는 조합되는 구조화된 질의는 아래의 표 7과 같이 표현될 수 있다.

SELECT ?name
WHERE {
?X xbp:name ?name .

?X rdf:type xbc:Organization .

?stmt rdf:type rdf:Statement .
?stmt rdf:object ?X .
?stmt rdf:predicate xbp:founderOf .

?stmt rdf:subject ?ins_1393423910 .
?ins_1393423910 xbp:name ?ins_name_1393423910 .
FILTER regex(?ins_name_1393423910, "운동가")

?stmt xbp:occursOn ?tem_966484835 .
?tem_966484835 xbp:name ?tem_name_966484835 .
FILTER regex(?tem_name_966484835, "1927년 8월")
?stmt xbp:occursIn ?loc_144315937 .
?loc_144315937 xbp:name ?loc_name_144315937 .
FILTER regex(?loc_name_144315937, "영천")
?stmt xbp:ranking ?sup_1008915696 .
FILTER regex(?sup_1008915696, "세계 최초")
}

질의 생성부(300)를 통해 생성된 지식 데이터베이스(400) 기반 구조화된 질의는 다시 질의 처리부(100)로 전달되어 최종적으로 외부 시스템 또는 사용자에게 반환된다. 외부 시스템 또는 사용자는 생성된 질의를 지식 데이터베이스(400)에 요청하면 지식 데이터베이스(400)는 “근우회”와 같은 정답을 반환한다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.

따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단하는 단계; 및
상기 질의문의 질의 대상인 지식 데이터베이스를 기반으로, 상기 판단된 속성에 따른 상기 질의문에 대한 정답의 유형을 판단하고,
상기 판단된 정답의 유형에 따라 상기 지식 데이터베이스에 대하여 상기 문장 형식으로 구조화된 질의를 생성하는 단계를 포함하고,
상기 판단하는 단계는 상기 자연어 질의문을 형태소 단위로 분리하여 구문 트리를 생성하고, 상기 구문 트리를 이용하여 상기 자연어 질의문을 미리 정의된 의미 단위인 프레임으로 분리하여 상기 자연어 질의문의 정답을 제약하는 조건을 도출하고,
상기 생성하는 단계는 상기 정답을 제약하는 조건에 따라 상기 지식 데이터베이스의 데이터 구조를 참조하여 선택된 정답 유형에 따라 구조화된 질의를 생성하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
삭제
삭제
제 1 항에 있어서,
상기 판단하는 단계는 상기 자연어 질의문에 포함된 개체명의 속성을 분석하고,
상기 생성하는 단계는 상기 개체명의 속성에 따른 상기 질의문에 대한 정답 유형을 판단하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
제 1 항에 있어서,
상기 생성하는 단계는 상기 질의문에 대한 정답의 유형 후보를 도출하고,
상기 지식 데이터베이스를 참조하여 상기 도출된 정답의 유형 후보로부터 상기 정답의 유형을 판단하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
제 1 항에 있어서,
상기 생성하는 단계는 상기 정답의 유형을 이용하여 상기 구조화된 질의의 기본을 생성하고,
상기 판단된 문장 형식에 따라 미리 결정된 규칙으로 상기 구조화된 질의의 기본을 상기 구조화된 질의로 변환하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
제 1 항에 있어서,
상기 생성하는 단계는 상기 자연어 질의문에 포함된 시간 또는 공간적 정보를 이용하여 상기 구조화된 질의를 구체화하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단하는 질의 분석부; 및
상기 질의문의 질의 대상인 지식 데이터베이스를 기반으로, 상기 판단된 속성에 따른 상기 질의문에 대한 정답의 유형을 판단하고,
상기 판단된 정답의 유형에 따라 상기 지식 데이터베이스에 대하여 상기 문장 형식으로 구조화된 질의를 생성하는 질의 생성부를 포함하고,
상기 질의 분석부는 상기 자연어 질의문을 형태소 단위로 분리하여 구문 트리를 생성하고, 상기 구문 트리를 이용하여 상기 자연어 질의문을 미리 정의된 의미 단위인 프레임으로 분리하여 상기 자연어 질의문의 정답을 제약하는 조건을 도출하고,
상기 질의 생성부는 상기 정답을 제약하는 조건에 따라 상기 지식 데이터베이스의 데이터 구조를 참조하여 선택된 정답 유형에 따라 구조화된 질의를 생성하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 장치.