KR101374195B1 - 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치 - Google Patents

학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치 Download PDF

Info

Publication number
KR101374195B1
KR101374195B1 KR1020110123596A KR20110123596A KR101374195B1 KR 101374195 B1 KR101374195 B1 KR 101374195B1 KR 1020110123596 A KR1020110123596 A KR 1020110123596A KR 20110123596 A KR20110123596 A KR 20110123596A KR 101374195 B1 KR101374195 B1 KR 101374195B1
Authority
KR
South Korea
Prior art keywords
knowledge
triple
depth
searching
triples
Prior art date
Application number
KR1020110123596A
Other languages
English (en)
Other versions
KR20130057715A (ko
Inventor
전홍우
최성필
최윤수
정창후
성원경
송사광
이원구
정도헌
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020110123596A priority Critical patent/KR101374195B1/ko
Publication of KR20130057715A publication Critical patent/KR20130057715A/ko
Application granted granted Critical
Publication of KR101374195B1 publication Critical patent/KR101374195B1/ko

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mathematical Physics (AREA)

Abstract

다차원 지식을 자동으로 추출하고 활용 및 공유할 수 있는 대규모 학술적 과학 지식 메모리 기반의 심층 지식 제공을 위한 방법 및 장치가 개시된다.
학술적 과학 지식 메모리 기반의 심층 지식 제공 장치는 문서에 대한 관계형 지식(Relational Knowledge), 구조적 지식(Structural Knowledge), 절차적 지식(Procedural Knowledge)을 저장하는 지식 메모리; 및
질의어를 입력하고, 상기 지식 메모리로부터 입력된 질의어를 포함하는 트리플 및 트리플에 관련된 문서들을 검색하여 제시하는 심층 지식 제공부;를 포함한다.

Description

학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치 {Method for providing deep domain knowledge based on massive science information and apparatus thereof}
본 발명은 대규모 디지털 학술 자원 기반의 텍스트 분석 및 지식 가공 기술에 관한 것으로서, 특히 학술 논문, 특허, 보고서 등의 대상 문서를 분석하여 관계형 지식, 구조적 지식, 절차적 지식으로 이루어지는 다차원 지식을 추출하고, 대상문서에 대한 다차원 지식들을 저장하고 질의어에 상응하는 심층 지식을 제공함으로써 대규모 디지털 학술 자원을 용이하게 활용 및 공유할 수 있게 하는 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치에 관한 것이다.
과학기술 연구자, 정책 결정자들의 가장 큰 고민은 폭발적으로 증가하는 논문, 특허, 보고서 등의 기술 자료를 효율적으로 분석하여 자신들의 연구 및 정책에 반영 혹은 새로운 연구의 방향을 설정하는 데 있다.
이와 관련하여, 영국의 국립 텍스트 마이닝 연구센터(National Centre for Text Mining, NaCTeM)의 Sophia Ananiadou 소장은 2008년 Biomedical Computation Review와의 인터뷰에서 "과학자들은 현재 텍스트에 익사당하고(drowning) 있다."고 언급하였으며, 이를 극복할 수 있는 대용량 자원 기반의 텍스트 분석 및 지식 가공 기술의 중요성을 강조하였다.
과학기술분야 종사자들의 위와 같은 고민들을 해결하기 위해 수행될 수 있는 과학기술정보의 심층적 분석은 전체 R&D 과정에서 상당한 부분을 차지하고 있으며, 대부분 고도의 수작업으로 수행되고 있다.
이로 인해, 광범위한 과학기술분야에서 생산되는 엄청난 규모의 전문지식자원에 내포된 심층전문지식(Deep Domain Knowledge)을 제대로 식별하지 못하여 R&D의 의사결정이나 수행과정에 있어서, (1) 국가적 연구개발 정책 방향 수립에 있어서의 비효율성, (2) 기업 및 국가 간의 특허 분쟁 (3) 연구의 중복 및 후진성 등과 같은 오류나 불합리성을 일으키는 경우가 빈번하게 발생하고 있는 실정이다.
분야별 과학기술 연구 종사자(기업/공공 연구원, 대학원생, 교수 등)들은 자신의 연구 분야에서 생산되고 있는 양질의 최신 심층지식을 신속하게 획득하고 연구에 반영하기 원하고 있다. 그러나 연구 추진 이전 혹은 과정에서 자신들이 정한 가설(hypothesis) 혹은 아이디어에 대한 독창성(originality) 및 타당성(justification)에 대한 확신을 얻기 위해 매우 많은 시간을 할애함으로써 연구 활동(R&D activity)의 효율성을 저해하고 있는 상황이다.
또한, R&D 의사결정자 및 정책입안자들은 대상 연구 분야에 대한 신뢰성 있는 핵심 동향 지식(technical trends)을 쉽게 얻기를 원하고 있다. 부가 작업이 없이 자신들의 보유 지식만을 활용해서 쉽게 파악할 수 있는 직관적, 실용적 동향 지식의 확보가 이들의 핵심적인 이슈이다.
지금까지 과학기술 연구 종사자나 R&D 의사결정자 및 정책 입안자들이 주로 수행하였던 수작업에 의한 과학기술분야 심층전문지식 획득의 문제점은 (1) 과다한 시간 및 자원 활용, (2) 망라성(comprehensiveness) 확보, (3) 개인적으로 획득된 심층전문지식의 재사용/공유/확산의 어려움 등에 있다.
문서로부터 심층지식을 추출하여 그 정보들을 기반으로 하는 검색 시스템은 여러 가지가 있다. 그 중 세 가지 시스템에 대해 간략하게 소개한다.
첫 번째 검색 시스템은 미국 National Library of Medicine의 PubMed로써 이 시스템은 다양한 옵션의 고급검색기능 및 결과 문서와 관련된 문서들을 함께 제시하는 기능 등 일반 검색시스템과의 차별화를 시도하였다.
두 번째 검색 시스템은 일본 동경대학 Tsujii 연구실의 MEDIE로써 주어, 동사, 목적어의 최대 세 개의 질의어를 이용한 고급 검색이 가능하다. 이 시스템은 검색 대상 문서들을 색인하여 검색하는 일반적인 검색 시스템과는 다르게, 모든 보유 문서에 대상으로 문장 분리, 구문 분석, 개체명 인식과 같은 고급 자연언어처리 기술을 적용하여 획득한 심층 지식을 추출한 후 이 정보를 콘텐츠로 제공하고 있다.
마지막 검색 시스템은 일본 AIST (National Institute of Advanced Industrial of Science and Technology)의 LEGENDA로써 개체와 개체 사이의 공기 정보를 미리 파악한 후, 하나의 개체로 검색이 되면 이와 공기빈도가 높은 개체 이름들이 공기 문장과 같이 빈도순으로 열거된다
이러한 종래의 검색 시스템들은 고급 자연언어처리 기술을 적용하여 문서 내의 심층 지식을 추출하였으나, 일반 문서를 대상으로 한 정보검색 방법에서 크게 벗어나지 않고 단편적인 결과만을 제시하기 때문에 이런 결과만으로는 다양한 분석을 할 수가 없고 궁극적으로 연구 주제 선정이나 연구 동향 분석을 할 수가 없다는 문제점을 가지고 있다.
본 발명을 상기의 문제점들 중의 적어도 일부를 해결하기 위하여 고안된 것으로서 학술적 과학기술 지식의 효율적 공유/확산을 위한 학술적 과학지식 메모리 기반의 심층 지식 제공 방법을 제공하는 것을 그 목적으로 한다.
본 발명을 상기의 문제점들 중의 적어도 일부를 해결하기 위하여 고안된 것으로서 학술적 과학기술 지식의 효율적 공유/확산을 위한 학술적 과학지식 메모리 기반의 심층 지식 제공 장치를 제공하는 것을 그 목적으로 한다.
상기의 목적을 달성하기 위한 본 발명에 따른 학술적 과학지식 메모리 기반의 심층 지식 제공 방법은
대상 문서에 포함된 개체간의 관계를 나타내는 관계형 지식, 대상 문서에 포함된 문장들 간의 화용적 역할을 나타내는 구조적 지식 그리고 대상 문서의 목적, 행위 그리고 방법을 포함하는 절차적 지식으로 구성되는 다차원 지식이 트리플(주어/이벤트동사/목적어) 형태로 저장된 지식 메모리에 기반한 지식 제공 방법에 있어서,
검색을 위해 입력된 질의어를 포함하는 트리플을 상기 지식 메모리로부터 검색하여 제시하는 과정; 및
제시된 트리플들 중에서 선택된 트리플에 관련된 문서들을 검색하여 제시하는 과정;을 포함하는 것이 바람직하다.
여기서, 상기 트리플을 검색하여 제시하는 과정은
상기 질의어를 주어로 하여 공기관계를 가지는 이벤트동사를 가지는 트리플을 검색하며,
공기관계를 가지는 이벤트 동사들을 제시하는 과정; 및
제시된 이벤트동사들 중의 하나가 선택되면 “주어-선택된 이벤트동사“를 가지는 검색 트리플로 검색을 재수행하는 과정을 포함하는 것일 수 있다.
여기서, 상기 트리플들에 포함된 개체들 중에서 주어 혹은 목적어에 대한 유사어를 더 제시하고 유사어가 선택되면 선택된 유사어를 가지는 검색 트리플로 검색을 재수행하는 과정을 더 포함하는 것이 바람직하다.
또한, 상기 검색 트리플이 재구성될 때마다 순간 검색에 의해 상기 지식 메모리로부터 재구성된 검색 트리플에 관련된 문서들을 검색하여 제시하는 과정;을 더 포함하는 것이 바람직하다.
다른 한편으로, 상기 트리플을 검색하여 제시하는 과정은
상기 지식 메모리로부터 입력된 질의어를 주어로 가지는 트리플을 검색하는 과정;
상기 검색된 트리플로부터 목적어에 해당하는 객체(목적어 객체)를 추출하는 과정; 및
주어와 목적어를 잇는 선에 의해 트리플 관계를 표현하는 네트워크를 제공하는 과정;을 포함하는 것일 수 있다.
여기서, 상기 지식 메모리로부터 상기 목적어를 주어로 가지는 트리플을 검색하여 상기 네트워크를 확장하는 과정을 더 구비하는 것이 바람직하다.
또 다른 한편으로, 상기 트리플을 검색하여 제시하는 과정은
상기 지식 메모리로부터 입력된 질의어를 주어로 가지는 트리플들을 검색하는 과정; 및
상기 검색된 트리플들을 객체별 분류하고, 각 객체의 출현 빈도에 따라 리스트하는 과정을 포함하는 것일 수 있다.
또 다른 한편으로, 상기 트리플을 검색하여 제시하는 과정은
상기 지식 메모리로부터 입력된 질의어를 포함하는 트리플을 검색하는 과정;
검색된 트리플로부터 개체를 추출하는 과정;
추출된 개체의 목록을 제시하는 과정;
개체 목록으로부터 선택된 개체를 포함하는 질의어를 재구성하는 과정;을 포함하는 것일 수 있다.
본 발명의 다른 목적을 달성하는 학술적 과학 지식 메모리 기반의 심층 지식 제공장치는
문서에 대한 관계형 지식(Relational Knowledge), 구조적 지식(Structural Knowledge), 절차적 지식(Procedural Knowledge)을 저장하는 지식 메모리; 및
질의어를 입력하고, 상기 지식 메모리로부터 입력된 질의어를 포함하는 트리플 및 트리플에 관련된 문서들을 검색하여 제시하는 심층 지식 제공부;
를 포함하는 것을 특징으로 한다.
여기서, 상기 심층 지식 제공부는 특정 용어를 검색하거나 용어 집단 혹은 용어간의 관계를 검색할 수 있는 범용 일치 항목 질의(Generalized Concordance Lists(GCL) Query)를 이용하는 것을 특징으로 한다.
또한, 상기 심층 지식 제공부는 지속적으로 연결된 트리플 기반의 지식 정보를 동일 화면에서 마우스 클릭으로 손쉽게 옮겨 가면서, 해당되는 트리플에 대한 문서정보를 동적으로 살펴볼 수 있는 슬라이드 내비게이션을 제공하는 것을 특징으로 한다.
또한, 상기 심층 지식 제공부는 사용자가 원하는 키워드를 입력하고 검색을 실행하면 해당 키워드와 연관되는 주어/이벤트동사/목적어 정보를 빈도수 순으로(상위 5순위까지) 차트와 함께 통계결과를 표현하는 동적 트리플 분석 정보 브라우징을 더 제공하는 것을 특징으로 한다.
또한, 상기 심층 지식 제공부는 입력된 2개의 키워드를 기준으로 서로 연관되는 개체목록과 이벤트목록을 화면에 출력하는 동적 테이블 기반 검색을 더 제공하는 것을 특징으로 한다.
또한, 상기 심층 지식 제공부는 방사형으로 표시되는 지식트리플을 기반으로 세부 요소 지식을 내비게이션하는 심층지식 내비게이션을 더 제공하는 것을 특징으로 한다.
본 발명에 따른 심층 지식 제공 방법 및 장치는 학술적 과학 지식 메모리를 효과적으로 구축하기 위하여, 인간이 특정 과학 분야의 문헌을 분석하고 지식을 습득/소화하는 복잡한 과정을 고도화된 자연언어처리 및 마이닝(mining) 기술로 일부 모사함으로써 학술적 전문지식의 자동 추출 및 축적을 가능하게 하는 효과를 갖는다.
본 발명은 평면적 문헌정보가 다차원으로 구조화되고, 개별 단위 정보 내에 내포된 요소 지식이 식별/관리될 수 있는 학술적 과학 지식 메모리를 구축함으로써 이용자는 분야별 심층 과학 지식을 혁신적으로 활용/공유할 수 있게 하는 효과를 갖는다.
도 1은 본 발명에 있어서의 다차원 지식의 개념을 도식적으로 도시한다.
도 2는 본 발명에 있어서 다차원 지식들 간의 관계를 도식적으로 보이고 있다.
도 3은 본 발명에 따른 심층 지식 제공 장치의 구성을 도시한다.
도 4는 본 발명에 있어서 표층분야지식 식별 및 추출을 위한 통합 언어 분석 모듈 팩토리의 구성을 도시한다.
도 5는 본 발명에 따른 절차적 지식의 모델링 과정을 도식적으로 도시한다.
도 6은 본 발명에 따른 절차적 지식 추출 방법을 도시한다.
도 7은 본 발명에 따른 지식 제공 장치에 있어서의 검색 초기 화면을 도시한다.
도 8은 본 발명에 있어서 슬라이드 내비게이션 서비스 화면의 예를 도시한다.
도 9 내지 도 10은 본 발명에 있어서 심층 지식 내비게이션 서비스 화면의 예를 도시한다.
도 11은 본 발명에 있어서 동적 트리플 분석 서비스 화면의 예를 도시한다.
도 12는 본 발명에 있어서 동적 테이블 검색 서비스 화면의 예를 도시한다.
이하 첨부된 도면을 참조하여 본 발명의 구성 및 동작에 대하여 상세히 설명하기로 한다.
정보검색에서의 개체(ENTITY)는 정보를 생성하거나 정보에 연관된 인물, 기관, 위치 등과 같이 특정 그룹으로 분류할 수 있는 사물 또는 개념으로 정의한다.
개체의 일례로, 인물에 속하는 개체로는 "을지문덕", "이순신", "빌 게이츠" 등이 있으며, 기관에 속하는 개체로는 "서울대학교", "교육과학기술부" 등이 있으며, 위치에 속하는 개체로는 "만주벌판", "서울특별시", "대전시", "구로구" 등이 있다.
온톨로지는 인간의 지식을 다루는 분야 및 기법을 가리키며, 특히 컴퓨터를 이용한 지식 표현으로서의 온토로지는 개념화의 명시적인 규약 즉, 어떤 분야의 지식을 계산기로 처리할 수 있도록 명시적 및 논리적으로 기술하고, 그 지식의 공유와 재이용을 가능하게 하는 것이다. 온톨로지에 있어서, 클래스는 같은 성질을 갖는 리소스들을 그룹화하고 공통 성질을 논리적으로 표현하기 위한 기능을 제공한다. 클래스의 성질은 해당 클래스가 갖는 속성의 조건을 규정함으로써 표현할 수 있다. 한편, 인스턴스(instance)란 개념에 속하는 개체를 말한다.
온톨로지 구축은 각 분야의 샘플링된 서류들로부터 패턴 및 구성 요소를 분석해내고, 분석한 결과들을 토대로 온톨로지를 모델링함에 의해 달성된다.
본 발명에서 정의한 다차원 지식(multifaceted knowledge)이란 학술정보에서 추출될 수 있는 지식을 그 깊이에 따라 3단계로 구분한 것으로서, (1) 관계형 지식(Relational Knowledge), (2) 구조적 지식(Structural Knowledge), (3) 절차적 지식(Procedural Knowledge)을 포함하는 다층적 구조로 이루어진 지식 정보를 말한다.
첫 번째로 관계형 지식이란 문헌 내에 존재하는 개체 간의 관계를 식별해놓은 지식으로서, 보다 구체적으로는 문헌 내에서 내용의 구심점 역할을 수행하는 다양한 전문용어 및 개체명과 같은 과학기술 핵심개체 간의 관계를 식별해 놓은 지식이며, 비교적 용이하게 식별 및 추출이 가능하다.
두 번째로 구조적 지식은 문헌 내에 존재하는 다양한 구문적 형태의 문장들에 대한 화용적 역할(discourse role)을 구분해 놓은 지식으로서, 보다 구체적으로는 특정 문서 내에서 문장의 속성, 문장들 사이의 관계 분석을 통해 구조화된 지식이다.
예를 들어, 학술논문의 초록에는 그 논문이 해결하고자 하는 문제나 분야를 표현한 문장(목표), 연구결과를 간략하게 기술한 문장(결과), 연구 방법을 설명한 문장(방법) 등이 나타난다. 이러한 문장 기반의 화용적 역할을 구분해 놓으면, 다양한 심층지식 추출이 매우 용이하게 된다.
세 번째로 절차적 지식은 특정 과학기술 분야에서 학술논문이나 기타 전문문헌들이 기술한 연구적 행위(R&D Activity)나 학술적 연구의 목적, 방법, 검증 절차 등에 대한 구조화를 통해 도출된 지식으로서, 보다 구체적으로는 분야별 지식 기반 심층 분석을 통해 R&D Activity 식별하기 위한 것이며, 학술적 연구의 목적, 방법, 검증 절차 등에 대한 구조화된 지식이다.
도 1은 본 발명에 있어서의 다차원 지식의 개념을 도식적으로 도시한다.
도 1을 참조하여 알 수 있는 바와 같이, 비교적 인식 및 추출이 쉽고, 현재 전 세계적으로 활발하게 그 연구가 추진되고 있는 관계형 지식을 표층분야지식 (Surface Domain Knowledge, SDK)이라 하고 이에 비해 비교적 추출이 어려우며 다양한 기반 처리가 필요한 구조적 지식과 절차적 지식을 심층 분야 지식 (Deep Domain Knowledge, DDK)이라고 구분한다.
이와 같은 심층화 수준 및 처리 난이도에 따른 지식의 단계적 구분은 학술적 과학 지식 메모리 기반의 심층지식을 위한 연구를 수행함에 있어서 체계적인 접근이 가능하게 하며 연구의 단계별 목표를 명확하게 설정할 수 있는 장점이 있다.
도 2는 본 발명에 있어서 다차원 지식들 간의 관계를 도식적으로 보이고 있다. 도 2에는 생의학 분야에서 개별 지식을 활용하였을 경우, 이용자가 획득할 수 있는 퇴행성 척수병증(degenerative myelopathy)에 대한 지식의 구체적인 예가 표시되어 있다.
예를 들어, 관계형 지식의 경우 퇴행성 척수병증의 원인 및 결과에 대한 정보 및 질병과 관련된 유전자나 단백질 정보를 쉽게 획득할 수 있다.
구조적 지식은 퇴행성 척수병증의 내인성/외인성 요인을 밝히기 위한 방법론에 대한 정보를 얻게 한다. 예를 들어, 척수병증(spondylopathy)과 내인성/외인성 요인을 밝히기 위해 적용되는 접근 방법을 알 수 있다.
또한, 절차적 지식은 척수병증에 대한 치료 방법이나 연구실험 절차 등의 세부적인 지식을 얻을 수 있는 기회를 제공한다. 예를 들어 환자가 트라마돌(tramadlo)에 부작용을 보일 때에 대한 연구자료나 조류를 이용한 자발성 축수병증(spontaneous spondylopathy)에 대한 실험 과정에 대한 정보를 얻을 수 있다.
도 2에 보여지는 바와 같이, 지식의 심도가 깊어짐에 따라서 이용자 측면에서의 활용 유연성이 커지며, 동적(dynamic)인 심층지식을 획득할 수 있는 기회가 보다더 많이 부여될 수 있음을 알 수 있다.
도 3은 본 발명에 따른 지식 제공 장치의 구성을 도시한다. 도 3에 도시된 본 발명에 따른 지식 제공 장치(300)는 일측면으로는 대규모 학술 정보를 입력하고 다차원 지식을 생성하여 지식 메모리에 저장하는 기능을 가지며, 다른 측면으로는 질의어에 대하여 도 1 내지 2를 통하여 설명되는 다차원 지식을 지식 메모리로부터 검색하여 제공하는 기능을 갖는다.
입력된 대규모 학술 정보로부터 다차원 지식을 생성하기 위하여 지식 제공 장치(30)는 입력된 대상 문서에 대하여 자연언어처리를 행하고, 자연언어처리에 의해 얻어지는 다양한 자질들을 이용하여 문서로부터 관계형 지식, 구조적 지식 그리고 절차적 지식을 생성하고, 문서에 대한 관계형 지식, 구조적 지식 그리고 절차적 지식들을 지식 메모리에 저장한다.
또한, 다차원 지식에 대한 검색 서비스를 제공하기 위하여 지식 제공 장치(30)는 질의어 자동 완성, 다양한 검색 및 프리제테이션 방법들을 제시한다.
도 3을 참조하면, 본 발명에 따른 지식 제공 장치(300)는 다차원 지식 생성부(302), 지식 메모리(304) 그리고 심층지식 제공부(306)를 포함한다.
지식 메모리(304), 일명 버추얼 사이언스 브레인(virtual science brain)은 관계형 지식 메모리(304a), 구조적 지식 메모리(304b), 절차적 지식 메모리(304c)로 구성될 수 있으며, 질의어에 상응하는 심층 지식을 제공한다.
다차원 지식 생성부(302)는 학술정보로부터 학술정보에서 추출될 수 있는 관계형 지식(Relational Knowledge), 구조적 지식(Structural Knowledge), 절차적 지식(Procedural Knowledge)으로 이루어지는 다차원 지식을 추출한다. 다차원 지식 생성부(302)로부터 추출된 관계형 지식, 구조적 지식, 절차적 지식은 각각 관계형 지식 메모리(304a), 구조적 지식 메모리(304b), 절차적 지식 메모리(304c)에 저장된다.
심층 지식 제공부(306)은 질의어에 대하여 지식 메모리(304)를 참조하여 심층 지식을 추출한다. 질의어 입력을 돕기 위하여 질의어 자동 완성 기능이 제공될 수 있다. 추출된 심층 지식을 제공하기 위하여 슬라이드 방식의 인터페이스를 포함하는 다양한 인터페이스가 제공될 수 있다.
도 3에 도시된 본 발명에 따른 지식 제공 장치(300)는 표층분야지식(SDK)와 심층분야지식(DDK)가 단일 융합된 형태의 대규모 학술적 과학지식 메모리와, 이를 활용할 수 있는 심층지식제공기술이 결합된 구조로 이루어져 있다.
도 3에 도시된 본 발명에 따른 지식 제공 장치(300)는 학술적 과학지식메모리를 효과적으로 구축하기 위하여, 인간이 특정 과학 분야의 문헌을 분석하고 지식을 습득/소화하는 복잡한 과정을 고도화된 자연어 처리 및 마이닝 기술로 모사함으로써 디지털 전문지식의 자동 추출 및 축적을 가능하게 하였다.
이와 같이 평면적 문헌정보가 구조화되고, 개별 단위 정보 내에 내포된 요소 지식이 식별/관리될 수 있는 이러한 학술적 과학지식메모리를 구축함으로써 이용자는 분야별 심층과학지식을 혁신적으로 활용/공유할 수 있다.
본 발명에서는 과학기술지식에 대한 현실적인 정의를 부여하고 그 심도 및 추출 난이도에 따라 단계적으로 구분함으로써 연구 결과의 타당성(feasibility)을 확보하고, 기존 관련 연구와의 차별성을 토대로 수준 높은 국제적 연구 성과를 도출할 수 있는 계기를 확보하도록 한다.
다차원 지식 생성부(302)는 용어사전, 온톨로지, 용어 사전 및 온톨로지 기반의 용어 인식 엔진, 기계학습 기반 용어 학습 엔진, ENJU 구문 분석 시스템, 지지벡터기계(SVMs) 및 최대 엔트로피(Maximum Entropy) 기반의 심층 언어분석 시스템 등을 사용하여, 학술 정보로부터 다차원 지식을 추출한다. 다차원 지식의 추출에 있어서, 기반 기술(엔진), 데이터베이스, 언어자원 등의 공유와 공동 활용 체제는 상당히 중요하다.
다차원 지식 생성부(302)에 있어서, 커널 기반 모델을 세부적으로 구현하여 지지벡터기계(SVMs) 및 최대 엔트로피(Maximum Entropy) 기반의 심층 언어분석이 가능하도록 하였다.
본 발명의 실시예에 있어서, 일본 동경대학에서 개발한 MEDIE(Intelligent Search Engine for MEDLINE)을 도입하여 활용하기 위해서, 생물학 분야 온톨로지 기반 전문용어 인식엔진과 Enju 구문분석 시스템을 세부적으로 분석하였다.
MEDIE 데이터베이스를 구성하기 위해 개발된 전문 용어 인식 엔진은 생물학 분야 온톨로지와 전문용어사전 집합을 기반으로 개발되었으며, 문헌 내에 출현한 단백질명, 유전자명, 질병명 등을 식별하여 이를 MeSH나 UMLS 내의 디스크립터와 연동시킨다.
문헌 내에서 전문용어 간의 연관관계를 추정하는데 필요한 Enju 구문 분석 시스템은 HPSG(Head-driven Phrase Structure Grammar) 기반의 고속 언어분석 시스템으로서, 문장 내에 존재하는 다양한 문법적 의존관계를 규명하고 이를 술어-논항 구조(Predicate Argument Structure)로 표현함으로써 관계추출에 중요한 다양한 자질을 추출할 수 있는 장점이 있다.
MEDIE 데이터베이스에 접근하기 위한 기본적인 질의구조는 범용 일치 항목 질의(Generalized Concordance Lists(GGL) Query)라고 불리는 구조를 사용한다. GCL은 SQL과 흡사한 구조를 가지며, 특정 용어를 검색하거나 용어 집단 혹은 용어 간의 관계까지도 쉽게 검색할 수 있는 다양한 유사 비교 연산자를 포함하고 있다.
다차원 지식 생성부(302)는 표층 지식 추출 기능과 심층 지식 추출 기능을 수행한다.
표층 지식(Surface Domain Knowledge, SDK)의 추출을 위하여,
(ㄱ) 표층 지식 추출을 위한 언어자원 활용기술 (ㄴ) SDK 식별을 위한 언어처리/기계학습 응용기술이 이용된다.
우선 표층 지식 추출을 위한 언어자원 활용기술 부분에서는 각종 말뭉치 및 사전(MeSH, UMLS, OntoNotes 2.0, MUC 등)을 수집하고 분석하여 이를 구조화한 것을 이용한다.
표층 지식 식별을 위한 언어처리/기계학습 응용기술 부분에서는 심층 언어분석을 위해 전 세계적으로 활발하게 사용 중인 각종 언어처리 플랫폼을 단일 API로 활용할 수 있는 범용 인터페이스 및 이를 활용한 통합 언어분석 모듈 팩토리를 이용한다.
현재 대표적인 구문분석 시스템인 Charniak Parser, Stanford Parser 그리고 Enju Parser가 이 팩토리에 포함되어 있다. 마지막으로 관계형 지식을 추출하기 위한 모델 중에서 가장 성능이 높은 것으로 알려져 있는 커널 기반 모델을 세부적으로 구현하여 지지벡터기계(SVMs) 및 최대 엔트로피(Maximum Entropy) 기반의 심층 언어분석이 가능하도록 하였다.
도 4는 본 발명에 있어서 표층분야지식 식별 및 추출을 위한 통합 언어 분석 모듈 팩토리의 구성을 도시한다.
도 4를 참조하면, 통합 언어 분석 모듈 팩토리는 개발환경 및 개발언어와 독립적으로 폭넓게 활용할 수 있도록 JVM(Java Virtual Machine) 기반의 JNI(Java Native Interface) 인터페이스를 사용하고, 현재 전 세계적으로 가장 광범위하게 사용하고 있는 3 가지 구문분석 모듈을 탑재하여 구동된다.
표 1은 통합 언어 분석 모듈 팩터리에 사용되는 파서의 기능을 나타낸다.
구문분석기 구문분석트리 제공 의존구문트리 제공 술어-논항구조 제공
Charniak Parser(미) O
Stanford Parser(미) O O
Enju Parser(일) O O
자연어 처리 및 텍스트 마이닝 분야에서 정보 추출(Information Extraction)은 핵심적인 영역으로 인식되고 있다. 정보 추출의 최종 목표는 비정형적인 텍스트 데이터 내에서 테이블화된 정형 데이터를 추출 및 변환하기 위해서 텍스트 내에 존재하는 중요하고 연관성 있는 정보를 식별하는 것이다.
이러한 정보 추출 기술을 구성하는 요소 기술로서 (1) 개체명 인식(Named-Entity Recognition), (2) 관계 추출(Relation Extraction), (3) 대용어 참조 해소(Co-reference Resolution) 등이 있다.
관계추출의 성능을 높이기 위해서 다양한 지도 학습(Supervised Learning) 기반의 관계 추출 기법이 소개되었다. 이들은 (1) 규칙기반 방법(Rule-based Methods), (2) 자질기반 방법(Feature-based Methods), (3) 커널기반 방법(Kernel-based Methods)의 세 가지 유형으로 분류될 수 있다.
이들 중 비교적 최근에 개발된 방법으로서, 관계추출에 특화된 커널 함수를 새롭게 구성하여 이를 기반으로 SVM(Support Vector Machine)에 적용하는 커널기반 방법이 주목받고 있다.
관계추출 분야에서 커널기반 방법의 특징은 한 문장에 존재하는 두 개체간의 관계를 가장 잘 표현하고, 이를 포함하는 두 관계 포함 문장들 간의 유사도를 가장 효과적으로 계산하는 커널을 구성하기만 하면, 그 성능이 매우 높게 나타난다는 것이다.
도 3에 도시된 다차원 지식 추출부(302)에 있어서, 심층 지식 추출을 위한 기술은 크게 (1) SDA(Structured Digital Abstracts) 기반 기술, (2) 대용량 Activity 온톨로지 적용 및 변형, (3) 분야 특화된 심층 전문 지식 추출 및 활용 모델로 나뉠 수 있다.
우선 SDA 기반 기술 부분에 있어서는 학술문헌의 초록에서 구조적 지식을 추출하기 위해서 연구의 목적이나 방법 등을 표현하는 핵심 문장들을 자동으로 추출하여 분류하기 위해서 지지벡터기계(Support Vector Machines, SVM) 및 조건부 무작위 필드(Conditional Random Fields, CRF) 모델 등을 활용한다.
대용량 Activity 온톨로지 적용 및 적용 부분에 있어서는 학술문헌에서의 절차적 지식, 즉 대상, 행위, 방법 등이 표현될 수 있는 다중 프로세스 간의 관계에 대한 세부적인 모형화와 함께, 절차적 지식 추출을 위한 평가 셋(set), 평가 셋을 위한 절차적 지식 태깅 지원 도구, 기계학습 기반의 절차적 지식 자동 추출 기법 등이 사용된다. 특히 총 7 단계로 구성되는 학술정보 기반 절차적 지식 자동 추출에 대한 세부적인 모델링을 하였다.
사전, 시소러스, 온톨로지 등을 활용한 다양한 전문용어, 개체, 개념 등의 정보를 추출하는 연구는 최근까지 꾸준하게 진행되어 오고 있고, 단백질 개체 간의 관계 추출 연구 등 개체간의 연관 관계 또는 이벤트 등의 정보를 추출하는 연구들이 근래에 진행되어 오고 있다.
하지만 이러한 단편적인 지식에서 벗어나, 구조화되고 절차화된 지식 추출에 대한 연구는 극히 찾아보기 어렵다. 다만 eHow, wikiHow 등의 웹 문서에서 절차적인 정보를 추출하는 연구가 있으나, 이는 이미 tfka들에 의해 구조화/순차화된 문장 집합에서 온톨로지를 추출하는 정도의 것에 불과할 뿐이다.
절차적 지식은 특정 목적을 달성하기 위한 순차적인 또는 구조적인 행위들의 모음 또는 단위 절차 지식의 모음이다. 즉, 분석 대상이 되는 문서의 구조를, 문서를 작성한 목적 문장과 그 목적(Purpose)을 이루기 위한 해법(Solution) 문장의 집합으로 표현할 수 있고, 해법 문장은 다시 구체적인 해결 절차들을 포함한 문장의 모음으로 표현할 수 있다.
해법 내의 단위 절차들은 각 절차들간에 순차적, 병렬적, 또는 독립적 관계가 있다고 가정될 수 있고, 각 단위 절차는 다시 절차 수행의 대상(Target), 방법(Method), 행위(Action)의 트리플로 구성되는 것으로 가정할 수 있다.
대상(Target)은 단위 절차 내에서의 실험 수행 대상이 되는 부분이고, 방법(Method)은 이 대상에 적용하는 구체적인 실험 방법이며 그리고 행위(Act)는 실험 대상에 실험방법을 어떻게 적용했는 지를 나타낸다.
본 발명의 실시예에 있어서, 대상(Target)은 병명, 질병명, 증상, 효과, 수치 등으로 한정하였고, 방법(Method)은 치료 방법, 수술 방법, 복약 방법 등으로 정의하였다. 또한, 행위(Act)는 대상과 방법을 연결해주는 술어 부분을 의미하여, "'대상'에 '방법'을 적용하여 '행위'를 하였다"와 같이 해석이 가능하다. 이때, 'have', 'be' 등과 같은 보편적인 술어는 고려하지 않았다.
이러한 절차적 지식 모델링은 의료문서 분석 결과의 가장 큰 수혜자라고 할 수 있는 전문 의료인들과 함께 문서의 내용/특성 등을 분석하여 얻어진 것을 토대로 수행되었다.
도 5은 절차적 지식을 모식적으로 표현한 것이다.
도 5을 참조하면, 절차적 지식을 다중 프로세스(Process) 간의 관계로 표현될 수 있으며, 각 프로세스에는 "대상(Target)", "행위(Action)", "방법(Method)"이 포함되어 있음을 알 수 있다.
단일 프로세스는 "대상(Target)", "행위(Action)", "방법(Method)" 이 세 가지 요소에 의해서 특징지어지며, 이들 단어들의 대문자들을 따서 TAM이라고 명명된다.
이에 따라, 절차적 지식은 Process(TAM)-Relation-Process(TAM) 구조를 가지는 트리플로 정의될 수 있다.
두 프로세스 사이에 지정될 수 있는 관계를 총 7가지로 분류하고 각각에 대한 정의는 표 2에 도시되는 바와 같다.
관계 설명
Temporal Relation 두 개의 TAM이 순차적인 관계
Parallel Relation 두 개의 TAM이 병렬적인 관계
Causal Relation 두 개의 TAM이 원인과 결과인 관계
Comparable Relation 두 개의 TAM을 비교하는 관계
Explanatory Relation 두 번째 TAM이 첫 번째 TAM을 설명하는 관계
Targetable Relation 두 번째 TAM이 첫 번째 TAM의 Target 항목에 해당하는 관계
Methodological Relation 두 번째 TAM이 첫 번째 TAM의 Method 항목에 해당하는 관계
도 6은 본 발명에 따른 절차적 지식 추출 프로세스를 도식적으로 도시한다.
도 6을 참조하면, 태깅된 초록에 대하여
(1) 대상(T), 행위(A), 방법(M)을 포함하는 후보문장 추출,(2) TAM 추출, (3) TAM 정규화, (4) TAM 연동 그리고 (5) 프로세스(TAM) 간 관계추출을 통해 절차적 지식을 추출하게 된다.
추출된 절차적 지식은 지식 메모리(304)에 저장된다.
학술 논문의 초록에 대하여 품사태깅, 구문분석, 술어-논항 구조 분석, 전문용어 추출 등을 위한 다양한 자연언어처리 기법이 적용될 수 있다.
술어-논항 구조는 술어(Predicate)와 논항(Argument) 관계를 이용하여 문장 내에 존재하는 각 단어간의 유의미한 연관관계를 표현하는 구조이다.
전문용어 추출이란 잘 알려진 UMLS(Unified Medical Language System), UniProt, GO(Gene Ontology) 등과 같은 의/생명 분야 온톨로지를 기반으로 문서 내의 단어절 또는 다어절 용어를 태깅한 정보인데, 이는 대상 문서에 포함된 용어들이 해당 분야의 전문용어임을 고려할 때 심층 지식 추출의 효율성을 위해 필수요소라 할 수 있다.
태깅된 초록을 분석하여 대상(T), 행위(A), 방법(M)을 포함하는 후보문장을 추출한다. 단위 절차는 Target(대상질병)/ Action(행위) / Method(적용 방법)의 트리플로 구성되므로 후보 문장을 추출한다는 것은 이러한 트리플을 가지는 문장을 추출하는 것을 의미한다.
예를 들어, 바이오 분야 문헌 내에서 "대상(Target)"은 질병명칭, 증상, 효과 등과 같이 특정 연구에서 해결하고자 하는 연구 과제를 나타내며, "방법(Method)"은 연구 과제를 해결하기 위해 사용한 방법, 즉, 치료방법, 수술방법, 복약 방법등을 의미한다. 마지막으로 "행위(Action)"는 "대상"과 "방법"을 연결시키는 술어(predicate) 역할을 수행한다.
문장에서 Target, Action, Method에 해당하는 의미적 개체 추출하는 것에 대해 아래에 기술한다.
단위 절차 추출의 기본 요소인 Target, Actin, Method의 추출을 위해 어절 자체의 자질, 문맥 자질, 술어-논항 구조 자질, 전문용어 자질 등이 이용될 수 있다.
● 어절 자체의 자질; 어절 자체, 어절의 기본형, 품사 태그, 품사 분류 정보(즉, 동사, 명사, 기호 등), 어절의 대문자로 시작 여부 또는 전체 대문자 여부
● 문맥 자질; 이전/이후 N개의 어절 및 품사 태그 정보
● 술어-논항 구조; 술어 및 논항(argument) 해당 구절
● 전문용어 자질; UMLS/Uniprot/GO Ontology 온톨로지 태깅 정보
태깅된 초록으로부터 이용가능한 자질들이 추출되고, 추출된 자질을 기반으로 CRFs 모델 학습을 수행한다. CRFs에서 입력은 위의 자질 정보 집합이고, 출력은 각 단위 절차 요소(Target, Action, Method)이다.
상술한 바와 같이 본 발명에 따른 지식 제공 장치(300)는 특정 분야에서의 심층 지식 서비스에 대한 힌트를 제공함으로써, 과학기술 지식발견 통합 플랫폼을 사용하는 사용자가 자신이 생각하는 서비스를 고도화할 수 있는 기반을 제공할 수 있다.
심층 지식 제공부(310)는 입력된 질의어에 상응하는 심층 지식을 지식 메모리(308)로부터 검색하고 다양한 프레젠테이션 방식에 맞추어 가공하여 출력한다.
본 발명은 (1) 슬라이드 내비게이션, (2) 심층지식 내비게이션, (3) 동적 트리플 분석 (4) 동적 테이블 기반 검색 등의 다양한 검색 방법을 제공한다. 모든 서비스는 기본적으로 MEDIE 데이터베이스에서 추출된 의미기반 트리플 집합으로 이루어지며, 다양한 형태의 심층적 관계형 지식이 제공될 수 있다.
본 발명에서 제안하는 검색 방법은 사용자로 하여금 단순한 의미 트리플 검색뿐만 아니라 다양한 분석 결과를 제시함으로써 새로운 지식의 발견과 창출을 가능하게 한다.
도 7은 본 발명에 따른 지식 제공 장치에 있어서의 검색 초기 화면을 도시한다.
본 발명에 따른 지식 제공 장치(300)는 문서 기반 검색 시스템으로써 일반 검색 시스템처럼 하나의 질의어로 검색이 시작된다. 질의어 입력시 도 7에 도시된 바와 같이 자동 완성 기능으로 후보 질의어를 제시할 수 있다.
(1) 슬라이드 내비게이션
슬라이드 내비게이션은 지속적으로 연결된 트리플 기반의 지식 정보를 동일 화면에서 마우스 클릭으로 손쉽게 옮겨 가면서, 해당되는 트리플에 대한 상세 학술문헌정보를 동적으로 살펴볼 수 있는 기능을 제공한다. 이러한 슬라이드 내비게이션에 의하면 특정 개체에서 출발하여 그 개체와 연관된 개체들 사이의 관계를 중심으로 한 확장, 그리고 목적어 개체를 중심으로 한 재확장이 쉽게 된다.
또 다른 특징은, 질의어 자동 생성 기능이다. 처음 입력된 질의어에 대해 이와 공기 가능한 후보 질의어를 슬라이드 내비게이션 형식으로 제시하여 사용자가 간단하게 질의어를 트리플까지 확장하게 할 수 있다. 결과는 구글의 순간 검색과 같은 방식으로 질의어를 재구성함과 동시에 해당 검색 결과가 제시될 수 있다.
도 8는 본 발명에 있어서 슬라이드 내비게이션 검색 화면의 예를 도시한다.
검색 결과는 일반 검색 시스템의 결과와 유사하게 질의어(ex, diabete)에 대한 랭킹된 문서들이 보여진다. 차이점은 2가지로 하나는 6개 개체 종류 정보가 각각의 색으로 강조되어 표현되어 있는 것과 원문 또는 다른 서비스로의 접근이 가능하다는 점이다.
본 발명에 따른 슬라이드 내비게이션을 이용한 검색 방법은 다음과 같다.
먼저, 지식 메모리로부터 입력된 질의어를 포함하는 트리플이 검색된다.
검색된 트리플을 구성하는 개체들 즉, 트리플의 주어, 이벤트 동사, 목적어를 구성하는 개체들 각각에 대하여 내비게이션 기능에 의해 유사어를 선택하여 트리플을 재구성한다. 개체들에 대한 내비게이션을 위하여 각각의 개체들을 수용하는 내비게이션 박스가 제공된다. 이 내비게이션 박스는 유사어를 선택할 수 있는 슬라이드바를 구비한다. 내비게이션 박스는 트리플에 포함되는 개체들 이외에도 다른 개체들을 포함하도록 확장될 수 있다.
재구성된 트리플을 포함하는 문서들을 검색하고 목록화하여 제시한다.
도 8에 도시되는 슬라이드 내비게이션 검색을 위한 인터페이스 화면(900)은 질의어 입력창(902), 내비게이션 창(904), 그리고 목록창(906)을 포함한다. 질의어 입력창(902)에는 사용자에 의해 입력된 질의어가 표시된다.
한편, 내비게이션창(904)에는 사용자에 의해 입력된 질의어를 포함하는 트리플의 각 요소들을 확장하기 위한 내비게이션 박스(904a~904d)들이 표시된다. 내비게이션 박스는 유사어들 사이에서 이동할 수 있게 하는 슬라이드바(slide bar)를 포함한다.
내비게이션 박스(904a~904c)는 질의어 'diabete'를 포함하는 트리플 'diabete(주어)-associate(이벤트 동사)-hypertension(목적어)'의 주어, 이벤트 동사, 목적어에 각각 해당한다. 검색 초기에 있어서 사용자에 의해 입력된 질의어를 주어로 가지는 트리플이 표시될 수 있다. 다른 예로서 사용자가 두 개의 질의어를 입력하였을 경우 이들을 포함하는 트리플이 표시될 수 있다. 즉, 사용자가 입력한 질의어에 대해 이와 공기 가능한 후보 질의어를 질의어 자동 생성 기능에 의해 제공한다.
이러한 질의어 자동 생성 기능은 다차원 지식 특히 구조적 지식에 기반을 둔다. 즉, 사용자가 입력한 질의어를 포함하는 트리플 구조의 다차원 지식 특히 구조적 지식을 검색하고, 검색된 트리플을 질의어 자동 생성 기능을 이용하여 제시하게 되는 것이다.
각각의 내비게이션 박스(904a ~ 904d)는 유사한 단어들을 내비게이션할 수 있는 슬라이드바를 갖는다.예를 들어 슬라이드바를 상하로 슬라이드시키면 단어 'diabete'와 알파벳순으로 정렬된 유사한 의미를 가지는 단어들이 차례로 표시될 수 있다.
각각의 내비게이션 박스(904a~904d)에 의해 선택된 단어들의 조합에 해당하는 검색 트리플에 대한 구조적 지식이 순간 검색 기능에 의해 검색되고, 검색된 구조적 지식에 해당하는 문서들의 목록이 목록창(906)에 표시된다.
여기서, 각 문서들의 목록은 제목 및 해당 문서에서 추출된 구조적 지식을 표현하는 문장을 포함한다. 구조적 지식을 표현하는 문장은 단위 프로세스를 나타내는 문장은 해당 문서를 분석함에 의해 얻어지는 구조적 지식 즉, TAM 트리플 구조의 지식이다. 단위 프로세스를 나타내는 문장에 있어서 Target, Action 그리고 Method에 해당하는 단어가 서로 다른 색으로 표시된다.
각 문서들의 목록에서 제목을 선택하면 바로 원문으로의 접근이 이루어진다.
네비게이션 박스(904a~904d)는 확장될 수 있다. 즉, 트리플을 구성하는 주어/술어/목적어 이외에도 다른 단어들을 포함하도록 확장된다. 도 8의 내비게이션 박스(904d)는 이러한 예를 보여주고 있다. 도 8에 도시되는 것은 "diadiabete-associate-hypertension"의 트리플을 가지면서 'treat'이라는 단어를 가지는 문서에 대한 검색 예를 도시한다.
내비게이션창(904) 하부의 수평방향 슬라이더를 조작함에 의해 내비게이션 박스들을 확장하거나 이전/이후의 내비게이션 박스들을 참조할 수 있다.
그리고 내비게이션 박스의 개체를 선택하면 하기의 심층지식 네트워크 브라우징 검색 화면이 팝업된다.
(2) 심층지식 네트워크 브라우징
심층지식 네트워크 브라우징은 하나의 개체에 대해 네트워크 형식으로 검색할 수 있는 기능을 제공한다.
지식 트리플은 기본적으로 방사형으로 표현할 수 있으며, 이를 기반으로 세부 요소 지식을 내비게이션할 수 있는 시스템 및 서비스를 구성함으로써, 사용자는 검색(키워드 및 식별자 기반 모두 제공)을 통해서 해당 개체를 찾고, 이를 기반으로 화면에서 개체 간의 관계를 확인하면서 지속적인 항해가 가능하다.
이러한 심층 지식 내비게이션은 광범위한 지식 트리플에 대한 항해의 효율성을 위해서 특정 위치에서 특정 개체와 연관된 다른 개체 및 관계 출력 정도를 조정할 수 있는 기능을 포함하고 있다.
본 발명에 있어서, 심층 지식 내비게이션을 이용한 검색 방법은 다음과 같다.
먼저, 지식 메모리로부터 입력된 질의어를 주어로 가지는 트리플이 검색된다.
검색된 트리플로부터 목적어에 해당하는 객체(목적어 객체)가 추출된다.
입력된 질의어와 목적어 객체를 잇는 선에 의해 트리플 관계를 표현하는 네트워크를 제공한다. 여기서, 질의어와 목적어를 있는 선은 주어와 목적 사이를 연관짓는 술어를 나타내며, 마우스를 선위에 위치시켜 술어의 내용을 확인할 수 있다.
네트워크는 목적어 객체를 주어로 가지는 하위 네트워크를 포함하도록 확장될 수 있다.
도 9 내지 도 10은 본 발명에 있어서 심층 지식 내비게이션 서비스 화면의 예를 도시한다.
심층지식 내비게이션은 하나의 개체에 대해 네트워크 형식으로 검색이 되는 서비스로써 검색 결과 화면에서 하나의 개체를 선택하면 해당 개체를 기준으로 심층지식 네트워크 브라우징 서비스가 시작된다. 네트워크는 3단계까지 확장 가능하고, 확대/축소 보기 기능을 제공하여 면밀히 결과를 확인할 수 있다. 도 9는 1단계 검색 네트워크를 도시하고 도 10은 2단계 검색 네트워크를 표시하고 있다.
도 9를 참조하면, UMLS:C0011849(database;번호)라는 개체에 대한 네트워크 가 도시된다. UMLS;C0011849라는 개체는 diabetes인 것을 알 수 있다. 이러한 네트워크는 도 8의 슬라이드 내비게이션 창(902)에서 선택된 개체에 대한 것일 수 있다. 예를 들어, 도 8의 슬라이드 내비게이션창(904a)에 'daabetes'가 표시되고 있는 상태에서 슬라이드 내비게이션 박스(904a)를 마우스의 더블클릭 동작에 의해 선택된 것일 수 있다.
선택된 개체(diabetes, 1002)가 네트워크의 중심에 표시되고 그 주위에 방사상으로 연관된 객체들이 표시된다. 이들 연관된 객체(1004)들은 선택된 객체(1002)를 주어로 가지는 트리플들에 포함되는 목적어일 수 있다. 선택된 개체(diabetes)와 그에 연관된 객체들의 연결 관계를 보이는 선이 함께 표시된다. 이 선은 선택된 개체(diabetes)와 그에 연관된 개체(hypertension) 사이의 관계를 나타내는 "associate"일 수 있다. 즉, 선택된 객체(diabetes), 그에 연관된 개체(hypertension) 그리고 이들을 잇는 선(associate)에 의해 "diabetes associate hypertension"이라는 트리플을 표현하게 된다. 사용자가 마우스를 선위에 위치시키면 선에 의해 표현되는 관계 즉, 트리플의 술어가 표시된다.
도 9의 좌측 상단에 보여지는 범주(1006)는 네트워크에 포함된 개체들의 속성을 색깔별로 표시하고 있음을 보여준다. 한편, 도 8의 우측 상단에 보여지는 네트워크 조절박스(1008)는 광범위한 지식 트리플에 대한 항해의 효율성을 위해서 특정 위치에서 특정 개체와 연관된 다른 개체 및 관계 출력 정도를 조정할 수 있게 한다.
또한, 개체(노드)를 선택하면 동의어(Synonym)가 빈도순으로 보여지고, 관계(선)를 선택하면 두 개체 사이의 가능한 관계들과 이를 증명하는 문장을 확인할 수 있다. 게다가, 원문으로의 접근도 가능하다. 모든 개체는 외부 유명 데이터베이스의 ID정보를 갖고 있고 결과에 나타나기 때문에 해당 데이터베이스로의 접근도 용이하게 된다.
도 10을 참조하면, 선택된 개체(1002)에 연관된 개체들의 네트워크(1단계 네트워크)와 더불어 연관된 개체(1004)에 연관된 다른 개체들(1010의 네트워크(2단계 네트워크)가 표시되고 있음을 알 수 있다.
(3) 동적 트리플 분석
동적 트리플 분석은 질의어에 대한 상호 개체 또는 관계 정보를 확인할 수 있는 서비스로써 하나의 개체를 질의어로 입력하면 이와 공기하는 다른 개체 및 관계가 빈도순으로 분석된 결과가 제시되고, 두 개의 질의어가 입력하면 두 개의 질의어와 함께 공기하는 다른 개체나 관계 동사가 빈도순으로 제시된다.
본 발명에 있어서, 동적 트리플 분석을 위한 검색 방법은 다음과 같다.
먼저, 지식 메모리로부터 입력된 질의어를 주어로 가지는 트리플들이 검색된다.
검색된 트리플들을 객체별로 분류하고, 각 객체의 출현 빈도에 따라 리스트된다. 각 개체의 출현빈도 및 점유율이 리스트된다. 출현빈도 및 점유율은 차트 형태 혹은 테이블 형태로 제공될 수 있다.
도 11은 본 발명에 있어서 동적 트리플 분석 서비스 화면의 예를 도시한다.
도 11을 참조하면, 사용자가 원하는 질의어('diabete')를 입력하고 검색을 실행하면 해당 질의어와 연관되는 주어/이벤트동사/목적어 정보를 빈도수 순으로(상위 5순위까지) 차트와 함께 통계결과를 표현한다.
도 11의 상측에는 질의어 'diabete'와 연관된 동사(verb)들 중에서 빈도수가 많은 5개의 동사 induce, associate, injibit treat, affect의 빈도수 및 점유율을 각각 파이 차트(pie chart)와 테이블로 보이는 것이 도시된다.
한편, 도 11의 하측에는 질의어 'diabete'와 연관된 목적어(object)들 중에서 빈도수가 많은 5개의 목적어 insulin, abesity, hypertension, atherosclerosis, cardiovascular disease의 빈도수 및 점유율을 각각 파이 차트와 테이블로 보이는 것이 도시된다.
여기서, 사용자의 취향에 따라 다양한 차트 타입을 지정할 수 있다. 예를 들어, 특정 질병을 치료할 수 있는 모든 치료제 혹은 치료법에 대한 전체적인 통계정보를 얻을 수 있다. 본 발명의 실시예에서는 파이(Pie)형과 바(Bar)형의 예를 도시하고 있다. 관계 동사에 대해서는 한글 대역어도 확인 가능하다.
(4) 동적 테이블 검색
동적 테이블 검색은 입력한 두 개의 질의어에 대한 공통으로 관계하는 개체나 이벤트 동사를 분석하고, 이 공통 인자들이 포함된 의미 트리플을 재검색하여 새로운 주변 관계를 발견할 수 있는 검색 방법이다.
본 발명에 있어서 동적 테이블 검색 방법은 다음과 같다.
먼저, 지식 메모리로부터 입력된 질의어를 포함하는 트리플들이 검색된다.
검색된 트리플로부터 개체들이 추출된다.
추출된 개체들의 목록이 제시된다. 각각의 목록은 두 개 이상의 개체들을 포함한다. 이러한 목록에 의해 입력된 질의어에 관련된 개체들의 가능한 조합이 사용자에게 제시되고, 이러한 목록들을 참조하여 질의어를 재구성함에 의해 네트워크 브라우징이나 동적 트리플 분석에서 발견할 수 없는 새로운 관계까지 확장하여 브라우징하는 것이 가능하게 된다.
개체 목록으로부터 선택된 개체를 포함하는 질의어를 재구성한다.
도 12는 본 발명에 있어서 동적 테이블 검색 서비스 화면의 예를 도시한다.
도 12를 참조하면, 사용자는 검색하고자 하는 키워드 2개를 입력하여 검색을 수행하게 되고 2개의 키워드를 기준으로 서로 연관되는 개체목록과 이벤트목록을 화면에 출력된다.
검색된 개체목록과 이벤트 목록을 동적 테이블 박스에 드랙앤드롭(Drag & Drop)하여 사용자가 원하는 목적어를 찾을 수도 있고 전혀 새로운 목적어 정보를 찾을 수 있다.
300...지식제공장치
302...다차원 지식 생성부 304...지식 메모리
306...심층지식 제공부

Claims (15)

  1. 대상 문서에 포함된 개체간의 관계를 나타내는 관계형 지식, 대상 문서에 포함된 문장들 간의 화용적 역할을 나타내는 구조적 지식 그리고 대상 문서의 목적, 행위 그리고 방법을 포함하는 절차적 지식으로 구성되는 다차원 지식이 트리플(주어/이벤트동사/목적어) 형태로 저장된 지식 메모리에 기반한 지식 제공 방법에 있어서,
    검색을 위해 입력된 질의어를 포함하는 트리플을 상기 지식 메모리로부터 검색하여 제시하는 과정; 및
    제시된 트리플들 중에서 선택된 트리플에 관련된 문서들을 검색하여 제시하는 과정;을 포함하고,
    여기서 상기 다차원 지식은 용어사전과 온톨로지, 또는 용어사전 또는 온톨로지를 기반으로 하여 상기 대상 문서로부터 생성되는 것을 특징으로 하는 지식 메모리 기반의 심층 지식 제공 방법.
  2. 제1항에 있어서, 상기 트리플을 검색하여 제시하는 과정은
    상기 질의어를 주어로 하여 공기관계를 가지는 이벤트동사를 가지는 트리플을 검색하는 것을 특징으로 하는 지식 메모리 기반의 심층 지식 제공 방법.
  3. 제2항에 있어서,
    공기관계를 가지는 이벤트 동사들을 제시하는 과정; 및
    제시된 이벤트동사들 중의 하나가 선택되면 “주어-선택된 이벤트동사“를 가지는 검색 트리플로 검색을 재수행하는 과정을 포함하는 것을 특징으로 하는 지식 메모리 기반의 심층 지식 제공 방법.
  4. 제3항에 있어서,
    상기 트리플들에 포함된 개체들 중에서 주어 혹은 목적어에 대한 유사어를 더 제시하고 유사어가 선택되면 선택된 유사어를 가지는 검색 트리플로 검색을 재수행하는 과정을 더 포함하는 것을 특징으로 하는 지식 메모리 기반의 심층 지식 제공 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 검색 트리플이 재구성될 때마다 순간 검색에 의해 상기 지식 메모리로부터 재구성된 검색 트리플에 관련된 문서들을 검색하여 제시하는 과정;을 더 포함하는 것을 특징으로 하는 지식 메모리 기반의 심층 지식 제공 방법.
  6. 제1항에 있어서, 상기 트리플을 검색하여 제시하는 과정은
    상기 지식 메모리로부터 입력된 질의어를 주어로 가지는 트리플을 검색하는 과정;
    상기 검색된 트리플로부터 목적어에 해당하는 객체(목적어 객체)를 추출하는 과정; 및
    주어와 목적어를 잇는 선에 의해 트리플 관계를 표현하는 네트워크를 제공하는 과정;을 포함하는 것을 특징으로 하는 지식 메모리 기반의 심층 지식 제공 방법.
  7. 제6항에 있어서,
    상기 지식 메모리로부터 상기 목적어를 주어로 가지는 트리플을 검색하여 상기 네트워크를 확장하는 과정을 더 구비하는 것을 특징으로 하는 지식 메모리 기반의 심층 지식 제공 방법.
  8. 제1항에 있어서, 상기 트리플을 검색하여 제시하는 과정은
    상기 지식 메모리로부터 입력된 질의어를 주어로 가지는 트리플들을 검색하는 과정; 및
    상기 검색된 트리플들을 객체별 분류하고, 각 객체의 출현 빈도에 따라 리스트하는 과정을 포함하는 것을 특징으로 하는 지식 메모리 기반의 심층 지식 제공 방법.
  9. 제1항에 있어서, 상기 트리플을 검색하여 제시하는 과정은
    상기 지식 메모리로부터 입력된 질의어를 포함하는 트리플을 검색하는 과정;
    검색된 트리플로부터 개체를 추출하는 과정;
    추출된 개체의 목록을 제시하는 과정;
    개체 목록으로부터 선택된 개체를 포함하는 질의어를 재구성하는 과정;을 포함하는 지식 메모리 기반의 심층 지식 제공 방법.
  10. 문서에 대한 관계형 지식(Relational Knowledge), 구조적 지식(Structural Knowledge), 절차적 지식(Procedural Knowledge)을 저장하는 지식 메모리; 및
    질의어를 입력하고, 상기 지식 메모리로부터 입력된 질의어를 포함하는 트리플 및 트리플에 관련된 문서들을 검색하여 제시하는 심층 지식 제공부;를 포함하고,
    여기서 상기 관계형 지식, 구조적 지식 및 절차적 지식을 포함하는 다차원 지식은 용어사전과 온톨로지, 또는 용어사전 또는 온톨로지를 기반으로 하여 상기 문서로부터 생성되는 것을 특징으로 하는 학술적 과학 지식 메모리 기반의 심층 지식 제공 장치.
  11. 제10항에 있어서, 상기 심층 지식 제공부는 특정 용어를 검색하거나 용어 집단 혹은 용어간의 관계를 검색할 수 있는 범용 일치 항목 질의(Generalized Concordance Lists(GCL) Query)를 이용하는 것을 특징으로 하는 학술적 과학 지식 메모리 기반의 심층 지식 제공 장치.
  12. 제11항에 있어서, 상기 심층 지식 제공부는 지속적으로 연결된 트리플 기반의 지식 정보를 동일 화면에서 마우스 클릭으로 손쉽게 옮겨 가면서, 해당되는 트리플에 대한 문서정보를 동적으로 살펴볼 수 있는 슬라이드 내비게이션을 제공하는 것을 특징으로 하는 학술적 과학 지식 메모리 기반의 심층 지식 제공 장치.
  13. 제12항에 있어서, 상기 심층 지식 제공부는 사용자가 원하는 키워드를 입력하고 검색을 실행하면 해당 키워드와 연관되는 주어/이벤트동사/목적어 정보를 빈도수 순으로(상위 5순위까지) 차트와 함께 통계결과를 표현하는 동적 트리플 분석 정보 브라우징을 더 제공하는 것을 특징으로 하는 학술적 과학 지식 메모리 기반의 심층 지식 제공 장치.
  14. 제13항에 있어서, 상기 심층 지식 제공부는 입력된 2개의 키워드를 기준으로 서로 연관되는 개체목록과 이벤트목록을 화면에 출력하는 동적 테이블 기반 검색을 더 제공하는 것을 특징으로 하는 학술적 과학 지식 메모리 기반의 심층 지식 제공 장치.
  15. 제14항에 있어서, 상기 심층 지식 제공부는 방사형으로 표시되는 지식트리플을 기반으로 세부 요소 지식을 내비게이션하는 심층지식 내비게이션을 더 제공하는 것을 특징으로 하는 학술적 과학 지식 메모리 기반의 심층 지식 제공 장치.
KR1020110123596A 2011-11-24 2011-11-24 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치 KR101374195B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110123596A KR101374195B1 (ko) 2011-11-24 2011-11-24 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110123596A KR101374195B1 (ko) 2011-11-24 2011-11-24 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치

Publications (2)

Publication Number Publication Date
KR20130057715A KR20130057715A (ko) 2013-06-03
KR101374195B1 true KR101374195B1 (ko) 2014-03-13

Family

ID=48857224

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110123596A KR101374195B1 (ko) 2011-11-24 2011-11-24 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치

Country Status (1)

Country Link
KR (1) KR101374195B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808768B (zh) * 2016-03-19 2019-03-26 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
KR101813683B1 (ko) * 2016-08-17 2017-12-29 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN112052340B (zh) * 2020-08-10 2024-06-21 深圳数联天下智能科技有限公司 一种数据模型构建方法、装置以及电子设备
KR20230151096A (ko) * 2022-04-24 2023-10-31 박종배 지식교차와 지식연결을 통한 연결지식 생성 방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100068929A (ko) * 2008-12-15 2010-06-24 한국과학기술원 전자 문서에 의미 정보를 부착하는 시스템 및 방법
KR20100077923A (ko) * 2008-12-29 2010-07-08 한양대학교 산학협력단 키워드를 이용한 온톨로지 정보 검색 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100068929A (ko) * 2008-12-15 2010-06-24 한국과학기술원 전자 문서에 의미 정보를 부착하는 시스템 및 방법
KR20100077923A (ko) * 2008-12-29 2010-07-08 한양대학교 산학협력단 키워드를 이용한 온톨로지 정보 검색 방법 및 장치

Also Published As

Publication number Publication date
KR20130057715A (ko) 2013-06-03

Similar Documents

Publication Publication Date Title
Gupta et al. A survey of text mining techniques and applications
US20160203130A1 (en) Method and system for identifying and evaluating semantic patterns in written language
Devi et al. ADANS: An agriculture domain question answering system using ontologies
US9613125B2 (en) Data store organizing data using semantic classification
Al-Zoghby et al. Arabic semantic web applications–a survey
Liao et al. Unsupervised approaches for textual semantic annotation, a survey
CN110612522B (zh) 实体模型的建立
US20140108424A1 (en) Data store organizing data using semantic classification
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
Shang et al. Enhancing biomedical text summarization using semantic relation extraction
US9081847B2 (en) Data store organizing data using semantic classification
Mehdi et al. Excavating the mother lode of human-generated text: A systematic review of research that uses the wikipedia corpus
Rinaldi et al. A matching framework for multimedia data integration using semantics and ontologies
Remi et al. Domain ontology driven fuzzy semantic information retrieval
Armentano et al. NLP-based faceted search: Experience in the development of a science and technology search engine
KR101374195B1 (ko) 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치
Drakopoulos et al. Tensor-based document retrieval over Neo4j with an application to PubMed mining
Baazaoui Zghal et al. A system for information retrieval in a medical digital library based on modular ontologies and query reformulation
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
Popova et al. Multilevel ontologies for big data analysis and processing
Subhashini et al. Shallow NLP techniques for noun phrase extraction
Li et al. An approach for design rationale retrieval using ontology-aided indexing
KR20100073793A (ko) 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템
Ming et al. Resolving polysemy and pseudonymity in entity linking with comprehensive name and context modeling
Mukherjee et al. Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190704

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200303

Year of fee payment: 7