KR100400222B1 - 선택 제한을 위한 동적 의미 분류 방법 및 장치 - Google Patents

선택 제한을 위한 동적 의미 분류 방법 및 장치 Download PDF

Info

Publication number
KR100400222B1
KR100400222B1 KR10-2001-0020175A KR20010020175A KR100400222B1 KR 100400222 B1 KR100400222 B1 KR 100400222B1 KR 20010020175 A KR20010020175 A KR 20010020175A KR 100400222 B1 KR100400222 B1 KR 100400222B1
Authority
KR
South Korea
Prior art keywords
dictionary
words
korean
attribute
semantic
Prior art date
Application number
KR10-2001-0020175A
Other languages
English (en)
Other versions
KR20020080553A (ko
Inventor
조정미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2001-0020175A priority Critical patent/KR100400222B1/ko
Publication of KR20020080553A publication Critical patent/KR20020080553A/ko
Application granted granted Critical
Publication of KR100400222B1 publication Critical patent/KR100400222B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

선택 제한을 위한 동적 의미 분류 방법 및 장치가 개시된다. 이 방법은, 주어진 한국어 사전에 기재된 각 표제어의 의미를 나타내는 풀이말을 속성별로 세분화하여 사전 지식 베이스를 생성하고, 주어진 한국어 언어 자료에 기재된 각 문장을 분석하여 용언별로 선택 제한 단어들을 찾아 초기 격틀 사전을 생성하는 단계 및 용언별로 분류된 선택 제한 단어들에 공통되는 속성인 핵심 의미 속성을 추출하고, 추출된 핵심 의미 속성을 기반으로 한국어 격틀 사전을 생성하는 단계를 구비하는 것을 특징으로 한다. 그러므로, 한국어 사전의 풀이말을 이용하여 표제어인 명사를 의미에 따라 자동으로 분류할 수 있고, 핵심 의미 속성에 의해 과생성/미생성 없이 선택 제한을 표현할 수 있고, 한국어 격틀 사전을 이용하는 응용 시스템 예를 들면 한국어 구문 해석기, 의미 해석기 등 한국어 해석기의 성능과, 음성 인식 및 합성기에서 언어 처리부의 성능을 향상시킬 수 있는 효과를 갖는다.

Description

선택 제한을 위한 동적 의미 분류 방법 및 장치{Dynamic semantic cluster method and apparatus for selectional restriction}
본 발명은 한국어 해석에서 의미를 분류하는 것에 관한 것으로서, 특히, 한국어 문장에서 용언의 선택 제한을 위한 동적 의미 분류 방법 및 장치에 관한 것이다.
일반적으로, 선택 제한이란, 문장에서 단어와 단어가 서로 의존 관계를 갖기 위한 의미적 정합성을 표현한 것이다. 즉, 임의의 용언이 주어졌다고 할 때, 그 주어진 용언과 의미적으로 정합될 수 있는 단어(이하, '선택 제한 단어'라 한다.)의 선택은 제한된다. 예를 들어, '감다'라는 용언이 주어졌을 때, '감다'에 대한 선택 제한 단어는 줄, 끈 또는 넥타이는 될 수 있어도 뱀은 될 수 없으므로, '감다'에 대한 선택 제한 단어들은 줄, 끈, 넥타이 따위이며 뱀은 선택 제한 단어가 될 수 없다.
종래의 선택 제한을 위한 의미 분류 방법들중 하나로서, WordNet과 같은 기존 의미 분류 체계를 그대로 이용하는 '의미 클래스 기반 방법'이 있다. 의미 클래스 방법은 1969년 J. J. Katz, J. A. Forder 또는 P.M. Postal 같은 언어학자에 의해 처음으로 제시되었고, 자연 언어 처리 분야에서 가장 일반적으로 사용된다. 그러나 이 방법은 선택 제한에서 요구하는 세분화된 분류를 지원하지 못하며, 고정된 분류이기 때문에 각각의 용언마다 달라지는 선택 제한에 적절히 대응할 수 없는 문제점을 갖는다.
종래의 선택 제한을 위한 다른 의미 분류 방법으로서, 각 용언의 선택 제한에 가능한 모든 단어들을 직접 나열하는 '예제 기반 방법'이 있다. 예제 기반 방법은, 1990년대 초 일본의 교토 대학의 나가오 교수에 의해 처음 자연 언어 처리 분야에 도입되었으며, 특이하게 일본에서만 이용되고 있다. 이 방법에 대해서는 "유사 정보 검색 장치"라는 제목의 일본 특허 공개 번호 1993-342276, "Natural language analyzing apparatus and method, and construction of a knowledge base for natural language analysis"라는 제목의 미국 특허 번호 US5,424,947 및 "A method of case structure analysis for Japanese sentences based on examples in case frame dictionary"라는 제목으로 Sadao Kurohashi와 Makoto Gargo에 의해 IEICE Transactions on Information and System라는 1994년도에 발표된 논문의 Vol. E77-D, No.2 페이지 227부터 239쪽에 개시되어 있다. 그러나, 이 방법들은 모든 예제들을 나열할 수 없을 뿐만 아니라 비효율적이며, 더우기 나열되지 않은 단어를 처리할 수 없는 문제점을 갖는다.
종래의 선택 제한을 위한 또 다른 의미 분류 방법으로서, '확률 기반 방법'이 있다. 확률 기반 방법은 언어 자료(corpus)에서의 분포 유사도에 의해 명사를 분류하며, 의미 클래스를 자동으로 구축할 수 있다. 이 방법에 대해서는 "Method for document retrieval and for word sense disambiguation using neural networks" 제목의 미국 특허 번호 US5,317,507, "Building and updating of co-occurrence dictionary analyzing of co-occurrence and meaning"라는 제목의미국 특허 번호 US5,406,480 및 "A Corpus-Based Approach for Building Semantic Lexicon"라는 제목으로 Ellen Riloff와 Jessica Shepherd에 의해 Proceedings for the second conference on Empirical Methods in Natural Language Proceessing의 페이지 117-124쪽에 1997에 발표된 논문에 개시되어 있다. 그러나, 이 방법은 의미 클래스 기반 방식이 지닌 단점을 해결할 수 없는 문제점을 갖는다.
본 발명이 이루고자 하는 기술적 과제는, 선택 제한에서 요구되는 세분화된 분류를 지원하며 각각의 용언마다 달라지는 선택 제한에 적절하게 대응할 수 있는 선택 제한을 위한 동적 의미 분류 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 상기 선택 제한을 위한 동적 의미 분류 방법을 수행하는 선택 제한을 위한 동적 의미 분류 장치를 제공하는 데 있다.
도 1은 본 발명에 의한 선택 제한을 위한 동적 의미 분류 방법을 설명하기 위한 플로우차트이다.
도 2는 본 발명에 의한 선택 제한을 위한 동적 의미 분류 장치의 일 실시예의 블럭도이다.
도 3은 사전 지식 베이스 생성부에서 수행되는 제10 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.
도 4 (a) 및 (b)는 각각 한국어 사전 및 사전 지식 베이스의 예시적인 도면들이다.
도 5는 초기 격틀 사전 생성부에서 수행되는 제10 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.
도 6 (a) 및 (b)는 각각 한국어 언어 자료 및 초기 격틀 사전의 예시적인 도면들이다.
도 7은 제12 단계에 대한 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.
도 8 (a) 및 (b)는 각각 초기 격틀 사전 및 한국어 격틀 사전의 예시적인 도면들이다.
상기 과제를 이루기 위한 본 발명에 의한 선택 제한을 위한 동적 의미 분류 방법은, 주어진 한국어 사전에 기재된 각 표제어의 의미를 나타내는 풀이말을 속성별로 세분화하여 사전 지식 베이스를 생성하고, 주어진 한국어 언어 자료에 기재된 각 문장을 분석하여 용언별로 선택 제한 단어들을 찾아 초기 격틀 사전을 생성하는 단계 및 상기 용언별로 분류된 상기 선택 제한 단어들에 공통되는 상기 속성인 핵심 의미 속성을 추출하고, 추출된 상기 핵심 의미 속성을 기반으로 한국어 격틀 사전을 생성하는 단계로 이루어지는 것이 바람직하다.
상기 다른 과제를 이루기 위한 본 발명에 의한 선택 제한을 위한 동적 의미 분류 장치는, 외부로부터 입력한 한국어 사전에 기재된 각 표제어의 의미를 나타내는 풀이말을 속성별로 세분화하고, 상기 각 표제어에 대한 세분화된 속성별 의미를 나타내는 사전 지식 베이스를 출력하는 사전 지식 베이스 생성부와, 외부로부터 입력한 한국어 언어 자료에 기재된 각 문장을 분석하여 용언별로 선택 제한 단어들을 찾고, 상기 용언별로 상기 선택 제한 단어들을 나타내는 초기 격틀 사전을 출력하는 초기 격틀 사전 생성부 및 상기 용언별로 분류된 상기 선택 제한 단어들에 공통되는 상기 속성인 핵심 의미 속성을 상기 사전 지식 베이스로부터 추출하고, 각 용언에 대한 상기 핵심 의미 속성을 나타내는 한국어 격틀 사전을 출력하는 한국어 격틀 사전 생성부로 구성되는 것이 바람직하다.
이하, 본 발명에 의한 선택 제한을 위한 동적 의미 분류 방법과 그 방법을 수행하는 본 발명에 의한 선택 제한을 위한 동적 의미 분류 장치의 구성 및 동작을 첨부한 도면들을 참조하여 다음과 같이 설명한다.
도 1은 본 발명에 의한 선택 제한을 위한 동적 의미 분류 방법을 설명하기 위한 플로우차트로서, 한국어 사전과 한국어 언어 자료로부터 각각 생성한 사전 지식 베이스와 초기 격틀 사전을 이용하여 한국어 격틀 사전을 생성하는 단계(제10 및 제12 단계들)로 이루어진다.
도 2는 도 1에 도시된 방법을 수행하는 본 발명에 의한 선택 제한을 위한 동적 의미 분류 장치의 일 실시예의 블럭도로서, 사전 지식 베이스 생성부(20), 초기 격틀 사전 생성부(22) 및 한국어 격틀 사전 생성부(24)로 구성된다.
도 1에 도시된 본 발명에 의한 선택 제한을 위한 동적 의미 분류 방법은 먼저, 주어진 한국어 사전에 기재된 각 표제어의 의미를 나타내는 풀이말을 속성별로 세분화하여 한국어 사전 지식 베이스(lexical knowledge base)를 생성하는 한편, 주어진 한국어 언어 자료에 기재된 각 문장을 분석하여 용언별로 선택 제한 단어들을 찾아 초기 격틀 사전을 생성한다(제10 단계). 여기서, 본 발명에 의하면, 표제어는 명사로 국한된다. 제10 단계를 수행하기 위해, 도 2에 도시된 바와 같이, 사전 지식 베이스 생성부(20)와 초기 격틀 사전 생성부(22)가 마련된다.
먼저, 도 2에 도시된 사전 지식 베이스 생성부(20)는 외부로부터 입력단자 IN1을 통해 입력한 한국어 사전에 기재된 각 표제어의 의미를 나타내는 풀이말을 속성별로 세분화하고, 각 표제어에 대한 세분화된 속성별 의미를 보여주는 사전 지식 베이스를 생성하여 한국어 격틀 사전 생성부(24)로 출력한다. 이 때, 초기 격틀 사전 생성부(22)는 외부로부터 입력단자 IN2를 통해 입력한 한국어 언어 자료에 기재된 문장들 각각을 분석하여 용언별로 선택 제한 단어들을 찾고, 용언별 선택 제한 단어들을 보여주는 초기 격틀 사전을 생성하여 한국어 격틀 사전 생성부(24)로 출력한다.
이하, 도 1에 도시된 제10 단계에 대한 본 발명에 의한 실시예들을 첨부한 도면들을 참조하여 다음과 같이 설명한다.
도 3은 도 2에 도시된 사전 지식 베이스 생성부(20)에서 수행되는 도 1에 도시된 제10 단계에 대한 본 발명에 의한 실시예(10A)를 설명하기 위한 플로우차트로서, 각 표제어의 풀이말을 형태소 단위로 분리하여 각 표제어에 대한 속성별 의미를 추출하는 단계(제60 및 제62 단계들)로 이루어진다.
도 4 (a)는 한국어 사전의 예시적인 도면으로서, 표제어들과 각 표제어에 대한 풀이말들로 구성되고, 도 4 (b)는 도 4 (a)에 도시된 한국어 사전으로부터 생성된 사전 지식 베이스의 예시적인 도면으로서 표제어 및 그의 속성별 의미로 구성된다.
도 3에 도시된 제10A 단계를 수행하기 위해, 도 2에 도시된 사전 지식 베이스 생성부(20)는 제1 형태소 분리부(30) 및 속성별 의미 추출부(32)로 구현될 수 있다. 여기서, 제1 형태소 분리부(30)는 입력단자 IN1을 통해 외부로부터 입력한 한국어 사전에 기재된 각 표제어의 풀이말을 형태소 단위로 분리하고, 분리된 형태소들을 속성별 의미 추출부(32)로 출력한다(제60 단계). 제60 단계의 이해를 돕기 위해, 도 4 (a)에 도시된 한국어 사전이 제1 형태소 분리부(30)로 입력된다고 가정하자. 이 때, 제1 형태소 분리부(30)는 입력단자 IN1을 통해 입력한 도 4 (a)와 같은 한국어 사전에 기재된 표제어들(끈, 줄, 넥타이 및 테이프 등) 각각의 풀이말을 형태소 단위로 분리한다. 예를 들면, 제1 형태소 분리부(30)는 '끈'이라는 표제어의 풀이말인 '물건을 묶거나 꿰는데 쓰이는 가늘고 긴 물건'을 형태소 단위로 분리하고, 분리된 형태소들인 '물건을', '묶거나', '꿰는데', '쓰이는', '가늘고', '긴' 및 '물건'을 속성별 의미 추출부(32)로 출력한다.
제60 단계후에, 속성별 의미 추출부(32)는 제1 형태소 분리부(30)로부터 입력한 각 풀이말에 대한 분리된 형태소들을 속성별로 세분화하여 각 풀이말에 대한 속성별 의미들을 추출하고, 추출된 속성별 의미들을 기반으로 생성한 사전 지식 베이스를 한국어 격틀 사전 생성부(24)로 출력한다(제62 단계). 여기서, 속성별 의미 추출부(32)로부터 출력되는 사전 지식 베이스는 각 표제어에 대한 속성별 의미들을 보여준다. 만일, 각 풀이말에 대한 속성들을 H(Hypernyn), P(Purpose), F(Feature) 및 O(Object)라고 사전에 설정하였다면, 속성별 의미 추출부(32)는 예를 들어 끈에 대한 분리된 형태소들중에서 '물건', '묶다,꿰다', '가늘고 길다' 및 '물건'을 속성들 H, P, F 및 O로 세분화하여 도 4 (b)에 도시된 바와 같이 '끈'의 풀이말에 대한 속성별 의미들을 추출한다. 이와 같이, 속성별 의미 추출부(32)는 '줄', '넥타이', '테이프' 및 '철사'의 풀이말들 각각에 대한 속성별 의미들을 도 4 (b)에 도시된 바와 같이 추출한다. 따라서, 속성별 의미 추출부(32)는 4 (b)에 도시된 바와 같은 추출된 속성별 의미들을 그의 표제어와 함께 사전 지식 베이스로서 한국어 격틀 사전 생성부(24)로 출력한다.
도 5는 도 2에 도시된 초기 격틀 사전 생성부(22)에서 수행되는 도 1에 도시된 제10 단계에 대한 본 발명에 의한 실시예(10B)를 설명하기 위한 플로우차트로서, 한국어 언어 자료의 각 문장을 형태소 단위로 분리하여 그의 구문을 해석한 다음 각 문장이 갖는 용언의 선택 제한 단어들을 추출하는 단계(제70 및 제72 단계들) 및 모든 문장들에 대해 추출한 선택 제한 단어들을 용언별로 분류하는 단계(제74 단계)로 이루어진다.
도 6 (a)는 한국어 언어 자료의 예시적인 도면으로서 다수개의 문장들로 구성되고, 도 6 (b)는 도 6 (a)에 도시된 한국어 언어 자료로부터 생성된 초기 격틀 사전에서 '감다'라는 용언과 그에 대한 선택 제한 단어들 '끈, 줄, 넥타이'를 예시적으로 보이는 도면이다.
도 5에 도시된 제10B 단계를 수행하기 위해, 도 2에 도시된 초기 격틀 사전 생성부(22)는 제2 형태소 분리부(40), 선택 제한 단어 추출부(42) 및 선택 제한 단어 분류부(44)로 구현될 수 있다. 여기서, 제2 형태소 분리부(40)는 입력단자 IN2를 통해 입력한 한국어 언어 자료에 기재된 문장들 각각을 형태소 단위로 분리하고, 각 문장에 대한 분리된 형태소들을 선택 제한 단어 추출부(42)로 출력한다(제70 단계). 제70 단계의 이해를 돕기 위해, 도 6 (a)에 도시된 한국어 언어 자료가 제2 형태소 분리부(40)로 입력되었다고 가정하자. 이 때, 제2 형태소 분리부(40)는 도 6 (a)에 도시된 한국어 언어 자료의 문장들 '끈으로 감다', '줄로 감는다' 및 '넥타이로 감았다'등 각각을 형태소 단위로 분리한다. 예를 들면 제2 형태소 분리부(40)는 '끈으로 감다'라는 문장을 형태소들 '끈으로' 및 '감다'로 분리하고, 분리된 형태소들 '끈으로' 및 '감다'를 선택 제한 단어 추출부(42)로 출력한다.
제70 단계후에, 선택 제한 단어 추출부(42)는 제2 형태소 분리부(40)로부터 입력한 각 문장에 대한 분리된 형태소들을 이용하여 각 문장의 구문을 해석하고, 구문을 해석한 결과를 이용하여 각 문장이 갖는 용언에 대한 적어도 하나의 선택 제한 단어를 그의 형태소들로부터 추출하고, 추출된 적어도 하나의 선택 제한 단어를 용언과 함께 선택 제한 단어 분류부(44)로 출력한다(제72 단계). 즉, 선택 제한 단어 추출부(42)는 각 문장의 구문을 분석하여 각 문장의 용언에 대한 예를 들면 주어나 목적어를 찾는다. 예컨데, 선택 제한 단어 추출부(42)는, '끈으로 감다'라는 문장의 구문을 해석하여 '감다'라는 용언에 대한 선택 제한 단어인 '끈'을 그의 용언 '감다'와 함께 선택 제한 단어 분류부(44)로 출력하고, '줄로 감는다'라는 문장의 구문을 해석하여 '감는다'라는 용언에 대한 선택 제한 단어인 '줄'을 그의 용언 '감다'와 함께 선택 제한 단어 분류부(44)로 출력하고, '넥타이로 감았다'라는 문장의 구문을 해석하여 '감았다'라는 용언에 대한 선택 제한 단어인 '넥타이'를 그의 용언 '감다'와 함께 선택 제한 단어 분류부(44)로 출력한다.
제72 단계후에, 선택 제한 단어 분류부(44)는 선택 제한 단어 추출부(42)로부터 입력한 모든 문장들에 대해 선택 제한 단어들을 용언별로 분류하여 생성한 초기 격틀 사전을 한국어 격틀 사전 생성부(24)로 출력한다(제74 단계). 예컨데, 선택 제한 단어 분류부(44)는 선택 제한 단어 추출부(42)로부터 선택 제한 단어와 용언간의 세개의 매칭 관계 즉, '끈-감다', '줄-감다' 및 '넥타이-감다'를 입력하고, 입력한 선택 제한 단어들 '끈', '줄' 및 '넥타이'를 용언 '감다'의 격틀([ ])로 묶는다. 여기서, 각 용언에 대한 격틀내에 존재하는 선택 제한 단어들 각각은 그 용언과 의미상으로 정합될 수 있어야 한다. 결국, 도 6 (b)에 도시된 바와 같이 초기 격틀 사전에서 '감다'라는 용언에 대한 선택 제한 단어들은 '끈, 줄, 넥타이'로 격틀에 의해 보여진다.
한편, 제10 단계후에, 한국어 격틀 사전 생성부(24)는 용언별로 분류된 선택 제한 단어들에 공통되는 속성인 핵심 의미 속성을 사전 지식 베이스 생성부(20)로부터 입력한 사전 지식 베이스로부터 추출하고, 각 용언에 대해 추출된 핵심 의미 속성을 기반으로 한국어 격틀 사전을 생성하며, 생성된 한국어 격틀 사전을 출력단자 OUT를 통해 출력한다(제12 단계). 여기서, 한국어 격틀 사전은 각 용언에 대한 핵심 의미 속성을 보여준다.
이하, 제12 단계에 대한 본 발명에 의한 실시예를 첨부된 도면을 참조하여 다음과 같이 설명한다.
도 7은 도 1에 도시된 제12 단계에 대한 본 발명에 의한 실시예(12A)를 설명하기 위한 플로우차트로서, 사전 지식 베이스와 기초 격틀 사전으로부터 한국어 격틀 사전을 생성하는 단계(제80 ∼ 제84 단계들)로 이루어진다.
도 7에 도시된 제12A 단계를 수행하기 위해, 도 2에 도시된 한국어 격틀 사전 생성부(24)는 표현 통일부(50), 유사성 조사부(52) 및 핵심 의미 속성 결정부(54)로 구현될 수 있다. 여기서, 표현 통일부(50)는 용언별로 분류된 각 용언의 선택 제한 단어들중 의미상 서로 정합되는 단어들을 하나로 통일하여 표현한다(제80 단계). 예를 들어, 초기 격틀 사전 생성부(22)로부터 입력한 초기 격틀 사전에서, 도 6 (b)에 도시된 용언 '감다'에 대한 선택 제한 단어들 '끈, 줄, 넥타이'들중 '끈'과 '줄'이 의미상으로 정합된다면, 표현 통일부(50)는 '끈'과 '줄'이라는 두 개의 선택 제한 단어들을 '끈' 또는 '줄'이라는 하나의 표현으로 통일한다. 여기서, 표현 통일부(50)는 선택 제한 단어들이 의미상으로 정합되느냐 정합되지 않느냐를 사전 지식 베이스 생성부(20)로부터 입력한 사전 지식 베이스를 분석하여 결정한다.
제80 단계후에, 유사성 조사부(52)는 표현 통일부(50)로부터 입력한 각 용언에 대한 선택 제한 단어들의 속성별 의미들간 유사성을 지식 기반 베이스생성부(20)로부터 입력한 지식 기반 베이스를 분석하여 조사하고, 조사된 유사성을 핵심 의미 속성 결정부(54)로 출력한다(제82 단계). 예를 들면, 유사성 조사부(52)는 '감다'라는 용언에 대한 선택 제한 단어들 '줄, 넥타이'(또는, '끈, 넥타이')의 속성들간 유사성을 조사하고, 조사된 유사성 즉, "줄과 넥타이는 F라는 속성의 의미가 유사하다"(또는, "끈과 넥타이는 F라는 속성의 의미가 유사하다")을 핵심 의미 결정부(54)로 출력한다.
제82 단계후에, 핵심 의미 속성 결정부(54)는 유사성 조사부(52)로부터 입력한 유사성 및 속성들(H, P, F 및 O)의 우선 순위에 상응하여 각 용언에 대한 선택 제한 단어들에 공통되는 핵심 의미 속성을 결정하고, 결정된 핵심 의미 속성을 기반으로 생성한 한국어 격틀 사전을 출력단자 OUT를 통해 출력한다(제84 단계).
도 8 (a)는 초기 격틀 사전 생성부(22)에서 생성된 초기 격틀 사전의 예시적인 도면이고, 도 8 (b)는 한국어 격틀 사전 생성부(24)에서 생성된 한국어 격틀 사전의 예시적인 도면이다.
예를 들어, 속성들의 우선 순위가 O, F, P 및 H의 순서로 낮아지고, 초기 격틀 사전이 도 8 (a)에 도시된 바와 같이 주어진다고 가정할 때, 핵심 의미 속성 결정부(54)는 유사성 조사부(52)로부터 입력한 끈(또는, 줄) 및 넥타이의 유사성을 조사하여 속성 F를 핵심 의미 속성으로 결정하고, '핵심 의미 속성(F:FEATURE) 및 가늘고 길다'를 한국어 격틀 사전의 격틀([ ])에 도 8 (b)에 도시된 바와 같이 기입한다. 만일, 유사성을 조사한 후 속성들 F와 H의 유사성을 동일하다면, 핵심 의미 속성 결정부(54)는 H보다 우선 순위가 높은 속성 F를 핵심 의미 속성으로서 결정한다. 이와 같이, 한국어 격틀 사전 생성부(24)는 각 용언에 대한 선택 제한 단어들의 핵심 의미 속성을 결정하여 한국어 격틀 사전을 생성한다.
전술한 본 발명에 의한 선택 제한을 위한 동적 의미 분류 방법 및 장치는 한국어 문장을 처리하기 위한 자동 번역 시스템, 자동 검색기, 음성 인식기 또는 음성 합성기 등에 적용될 수 있다.
이상에서 설명한 바와 같이, 본 발명에 의한 선택 제한을 위한 동적 의미 분류 방법 및 장치는 한국어 사전의 풀이말을 이용하여 표제어인 명사를 의미에 따라 자동으로 분류할 수 있고, 핵심 의미 속성에 의해 과생성/미생성 없이 선택 제한을 표현할 수 있고, 한국어 격틀 사전을 이용하는 응용 시스템 예를 들면 한국어 구문 해석기, 의미 해석기 등 한국어 해석기 및 음성 인식 및 합성기에서 언어 처리부의 성능을 향상시킬 수 있는 효과를 갖는다.

Claims (8)

  1. (a) 주어진 한국어 사전에 기재된 각 표제어의 의미를 나타내는 풀이말을 속성별로 세분화하여 사전 지식 베이스를 생성하고, 주어진 한국어 언어 자료에 기재된 각 문장을 분석하여 용언별로 선택 제한 단어들을 찾아 초기 격틀 사전을 생성하는 단계; 및
    (b) 상기 용언별로 분류된 상기 선택 제한 단어들에 공통되는 상기 속성인 핵심 의미 속성을 추출하고, 추출된 상기 핵심 의미 속성을 기반으로 한국어 격틀사전을 생성하는 단계를 구비하는 것을 특징으로 하는 선택 제한을 위한 동적 의미 분류 방법.
  2. 제1 항에 있어서, 상기 (a) 단계는
    (a1) 상기 각 풀이말을 형태소 단위로 분리하는 단계; 및
    (a2) 분리된 상기 형태소들을 상기 속성별로 세분화하여 상기 각 풀이말에 대한 상기 속성별 의미들을 상기 형태소들로부터 추출하는 단계를 구비하고,
    상기 사전 지식 베이스는 상기 각 표제어에 대한 상기 속성별 의미들을 나타내는 것을 특징으로 하는 선택 제한을 위한 동적 의미 분류 방법.
  3. 제1 항에 있어서, 상기 (a) 단계는
    (a3) 상기 한국어 언어 자료에 기재된 각 문장을 형태소 단위로 분리하는 단계;
    (a4) 상기 각 문장에 대해 분리된 상기 형태소들을 이용하여 상기 각 문장의 구문을 해석하고, 상기 구문을 해석한 결과를 이용하여 상기 각 문장의 용언에 대한 적어도 하나의 상기 선택 제한 단어를 상기 형태소들로부터 추출하는 단계; 및
    (a5) 모든 문장들에 대해 추출된 상기 선택 제한 단어들을 상기 용언별로 분류하는 단계를 구비하고,
    상기 초기 격틀 사전은 상기 용언별로 상기 선택 제한 단어들을 나타내는 것을 특징으로 하는 선택 제한을 위한 동적 의미 분류 방법.
  4. 제1 항에 있어서, 상기 (b) 단계는
    (b1) 상기 용언별로 분류된 상기 각 용언의 상기 선택 제한 단어들중 의미상 서로 정합되는 상기 단어들을 하나로 통일하여 표현하는 단계;
    (b2) 상기 각 용언에 대한 상기 선택 제한 단어들의 속성별 의미들간 유사성을 조사하는 단계; 및
    (b3) 상기 유사성 및 상기 속성들의 우선 순위에 따라 상기 각 용언에 대한 선택 제한 단어들에 공통되는 상기 핵심 의미 속성을 결정하는 단계를 구비하고,
    상기 한국어 격틀 사전은 상기 각 용언에 대한 상기 핵심 의미 속성을 나타내는 것을 특징으로 하는 선택 제한을 위한 동적 의미 분류 방법.
  5. 외부로부터 입력한 한국어 사전에 기재된 각 표제어의 의미를 나타내는 풀이말을 속성별로 세분화하고, 상기 각 표제어에 대한 세분화된 속성별 의미를 나타내는 사전 지식 베이스를 출력하는 사전 지식 베이스 생성부;
    외부로부터 입력한 한국어 언어 자료에 기재된 각 문장을 분석하여 용언별로 선택 제한 단어들을 찾고, 상기 용언별로 상기 선택 제한 단어들을 나타내는 초기 격틀 사전을 출력하는 초기 격틀 사전 생성부; 및
    상기 용언별로 분류된 상기 선택 제한 단어들에 공통되는 상기 속성인 핵심 의미 속성을 상기 사전 지식 베이스로부터 추출하고, 각 용언에 대한 상기 핵심 의미 속성을 나타내는 한국어 격틀 사전을 출력하는 한국어 격틀 사전 생성부를 구비하는 것을 특징으로 하는 선택 제한을 위한 동적 의미 분류 장치.
  6. 제5 항에 있어서, 상기 사전 지식 베이스 생성부는
    상기 각 풀이말을 형태소 단위로 분리하고, 분리된 상기 형태소들을 출력하는 제1 형태소 분리부; 및
    상기 제1 형태소 분리부로부터 입력한 상기 형태소들을 상기 속성별로 세분화하여 상기 각 풀이말에 대한 속성별 의미들을 추출하고, 추출된 상기 속성별 의미들을 기반으로 생성한 상기 사전 지식 베이스를 출력하는 속성별 의미 추출부를 구비하는 것을 특징으로 하는 선택 제한을 위한 동적 의미 분류 장치.
  7. 제5 항에 있어서, 상기 초기 격틀 사전 생성부는
    상기 한국어 언어 자료에 기재된 각 문장을 형태소 단위로 분리하고, 분리된 상기 형태소들을 출력하는 제2 형태소 분리부;
    상기 제2 형태소 분리부로부터 입력한 상기 형태소들을 이용하여 상기 각 문장의 구문을 해석하고, 상기 구문을 해석한 결과로부터 상기 각 문장의 용언에 대한 상기 선택 제한 단어들을 추출하는 선택 제한 단어 추출부; 및
    상기 선택 제한 단어 추출부로부터 입력한 모든 문장들에 대한 상기 선택 제한 단어들을 상기 용언별로 분류하여 생성한 상기 초기 격틀 사전을 출력하는 선택 제한 단어 분류부를 구비하는 것을 특징으로 하는 선택 제한을 위한 동적 의미 분류 장치.
  8. 제5 항에 있어서, 상기 한국어 격틀 사전 생성부는
    상기 용언별로 분류된 상기 각 용언에 대한 상기 선택 제한 단어들중 의미상 서로 정합되는 상기 단어들을 하나로 통일하여 표현하는 표현 통일부;
    상기 표현 통일부로부터 입력한 상기 각 용언에 대한 상기 선택 제한 단어들의 속성별 의미들간 유사성을 조사하고, 조사된 유사성을 출력하는 유사성 조사부; 및
    상기 유사성 조사부로부터 입력한 상기 유사성 및 상기 속성들의 우선 순위에 상응하여 상기 각 용언에 대한 선택 제한 단어들에 공통되는 상기 핵심 의미 속성을 결정하고, 결정된 상기 핵심 의미 속성을 기반으로 생성한 상기 한국어 격틀 사전을 출력하는 핵심 의미 속성 결정부를 구비하는 것을 특징으로 하는 선택 제한을 위한 동적 의미 분류 장치.
KR10-2001-0020175A 2001-04-16 2001-04-16 선택 제한을 위한 동적 의미 분류 방법 및 장치 KR100400222B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0020175A KR100400222B1 (ko) 2001-04-16 2001-04-16 선택 제한을 위한 동적 의미 분류 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0020175A KR100400222B1 (ko) 2001-04-16 2001-04-16 선택 제한을 위한 동적 의미 분류 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20020080553A KR20020080553A (ko) 2002-10-26
KR100400222B1 true KR100400222B1 (ko) 2003-10-01

Family

ID=27701192

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0020175A KR100400222B1 (ko) 2001-04-16 2001-04-16 선택 제한을 위한 동적 의미 분류 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100400222B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732903A (zh) * 2020-09-19 2021-04-30 中国人民解放军战略支援部队信息工程大学 即时通信信息取证过程中证据分类方法及***

Also Published As

Publication number Publication date
KR20020080553A (ko) 2002-10-26

Similar Documents

Publication Publication Date Title
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
JPH05189481A (ja) 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム
CN110727796A (zh) 面向分级读物的多尺度难度向量分类方法
CN110991180A (zh) 一种基于关键词和Word2Vec的命令识别方法
Hasegawa-Johnson et al. Grapheme-to-phoneme transduction for cross-language ASR
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
Aliwy Tokenization as preprocessing for Arabic tagging system
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
Johnson et al. Synergies in learning words and their referents
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
KR100400222B1 (ko) 선택 제한을 위한 동적 의미 분류 방법 및 장치
JPH04156663A (ja) 文章圧縮装置
Elsheikh Timeline of the development of Arabic PoS taggers and Morphological analysers
JP4033011B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2005284723A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Souter et al. Using Parsed Corpora: A review of current practice
Vempaty et al. Automatic sandhi spliting method for telugu, an indian language
Adewole et al. Token Validation in Automatic Corpus Gathering for Yoruba Language
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR100463376B1 (ko) 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
Maziarz et al. Chunking of Polish: guidelines, discussion and experiments with Machine Learning
Hasegawa-Johnson et al. Arabic speech and language technology
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110830

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20120830

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee