KR100641053B1 - 생략된 문장성분 복원 장치 및 방법 - Google Patents

생략된 문장성분 복원 장치 및 방법 Download PDF

Info

Publication number
KR100641053B1
KR100641053B1 KR1020050093880A KR20050093880A KR100641053B1 KR 100641053 B1 KR100641053 B1 KR 100641053B1 KR 1020050093880 A KR1020050093880 A KR 1020050093880A KR 20050093880 A KR20050093880 A KR 20050093880A KR 100641053 B1 KR100641053 B1 KR 100641053B1
Authority
KR
South Korea
Prior art keywords
sentence
candidate
restored
component
verb
Prior art date
Application number
KR1020050093880A
Other languages
English (en)
Inventor
임수종
이창기
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020050093880A priority Critical patent/KR100641053B1/ko
Application granted granted Critical
Publication of KR100641053B1 publication Critical patent/KR100641053B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 한국어에서 빈번하게 발생되는 문장 성분의 생략 현상으로 인해 생길 수 있는 오류를 방지하고 좀더 정확한 문장 구조 분석 정보를 제공하는 문장 성분 복원 장치 및 방법을 제공하는데 그 목적이 있다.
이에 본 발명은 입력된 문장을 형태소 분석과 개체명 인식, 어휘의미 태깅 중 적어도 하나 이상의 과정을 거친 후, 통상적으로 정의된 문법을 사용하여 문장의 구조를 분석하는 문장구조 분석부와, 상기 문장구조 분석부에서 분석되어 입력된 문장에 출현하는 각각의 용언별 필수성분을 파악하고, 같은 문장에서 사용된 용언 중에서 후보로 인식되는 문장 성분들을 생략 후보로 설정하는 생략후보 인식부와, 상기 생략후보 인식부에서 설정된 생략 후보들 중 기 정의된 규칙정보 및 통계정보를 사용하여 실제 복원 후보로 선택하는 생략성분 복원부를 포함하여 구성된다.
생략현상, 문장성분 복원, 규칙, 통계정보

Description

생략된 문장성분 복원 장치 및 방법{apparatus and method for restoration of ellipsis statement constituent}
도 1 은 본 발명에 따른 문장 성분 복원 장치를 나타낸 도면
도 2 는 본 발명에 따른 문장 성분 복원 방법을 나타낸 흐름도
도 3 은 도 2에서 문장 구조 분석 방법을 상세히 나타낸 흐름도
도 4 는 도 2에서 생략 성분 후보 설정 방법을 상세히 나타낸 흐름도
도 5 는 도 2에서 생략 성분 복원 방법을 상세히 나타낸 흐름도
*도면의 주요부분에 대한 부호의 설명
10 : 문장구조 분석부 20 : 생략후보 인식부
22 : 자/타동사 사전 30 : 생략성분 복원부
32 : 규칙/통계 정보
본 발명은 생략된 문장성분 복원 장치 및 방법에 관한 것으로, 특히 규칙과 통계 정보를 이용하여 한국어에서 생략된 문장 성분을 인식하고 복원해주는 문장성분 복원 장치 및 방법에 관한 것이다.
일반적으로 자연언어 처리에서 발생하는 생략(ellipsis)은 주로 반복을 피하기 위해서 발생하기 때문에 같은 문장이나 혹은 그 전의 문장에서 유추하여 생략 현상을 복원할 수 있다.
영어의 경우 생략현상은 다음과 같이 동사구가 생략된 형태가 된다.
"Helen saw the movie and Mary did too."
그러나 한국어의 경우에는 동사구가 생략되는 형태는 극히 드물고 주로 주어나 목적어 역할을 하는 명사구가 생략이 된다. 즉, 동일 문장내 주어 생략과 백과사전과 같은 특수한 문서에서 표제어의 생략 등이 많다.
[일 예 1]
동일 문장내 주어가 생략되는 경우,
“학자 프라사스타파다가 <구의법강요(句義法綱要)>를 저술하여 (학자 프라사스타파다가) 이 파의 학설을 정립하였다”
위와 같은 현상으로 “학자 프라사스타파다가“는 실제 문장에서는 생략된다.
이러한 현상은 질문에 대해 정확한 답만을 제시하는 질의응답 시스템에서도 발생된다.
질의응답 시스템에서 답을 주기 위해 여러 가지 기법이 사용되는데 그 중의 하나로 다음과 같이 질문과 정답 문장의 술어-논항 관계를 이용하는 방법이 있다.
[일 예 2]
백과사전과 같은 특수한 문서에서 표제어의 생략되는 경우,
“2000년에 노벨평화상을 받은 사람은?”
받다(subj : 사람, obj : 노벨평화상, adj : 2000년)
Title : 김대중
“…공로로 2000년 노벨평화상을 받았다.”
받다(subj : 김대중, obj : 노벨평화상, adv : 2000년, 공로) -- ①
받다(subj : NULL, obj : 노벨평화상, adj : 2000년, 공로) -- ②
이처럼 생략 현상이 빈번하게 일어나는 한국어 백과사전 문서는 실제 문장(①) 안에서 표제어에 해당하는 부분은 모두 생략을 한 상태로 생략된 문장(②)으로 구성되기 때문에 문장 그대로 술어 논항 관계를 구성한 경우는 ②와 같은 형태가 되어 원하는 정답을 찾을 수가 없게 된다.
이와 같은 생략된 문장성분의 복원은 주로 사람이 만든 규칙만을 적용하여 생략성분 복원을 시도하기 때문에 복원될 수 있는 문장의 형태를 제한시킬 수 밖에 없다. 또한 이외의 방법으로 통계정보를 사용하는 경우가 있는데 이는 규칙이 갖는 장점을 활용하지 못하고 통계만을 사용하기 때문에 성능 면에서 차이가 나는 문제가 있다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 한국어에서 빈번하게 발생되는 문장 성분의 생략 현상으로 인해 생길 수 있는 오류를 방지하고 좀더 정확한 문장 구조 분석 정보를 제공하는 문장 성분 복원 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 규칙과 통계 정보를 적절히 이용하여 한국어 문장에서 생략된 문장 성분을 인식하고 복원해주는 문장 성분 복원 장치 및 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 문장 성분 복원 장치의 특징은 기 정의된 문법에 기반하여 입력된 문장의 구조를 분석하는 문장구조 분석부와, 상기 분석된 문장에 출현하는 각각의 용언별 필수성분을 파악하여 문장성분의 생략이 판단되면, 상기 입력된 문장내에서 생략된 성분의 복원후보를 검출하는 생략후보 인식부와, 상기 검출된 복원후보들에서 기 정의된 규칙정보 및 통계정보를 이용하여 상기 생략된 성분을 복원하는 생략성분 복원부를 포함하여 구성된다.
바람직하게 상기 용언별 필수성분이 목적어로 파악되면 용언의 자/타 동사 사전을 이용하여 타동사로 판단된 경우에만 해당 용언의 생략 후보로 설정하는 것을 특징으로 한다.
바람직하게 상기 문장의 구조는 주어, 목적어, 보어 중 어느 하나로 이루어지는 문장 성분과, 명사절, 형용사절 중 어느 하나로 이루어지는 절의 종류와, 문장과 문장, 절과 절 또는 문장과 절간의 연결 관계를 나타내는 연결 성분으로 구성되는 것을 특징으로 한다.
바람직하게 상기 생략 후보 인식부에서 사용되는 후보는 문장 성분 중 적어도 어느 하나인 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 문장 성분 복원 방법의 특징은 후보의 생략이 포함된 문장이 입력되면, 문장의 구조를 분석하는 제 1 단계와, 상기 구조 분석된 문장을 입력 받아 용언별 필수 성분을 설정하여 생략된 성분의 후보 중 문장에 출현하는 각각의 용언에 대해 복원 후보들을 생성하는 제 2 단계와, 상기 생략후보 설정에 의해 생성된 용언별 생략 성분 후보 중 규칙화된 격틀 정보 및 통계 정보를 이용하여 실제 복원 후보를 결정함으로써, 생략 성분이 복원된 문장을 완성하는 제 3 단계를 포함하여 이루어지는 것을 특징으로 한다.
바람직하게 상기 제 1 단계는 생략된 문장 성분이 포함된 문장을 입력하면, 상기 입력된 문장을 품사 태깅, 개체명 인식, 어휘의미 태깅 과정 중 적어도 하나 이상의 과정을 순차적으로 수행하는 단계와, 상기 적어도 하나 이상의 과정들을 거친 문장에 통상적으로 정의되어 있는 문법을 대조하면서 문장 성분, 절의 종류 및 연결 성분을 갖는 문장의 구조를 분석하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
바람직하게 상기 제 2 단계는 구조 분석된 문장이 입력되면, 입력된 구조 분석된 문장을 통해 상기 문장에 출현하는 각각의 용언별 필수성분을 파악하는 단계와, 상기 파악된 용언별 필수성분 중 같은 문장내에 출현하는 용언의 모든 주어들을 상기 주어가 존재하지 않는 용언의 주어의 복원 후보들로 설정하는 단계와, 상기 파악된 용언별 필수성분 중 같은 문장내에 출현하는 용언의 모든 목적어들을 상기 목적어가 존재하지 않는 용언의 목적어의 복원 후보들로 설정하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
바람직하게 상기 설정되는 목적어의 복원 후보는 기 저장된 자/타동사 사전 을 이용하여 해당 용언이 타동사로 판단된 경우에만 해당 용언의 목적어 후보로 설정하는 것을 특징으로 한다.
바람직하게 상기 제 3 단계는 상기 생성된 용언별 생략 성분 후보가 입력되면, 상기 생략 성분 후보가 주어인지 목적어 인지를 판단하는 단계와, 상기 후보가 주어로 판단되면, 생략성분 후보의 규칙화된 의미 정보를 이용하여 의미 정보를 갖는 문장 성분이 특정 용언의 주어 생략 성분 후보이면 생략된 문장에 해당 후보를 주어로 복원하는 단계와, 상기 후보가 주어로 판단되는 경우이면서, 상기 규칙화된 의미 정보로 복원 여부가 결정되지 않는 생략 성분 후보로 판단되거나, 또는 상기 후보가 목적어로 판단되면 미리 정의되어 있는 규칙화된 격틀에 매칭을 수행하고, 상기 매칭 결과 매칭된 격틀을 검출하는 단계와, 상기 검출과정을 통해 상기 생략된 주어나 목적어를 제외한 격틀이 검출되면 복원하는 단계와, 상기 복원된 문장에 기 정의된 통계정보를 적용하여 산출되는 수치적 통계를 이용하여 이미 복원 대상으로 선정된 문장 성분을 재검증하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
바람직하게 상기 통계 정보는 생략된 문장이 복원되지 않을 때, 주어로 복원될 때, 목적어로 복원될 때의 경우를 수치적 통계로 각각 0 ~ 1 사이의 값(score)으로 표기되는 것을 특징으로 한다.
바람직하게 상기 검증하는 단계는 상기 문장 구조 분석을 통한 복원 및 격틀 매칭을 통한 복원이 상기 통계정보를 통한 검증과 동일한지를 판단하는 단계와, 상기 판단 결과 동일하면 상기 문장 구조 분석을 통한 복원 및 격틀 매칭을 통해 복 원된 문장을 그대로 유지하는 단계와, 상기 판단 결과 동일하지 않다면, 상기 문장 구조 분석을 통한 복원 및 격틀 매칭을 통해 복원된 후보를 상기 통계정보에서 정의된 후보로 변경하여 복원하는 단계로 이루어지는 것을 특징으로 한다.
바람직하게 상기 검증하는 단계는 상기 통계정보를 통한 검증을 위해, 1)복원되지 않을 때, 2)주어로 복원될 때 및 3)목적어로 복원될 때를 통계정보에 적용해서 산출되는 값의 경계(threshold) 값을 각각 사용자가 임의로 미리 정의하는 단계와, 상기 복원된 후보가 상기 통계정보의 적용에서 산출된 수치적 통계가 상기 경계(threshold)값을 넘지 못할 후보이면, 상기 통계정보에서 추천하는 후보를 최종 복원할 대상으로 선정하여 복원하는 단계와, 상기 복원된 후보가 상기 통계정보의 적용에서 산출된 수치적 통계가 상기 경계(threshold)값 이하를 보이지 않는다면 앞에서 복원된 후보를 그대로 유지하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
바람직하게 상기 통계 정보는 어휘자질(lexical feature), 품사자질(POS feature), 의미자질, 구조분석 자질, 복합자질 중 어느 하나 이상을 이용하는 것을 특징으로 한다.
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 문장 성분 복원 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.
도 1 은 본 발명에 따른 문장 성분 복원 장치를 나타낸 도면이다.
도 1과 같이, 기 정의된 문법에 기반하여 입력된 문장의 구조를 분석하는 문장구조 분석부(10)와, 상기 분석된 문장에 출현하는 각각의 용언별 필수성분을 파악하여 문장성분의 생략이 판단되면, 상기 입력된 문장내에서 생략된 성분의 복원후보를 검출하는 생략후보 인식부(20)와, 상기 검출된 복원후보들에서 기 정의된 규칙정보(31) 및 통계정보(32)를 이용하여 상기 생략된 성분을 복원하는 생략성분 복원부(30)를 포함하여 구성된다.
이때, 상기 문장구조 분석부(10)는 입력된 문장을 형태소 분석과 개체명 인식, 어휘의미 태깅 중 적어도 하나 이상의 과정을 통해 문장의 구조를 분석한다.
또한, 상기 문장의 구조는 주어, 목적어, 보어 등과 같은 문장 성분과, 명사절, 형용사절 등과 같은 절의 종류와, 문장과 문장, 절과 절 또는 문장과 절간의 연결 관계를 나타내는 연결 성분으로 구성된다. 그리고 상기 생략 후보 인식부(20)에서 사용되는 후보는 생략된 주어, 목적어, 보어 등과 같은 문장 성분 중 적어도 어느 하나를 말한다.
상기 생략후보 인식부(20)는 상기 용언별 필수성분이 주어, 목적어이며, 상기 용언별 필수성분이 목적어로 파악되면 용언의 자/타 동사 사전을 이용하여 타동사로 판단된 경우에만 해당 용언의 생략 후보로 설정한다.
이와 같이 구성된 본 발명에 따른 문장 성분 복원 장치를 이용한 방법을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2 는 본 발명에 따른 문장 성분 복원 방법을 나타낸 흐름도이다. 그리고 도 3 은 도 2에서 문장 구조 분석 방법을 상세히 나타낸 흐름도이고, 도 4 는 도 2 에서 생략 성분 후보 설정 방법을 상세히 나타낸 흐름도이고, 도 5 는 도 2에서 생략 성분 복원 방법을 상세히 나타낸 흐름도이다.
도 2와 같이, 첫 번째 단계로 후보의 생략이 포함된 문장(11)이 입력되면, 문장의 구조를 분석한다(S100).
도 3을 참조하여 좀더 상세히 설명하면, 사용자가 생략된 문장 성분이 포함된 문장을 입력하면(S110), 상기 입력된 문장에 대한 품사 태깅(S120), 개체명 인식(S130), 어휘의미 태깅(S140) 과정을 순차적으로 수행한다.
그리고 상기 과정들을 모두 거친 문장에 통상적으로 정의되어 있는 문법을 대조하면서 문장 성분, 절의 종류 및 연결 성분을 갖는 문장의 구조를 분석한다(S150).
상기 문장 성분은 주어, 목적어, 보어 등을 나타내며, 절의 종류는 명사절, 형용사절 등을 나타낸다. 또한 연결 성분은 문장과 문장, 절과 절 또는 문장과 절간의 연결 관계를 나타낸다.
상기 문장 구조 분석을 수행하여 얻어진 입력과 결과의 일 실시예는 다음과 같다.
[실시예 1]
“학자 프라사스타파다가 <구의법강요(句義法綱要)>를 저술하여 이 파의 학설을 정립하였다”
정립하다
<obj : 이 파의 학설 : 를>
저술하다
<subj : 프라사스타파다 : 가>
<obj : <구의법강요(句義法綱要):를>
다음 두 번째 단계로 상기 구조 분석된 문장을 입력 받아 용언별 필수 성분을 설정하여, 생략된 성분의 후보 중 문장에 출현하는 각각의 용언에 대해서 복원 후보들을 생성한다. 이때, 설명의 간략화를 위해 상기 용언별 필수 성분은 주어, 목적어로 한정한다(S200).
도 4를 참조하여 좀더 상세히 설명하면, 상기 첫 번째 단계에서 구조 분석된 문장이 입력되면(S210), 입력된 구조 분석된 문장을 통해 상기 문장에 출현하는 각각의 용언별 필수성분을 파악한다(S220).
본 명세서에서는 용언별 필수성분으로 주어, 목적어로 한정하였으므로, 먼저 문장에 출현하는 각각의 용언에 대해서 주어 복원 후보들을 생성한다(S230). 이때, 상기 주어 복원 후보로는 같은 문자 내에 출현하는 용언의 모든 주어들을 상기 주어가 존재하지 않는 용언의 주어로 설정한다.
이어 문장에 출현하는 각각의 용언에 대해서 목적어 복원 후보들을 생성한다(S240). 이때, 목적어는 주어와 다르게 타동사만이 갖기 때문에 기 저장된 자/타동사 사전을 이용하여 해당 용언이 자동사인지 타동사인지를 먼저 판단하게 된다. 따라서 상기 목적어 복원 후보로는 같은 문장내에 출현하는 용언에서 목적어로 쓰인 문장 성분 중 용언이 타동사로 판단된 경우에만 해당 용언의 목적어 후보들로 설정한다.
마지막 세 번째 단계로 상기 생략후보 설정에 의해 생성된 용언별 생략 성분 후보를 이용하여 실제 복원 후보를 결정함으로써, 생략 성분이 복원된 문장을 완성한다(S300).
도 5를 참조하여 좀더 상세히 설명하면, 상기 생성된 용언별 생략 성분 후보가 입력되면(S310), 먼저 상기 후보가 주어인지 목적어 인지를 판단한다(S320).
그리고 상기 판단 결과(S320), 상기 후보가 주어로 판단되는 경우는 생략성분 후보의 규칙화된 의미 정보를 이용한다(S330).
이때, 정의되어 있는 특정 의미 정보의 경우에는 복원되는 경향이 50% 이상이기 때문에 이러한 의미 정보를 갖는 문장 성분이 특정 용언의 주어 생략 성분 후보라고 판단되면(S340), 생략된 문장에 해당 후보를 주어로 복원한다(S350).
이어 상기 후보가 주어로 판단되는 경우이면서, 상기 규칙화된 의미 정보로 복원 여부가 결정되지 않는 생략 성분 후보로 판단되거나(S340), 또는 상기 후보가 목적어로 판단되는 경우(S320)는 규칙화된 격틀 정보를 이용한다(S360).
이때, 상기 판단 결과(S320) 상기 생략 성분 후보가 목적어로 판단되는 경우는 상기 규칙화된 의미 정보를 이용하지 않고 바로 규칙화된 격틀 정보를 이용하는 것이 바람직하다. 왜냐하면, 상기 생략 성분 후보가 목적어인 경우는 상기 규칙화된 의미 정보를 이용하는 경우에 규칙화된 의미 정보와 매칭되는 결과가 거의 없기 때문이다.
상기 사용되는 규칙화된 격틀 정보는 다음 실시예 2와 같은 형태이다.
[실시예 2]
A=의미코드! 격조사 용언!다 > 예문
A=사람!가 B=인공적장소!로 가!다 > [그[A]가 바다[B]로 가다]
이와 같은 규칙화된 격틀을 이용한 방법은 표 1에서 나타내고 있다.
입 력 - 표제어 : 알롱만[sense:그곳] 하이퐁 동쪽에 위치하며
문장구조 분석(parsing) 위치하다(subj:NULL, obj:NULL, ADV:동쪽:에 격틀: 방향!에 위치하다
격틀 매칭 24265-2 A=곳!가 B=곳!에서 C=방향!에 24265-4 A=곳!가 B=방향!에 24265-8 A=기상!가 B=방향!에 24265-12 A=방향!에 24265-17 A=부위!가 B=방향!에
복원 여부 주어로 복원
표 1과 같이, 상기 규칙화된 격틀을 이용한 방법은 다음과 같다.
먼저 표제어 알랑만으로 입력이 “하이퐁 동쪽에 위치하며“로 입력되면, 상기 첫 번째 단계인 문장 구조의 분석을 통해 입력된 문장을 분석하게 된다(S362).
이렇게 구조 분석된 결과를 이용하여 미리 정의되어 있는 규칙화된 격틀에 매칭을 수행하고(S364), 상기 매칭 결과 매칭된 격틀을 검출한다(S366).
그리고 이 검출과정을 통해 상기 생략된 주어나 목적어를 제외한 격틀이 검출되면 복원한다(S368). 즉 문장 구조분석 용언에서 존재하지 않으면서, 상기 검출된 격틀이 입력된 문장의 필수 성분으로 등록된 경우에는 검출된 규칙화된 격틀을 참조하여 복원 여부와 함께 복원될 문장의 성분을 정의하게 된다. 그리고 이를 통해 생략된 문장을 복원하게 된다.
그러나, 이렇게 복원된 문장들은 상기 규칙화된 의미 정보 및 규칙화된 격틀 정보가 규칙의 한계 때문에 모든 생략 문장 성분 후보에 대해 정확한 복원을 결정할 수 없다.
따라서. 기 정의된 통계정보를 상기 복원된 문장에 적용한다(S370).
상기 통계 정보는 입력된 문장 구조를 통해 3가지 경우를 수치적으로 통계 내어 정의한 정보를 말한다. 상기 3가지 경우는 첫째, 생략된 문장이 복원되지 않을 때, 둘째, 주어로 복원될 때, 셋째, 목적어로 복원될 때의 경우이다.
이때, 상기 수치적 통계는 각각 0 ~ 1 사이의 값(score)으로 표기되며, 값이 클수록 생략된 문장 성분 후보에 가깝게 된다.
따라서, 상기 통계 정보를 적용하여 표기되는 값 중 가장 큰 값으로 표기되는 하나를 선택하여 상기 규칙화된 의미정보를 적용함으로써, 이미 복원 대상으로 선정된 문장 성분을 규칙/통계정보에 한번 더 적용하여 검증하는 결과를 갖는다.
이와 같이 정의된 상기 통계정보를 복원된 문장에 적용함으로써, 각각의 생략된 문장 성분 후보를 보다 정확하게 복원할 수 있게 된다.
그래서 상기 문장 구조 분석을 통한 복원(주어)(S350) 및 격틀 매칭을 통한 복원(주어, 목적어)(S360)이 상기 통계정보를 통한 검증과 동일한지를 판단한다(S380).
상기 판단 결과(S380), 동일하면 상기 문장 구조 분석을 통한 복원(주어)(S350) 및 격틀 매칭을 통해 복원(주어, 목적어)(S360)된 문장을 그대로 유지한다(S390).
그리고 상기 판단 결과(S380), 동일하지 않다면 상기 문장 구조 분석을 통한 복원(주어)(S350) 및 격틀 매칭을 통해 복원(주어, 목적어)(S360)된 후보를 상기 통계정보에서 정의된 후보로 변경하여 복원한다(S400).
이때, 상기 통계정보를 통한 검증을 위해, 사용자가 임의로 상기 3가지 경우에 대해 각각 그 경계(threshold) 값을 미리 정의한다.
즉, 상기 경계(threshold) 값은 상기 3가지 경우인 복원되지 않을 때, 주어로 복원될 때 및 목적어로 복원될 때 등을 통계정보에 적용해서 산출되는 값의 기준을 정해놓은 값으로, 이 경계 값 이상이 되는 경우가 생략된 문장의 후보가 된다.
그래서 상기 문장 구조 분석을 통한 복원(주어)(S350) 및 격틀 매칭을 통한 복원(주어, 목적어)(S360)된 후보가 통계정보의 적용에서 사용자가 임의로 정한 경계(threshold)값을 넘지 못할 후보인 경우는 규칙화된 의미정보 및 격틀 매칭을 통한 복원에서 결정된 후보를 무시하고 상기 통계정보에서 추천하는 후보를 최종 복원할 대상으로 선정하여 복원한다(S400).
그리고 상기 문장 구조 분석을 통한 복원(주어)(S350) 및 격틀 매칭을 통해 복원(주어, 목적어)(S360)된 후보가 통계정보의 적용에서 사용자가 임의로 정한 경계(threshold)값 이하를 보이지 않는다면 앞에서 복원된 후보를 그대로 유지하게 된다(S390).
이와 같은 과정을 거쳐서 생략 성분이 포함된 문장에 대해서 생략 성분 존재 여부와 생략 성분 후보를 인식하고 인식된 후보에 대해서 실제로 복원여부를 규칙과 통계 정보를 이용하여 복원을 수행한 후, 복원된 문장을 출력하다(S410).
이때, 상기 통계 정보에서 중요한 자질은 본 발명에서는 어휘자질(lexical feature), 품사자질(POS feature), 의미자질, 구조분석 자질, 복합자질 등을 사용한다.
이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 문장 성분 복원 장치 및 방법은 다음과 같은 효과가 있다.
첫째, 문장의 구조 분석을 이용하는 자동 번역, 검색, 정보 추출, 질의응답 시스템의 성능을 향상시킬 수 있다.
둘째, 생략이 포함된 문장을 문장구조 분석하여 정확하게 생략이 가능한 후보를 먼저 인식하였고 생략된 후보 중 복원 대상을 결정하는 과제에서도 규칙과 통 계를 적절히 사용하여 문장 구조 분석의 능력을 향상시킬 수 있다.

Claims (12)

  1. 기 정의된 문법에 기반하여 입력된 문장의 구조를 분석하는 문장구조 분석부와,
    상기 분석된 문장에 출현하는 각각의 용언별 필수성분을 파악하여 문장성분의 생략이 판단되면, 상기 입력된 문장내에서 생략된 성분의 복원후보들을 검출하는 생략후보 인식부와,
    상기 검출된 복원후보들에서 기 정의된 규칙정보 및 통계정보를 이용하여 상기 생략된 성분을 복원하는 생략성분 복원부를 포함하는 생략된 문장성분 복원 장치.
  2. 후보의 생략이 포함된 문장의 구조를 분석하는 제 1 단계와,
    상기 분석된 문장에 출현하는 각각의 용언별 필수 성분을 파악하여 문장성분의 생략이 판단되면, 상기 입력된 문장내에서 생략된 성분의 복원후보들을 검출하는 제 2 단계와,
    상기 생략후보 설정에 의해 생성된 용언별 생략 성분 후보 중 규칙화된 격틀 정보 및 통계 정보를 이용하여 실제 복원 후보를 결정하여, 생략 성분이 복원된 문장을 완성하는 제 3 단계를 포함하는 것을 특징으로 하는 생략된 문장성분 복원방법.
  3. 제 2 항에 있어서, 상기 제 1 단계는
    생략된 문장 성분이 포함된 문장에 대하여 품사 태깅, 개체명 인식, 어휘의미 태깅 과정 중 적어도 하나 이상의 과정을 순차적으로 수행하는 단계와,
    상기 적어도 하나 이상의 과정을 거친 문장에 기 정의된 문법을 대조하면서 문장의 구조를 분석하는 단계를 포함하는 것을 특징으로 하는 생략된 문장성분 복원방법.
  4. 제 2 항에 있어서, 상기 문장의 구조는
    주어, 목적어, 보어 중 어느 하나로 이루어지는 문장 성분과, 명사절, 형용사절 중 어느 하나로 이루어지는 절의 종류와, 문장과 문장, 절과 절 또는 문장과 절간의 연결 관계를 나타내는 연결 성분 중 적어도 어느 하나로 이루어지는 것을 특징으로 하는 생략된 문장성분 복원방법.
  5. 제 2 항에 있어서, 상기 제 2 단계는
    상기 구조 분석된 문장에 출현하는 각각의 용언별 필수성분을 파악하는 단계와,
    상기 파악된 용언별 필수성분 중 상기 문장내에 출현하는 용언의 모든 주어들을 상기 주어가 존재하지 않는 용언의 주어에 대한 복원 후보로 설정하는 단계와,
    상기 파악된 용언별 필수성분 중 상기 문장내에 출현하는 용언의 모든 목적 어들을 상기 목적어가 존재하지 않는 용언의 목적어에 대한 복원 후보로 설정하는 단계를 포함하는 것을 특징으로 하는 생략된 문장성분 복원방법.
  6. 제 5 항에 있어서,
    상기 설정된 목적어의 복원후보는 기 저장된 자/타동사 사전을 이용하여 해당 용언이 타동사로 판단된 경우에만 해당 용언의 목적어에 따른 복원후보로 설정하는 것을 특징으로 하는 생략된 문장성분 복원방법.
  7. 제 2 항에 있어서, 상기 제 3 단계는
    상기 생성된 용언별 생략 성분의 복원후보들이 입력되면, 상기 생략 성분의 복원후보들이 주어인지 목적어 인지를 판단하는 판단 단계와,
    상기 후보가 주어로 판단되면, 생략성분 후보의 규칙화된 의미 정보를 이용하여 의미 정보를 갖는 문장 성분이 특정 용언의 주어 생략 성분 후보이면 생략된 문장에 해당 후보를 주어로 복원하는 제 1 복원 단계와,
    상기 후보가 주어로 판단되는 경우이면서, 상기 규칙화된 의미 정보로 복원 여부가 결정되지 않는 생략 성분 후보로 판단되거나, 또는 상기 후보가 목적어로 판단되면 미리 정의되어 있는 규칙화된 격틀에 매칭을 수행하고, 상기 매칭 결과 매칭된 격틀을 검출하여 복원하는 제 2 복원 단계와,
    상기 복원된 문장에 기 정의된 통계정보를 적용하여 산출되는 수치적 통계를 이용하여 이미 복원 대상으로 선정된 문장 성분을 재검증하는 재검증 단계를 포함 하여 이루어지는 것을 특징으로 하는 생략된 문장성분 복원방법.
  8. 제 7 항에 있어서
    상기 제 2 복원 단계에서 상기 검출은 생략된 주어나 목적어를 제외한 동일한 격틀을 검출하는 것을 특징으로 하는 생략된 문장성분 복원방법.
  9. 제 7 항에 있어서,
    상기 통계 정보는 생략된 문장이 복원되지 않을 때, 주어로 복원될 때, 목적어로 복원될 때의 경우를 수치적 통계로 각각 0 ~ 1 사이의 값(score)으로 표기되는 것을 특징으로 하는 생략된 문장성분 복원방법.
  10. 제 7 항에 있어서, 상기 재검증 단계는
    상기 문장 구조 분석을 통한 복원 및 격틀 매칭을 통한 복원이 상기 통계정보를 통한 검증과 동일한지를 판단하는 단계와,
    상기 판단 결과 동일하면 상기 문장 구조 분석을 통한 복원 및 격틀 매칭을 통해 복원된 문장을 그대로 유지하는 단계와,
    상기 판단 결과 동일하지 않다면, 상기 문장 구조 분석을 통한 복원 및 격틀 매칭을 통해 복원된 후보를 상기 통계정보에서 정의된 후보로 변경하여 복원하는 단계로 이루어지는 것을 특징으로 하는 생략된 문장성분 복원방법.
  11. 제 7 항에 있어서, 상기 재검증 단계는
    상기 통계정보를 통한 검증을 위해, 1)복원되지 않을 때, 2)주어로 복원될 때 및 3)목적어로 복원될 때를 통계정보에 적용해서 산출되는 값의 경계(threshold) 값을 각각 사용자가 임의로 미리 정의하는 단계와,
    상기 복원된 후보가 상기 통계정보의 적용에서 산출된 수치적 통계가 상기 경계(threshold)값을 넘지 못할 후보이면, 상기 통계정보에서 추천하는 후보를 최종 복원할 대상으로 선정하여 복원하는 단계와,
    상기 복원된 후보가 상기 통계정보의 적용에서 산출된 수치적 통계가 상기 경계(threshold)값 이하를 보이지 않는다면 앞에서 복원된 후보를 그대로 유지하는 단계를 포함하여 이루어지는 것을 특징으로 하는 생략된 문장성분 복원방법.
  12. 제 7 항에 있어서,
    상기 통계정보는 어휘자질(lexical feature), 품사자질(POS feature), 의미자질, 구조분석 자질, 복합자질 중 적어도 어느 하나 이상을 이용하는 것을 특징으로 하는 생략된 문장성분 복원방법.
KR1020050093880A 2005-10-06 2005-10-06 생략된 문장성분 복원 장치 및 방법 KR100641053B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050093880A KR100641053B1 (ko) 2005-10-06 2005-10-06 생략된 문장성분 복원 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050093880A KR100641053B1 (ko) 2005-10-06 2005-10-06 생략된 문장성분 복원 장치 및 방법

Publications (1)

Publication Number Publication Date
KR100641053B1 true KR100641053B1 (ko) 2006-11-02

Family

ID=37649815

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050093880A KR100641053B1 (ko) 2005-10-06 2005-10-06 생략된 문장성분 복원 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100641053B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100725723B1 (ko) * 2005-12-09 2007-06-08 한국전자통신연구원 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
KR100805191B1 (ko) 2006-09-20 2008-02-21 한국전자통신연구원 한국어 문장에서의 생략 성분 복원 방법 및 장치
KR100918842B1 (ko) * 2007-12-14 2009-09-28 한국전자통신연구원 대용어 참조해결 장치 및 그 방법
KR101104114B1 (ko) 2009-12-03 2012-01-13 한국과학기술정보연구원 대용어 참조해소 시스템 및 대용어 참조해소 방법
KR101983477B1 (ko) * 2017-11-28 2019-05-29 한국과학기술원 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
KR20190064910A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법
CN111858894A (zh) * 2020-07-29 2020-10-30 网易(杭州)网络有限公司 语义缺失的识别方法及装置、电子设备、存储介质
KR20210069298A (ko) 2019-12-03 2021-06-11 주식회사 엘지유플러스 대화 분절 문장의 복원을 위한 장치 및 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100725723B1 (ko) * 2005-12-09 2007-06-08 한국전자통신연구원 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
KR100805191B1 (ko) 2006-09-20 2008-02-21 한국전자통신연구원 한국어 문장에서의 생략 성분 복원 방법 및 장치
KR100918842B1 (ko) * 2007-12-14 2009-09-28 한국전자통신연구원 대용어 참조해결 장치 및 그 방법
KR101104114B1 (ko) 2009-12-03 2012-01-13 한국과학기술정보연구원 대용어 참조해소 시스템 및 대용어 참조해소 방법
KR101983477B1 (ko) * 2017-11-28 2019-05-29 한국과학기술원 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
KR20190064910A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법
KR102157390B1 (ko) * 2017-12-01 2020-09-18 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법
KR20210069298A (ko) 2019-12-03 2021-06-11 주식회사 엘지유플러스 대화 분절 문장의 복원을 위한 장치 및 방법
CN111858894A (zh) * 2020-07-29 2020-10-30 网易(杭州)网络有限公司 语义缺失的识别方法及装置、电子设备、存储介质
CN111858894B (zh) * 2020-07-29 2024-06-04 网易(杭州)网络有限公司 语义缺失的识别方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
KR100641053B1 (ko) 생략된 문장성분 복원 장치 및 방법
US20090192787A1 (en) Grammer checker
Chodorow et al. An unsupervised method for detecting grammatical errors
Chen et al. Language specific issue and feature exploration in Chinese event extraction
EP2664997B1 (en) System and method for resolving named entity coreference
Yeniterzi Exploiting morphology in Turkish named entity recognition system
Kwankajornkiet et al. Automatic multiple-choice question generation from Thai text
Koyama et al. Construction of an evaluation corpus for grammatical error correction for learners of Japanese as a second language
Muller et al. Annotating and measuring temporal relations in texts
Mudge The design of a proofreading software service
Kalpakchi et al. Quinductor: a multilingual data-driven method for generating reading-comprehension questions using Universal Dependencies
Hulden et al. Boosting statistical tagger accuracy with simple rule-based grammars.
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
KR20190021015A (ko) 패러프레이징을 이용한 감정 사전 구축 및 이를 이용한 텍스트 상의 감정 구조 인식 시스템 및 방법
Puertas et al. Phonetic detection for hate speech spreaders on Twitter
Naidenova et al. An analysis of plane task text ellipticity and the possibility of ellipses reconstructing based on cognitive modelling geometric objects and actions
Sunitha A hybrid parts of speech tagger for Malayalam language
Olayiwola et al. Development of an automatic grammar checker for Yorùbá word processing using Government and Binding Theory
Bopche et al. Grammar checking system using rule based morphological process for an Indian language
Kinoshita et al. CoGrOO: a Brazilian-Portuguese Grammar Checker based on the CETENFOLHA Corpus.
Torunoglu-Selamet et al. Simplification of Turkish sentences
Omri et al. The role of temporal inferences in understanding Arabic text
Kumar et al. Survey on grammar checking and correction using deep learning for indian languages
Goswami et al. A knowledge based approach for long answer evaluation
Chen et al. Using a smoothing maximum entropy model for Chinese nominal entity tagging

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121011

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130923

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140926

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150925

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee