KR20040101678A - 복합 형태소 분석 장치 및 방법 - Google Patents

복합 형태소 분석 장치 및 방법 Download PDF

Info

Publication number
KR20040101678A
KR20040101678A KR1020030033372A KR20030033372A KR20040101678A KR 20040101678 A KR20040101678 A KR 20040101678A KR 1020030033372 A KR1020030033372 A KR 1020030033372A KR 20030033372 A KR20030033372 A KR 20030033372A KR 20040101678 A KR20040101678 A KR 20040101678A
Authority
KR
South Korea
Prior art keywords
analysis
morpheme
word
complex
unit
Prior art date
Application number
KR1020030033372A
Other languages
English (en)
Other versions
KR100481598B1 (ko
Inventor
양성일
박상규
최승권
김영길
서영애
홍문표
김창현
류철
이기영
노윤형
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2003-0033372A priority Critical patent/KR100481598B1/ko
Publication of KR20040101678A publication Critical patent/KR20040101678A/ko
Application granted granted Critical
Publication of KR100481598B1 publication Critical patent/KR100481598B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 다 어절로 이루어진 복합 형태소를 분석하고자 하는 경우 어절의 경계를 결정하기 위한 어절 정보를 사용하지 않고 이를 대신하여 형태소 분석을 위한 분석 단위를 음절이나 음소에서 형태소 단위로 향상시켜 복합 형태소를 분석하는 장치 및 방법에 관한 것이다. 본 발명은 분석된 형태소 결과가 띄어쓰기에 의해 어절 단위로 구분되어 있어서도, 인접한 어절의 다른 형태소와 연결하여 묶였을 때 독립된 품사 역할을 수행할 수 있는 복합 명사, 보조용언과 같은 형태소를 복합 형태소로 정의하고, 띄어쓰기 정보와 어절 내 형태소를 이용한 효율적인 복합 형태소 분석 방법을 제공한다.

Description

복합 형태소 분석 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING COMPOUNDED MORPHEME}
본 발명은 복합 형태소 분석 장치 및 방법에 관한 것으로, 특히, 한국어 형태소 분석 장치에서 다 어절로 이루어진 복합 형태소를 분석하고자 하는 경우 어절의 경계를 결정하기 위한 어절 정보를 사용하지 않고 이를 대신하여 형태소 분석을 위한 분석 단위를 음절이나 음소에서 형태소 단위로 향상시켜 복합 형태소를 분석하는 장치 및 방법에 관한 것이다.
종래의 형태소 분석 장치에서의 복합 형태소 분석 방법은 분리된 어절을 결합하기 위하여 어절의 가장 왼쪽이나 오른쪽의 음절이나 음소 정보를 연결 정보로 하여 어절을 임의적으로 연결한 뒤 음절이나 자소 분석에 의한 일반 형태소 분석 방법을 사용하였다.
이와 같은 일반 형태소 분석 방법은 어절을 그 입력 대상으로 하여 수행되며, 연결 정보에 의해 연결된 다 어절 정보는 한 어절처럼 해석되어 분석되며, 복합 형태소 역시 일반 형태소와 같은 형태로 자소나 음절단위 트라이 인덱스 구축 사전에 등록되어 처리된다.
이와 같은 종래의 기술에 있어서는 사실상 복합 형태소를 처리하는 방법이 따로 존재하지 않았기 때문에, 연결정보의 모호성에 따른 과다한 어절의 연결과 긴 어절의 처리에 대해 이루어져야 하는 음절과 자소 기반 분석 방법, 형태소 사전에 등록된 복합 형태소의 증가로 처리 속도가 저하되고 메모리의 사용량이 증가한다.
본 발명은 상술한 결점을 해결하기 위하여 안출한 것으로, 형태소 사전의 구축과 분석 방법을 2 단계로 분리하여 먼저 수행되는 기존 음절이나 자소 기반 형태소 분석과 병행하여 추가적으로 복합 형태소를 분석할 수 있는 단계를 도입하며,복합 형태소를 위한 사전 등록을 기존 형태소 분석 사전 형식과 분리하여 기본 형태소 단위의 트라이 사전 인덱스 구축에 의한 복합 형태소 연결 정보의 사용을 배제하고, 반대로 띄어쓰기 정보를 추가로 구축하여 분석 정확성을 높일 수 있는 부가 정보로 활용하는 복합 형태소 분석 장치 및 방법을 제공하는 데 그 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명은, 한국어 문장의 어절 단위 형태소 분석을 사전에 수행하여 상기 어절 단위 형태소 분석 결과를 저장한 기분석 사전 데이터베이스를 이용하는 한국어 문장의 복합 형태소를 분석하는 방법에 있어서, 문장을 입력받아 정규화하고 상기 기분석 사전 데이터베이스를 이용하여 어절 내 분석 적용여부를 결정하는 전처리 단계와, 상기 전처리 단계에서 어절 내 분석의 적용이 결정된 경우에 어절 내 결합 규칙과 분석 알고리즘을 이용하여 어절 내 형태소 분석을 수행하는 단계와, 띄어쓰기 정보를 사용하여 어절 외 형태소 분석을 수행하는 단계와, 문맥 태깅 데이터와 어휘 태깅 데이터를 사용하여 형태소 태깅을 수행하는 단계와를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 한국어 문장의 복합 형태소를 분석하는 장치에 있어서, 한국어 문장의 어절 단위 형태소 분석을 사전에 수행하여 상기 어절 단위 형태소 분석 결과를 저장한 기분석 사전 데이터베이스와, 문장을 입력받아 정규화하고 상기 기분석 사전 데이터베이스를 이용하여 어절 내 분석 적용여부를 결정하는 전처리부와, 상기 전처리부에서 상기 입력 문장에 대한 어절 내 분석의 적용이 결정된 경우에 어절 내 결합 규칙과 분석 알고리즘을 이용하여 어절 내 형태소 분석을 수행하는 어절 내 형태소 분석부와, 상기 입력 문장에 대해 띄어쓰기 정보를 사용하여 어절 외 형태소 분석을 수행하는 어절 외 형태소 분석부와, 상기 입력 문장에 대해 문맥 태깅 데이터와 어휘 태깅 데이터를 사용하여 형태소 태깅을 수행하는 품사 태깅부와를 포함하는 것을 특징으로 한다.
도 1은 본 발명의 바람직한 실시예에 따른 복합 형태소 분석 방법을 나타낸 흐름도,
도 2는 본 발명의 바람직한 실시예에 따른 복합 형태소 분석 장치의 구성을 나타낸 블록도.
<도면의 주요 부분에 대한 부호의 설명>
200 : 형태소 분석부 202 : 형태소 전처리부
204 : 어절 내 형태소 분석부 206 : 어절 외 형태소 분석부
208 : 품사 태깅부 210 : 기본 형태소 사전
212 : 결합 규칙 사전
214 : 복합 형태소 사전 및 띄어쓰기 정보 사전
216 : 명사구 묶음 생성부
본 발명의 상세한 구성을 설명하기에 앞서 본 발명의 기술에 사용되는 용어를 정의하면 다음과 같다.
먼저, 복합 형태소라 함은 '한국+통신+심의+위원'와 같은 복합 명사나 'ㄹ+수+있' 과 같은 보조 용언, '석회+질'과 같은 접사에 의한 파생어와 같이 내부적으로 각각이 분리되어 형태소 분석 결과가 될 수 있으나, 형태소 분석 결과가 같이 모여서 자동번역이나 구조 분석을 위해 독립적으로 문법적 역할을 할 수 있는 단위 품사를 복합 형태소라 한다.
기본 형태소라 함은 복합 명사를 이루는 단위 명사들과 접사, 어미 등 일반 형태소 분석에 의해 세부적으로 결정된 각각의 단위 품사로서 복합 형태소가 아닌 독립적으로 문법적 역할을 수행할 수 있는 품사를 기본 형태소라 한다.
또한, 띄어쓰기 정보라 함은 한국어 문장에서 공백에 의해 한국어 문장의 어절을 구분하는 정보를 말한다.
한편, 트라이 인덱스 구조라 함은 고속 사전 검색을 위한 검색 인덱스 구축 방법으로서, 한국어에 관한 검색 트라이는 자소 단위를 기본으로 한다. 예를 들어 "한국"이란 단어를 위한 검색 트라이는 "ㅎ→ㅏ→ㄴ→ㄱ→ㅜ→ㄱ"으로 "한국"이란단어를 구성하는 자소를 순서대로 검색할 수 있는 검색 인덱스이다.
본 발명에 따른 한국어 복합 형태소 분석 방법에는 사전 구축된 정보, 즉, 형태소 분석 사전과 형태소 접속 규칙이 사용된다. 형태소 분석 사전은 사전 엔트리의 키워드로 어휘정보를 사용하며, 띄어쓰기 정보와 접속 정보를 갖는다. 형태소 접속 규칙은 사전에 명기된 접속 정보를 비교하여 두 형태소가 서로 접속할 수 있는지 여부를 판정하기 위해 사용된다.
형태소 사전은 어휘를 키워드로 하여 가능한 형태소 정보를 나열한다. 형태소 정보에는 접속정보, 품사정보, 어휘빈도, 대표형, 어휘빈도레벨, 띄어쓰기정보 등이 포함된다. 이러한 형태소 등록 정보는 키워드와 함께 어절 내 형태소간 접속을 표기하기 위해 6자리 수로 나타내는 접속 정보와 키워드의 품사를 나타내는 품사 인덱스, 그리고 태깅을 위한 어휘 빈도수를 나타낸다. 아울러 조사나 어미 등의 형태를 대표형으로 표기할 수 있는 형태소의 대표형 정보를 등록한다. 대표형 정보는 예를 들어 "을/를"과 같은 목적격 조사의 대표형을 "를"로 통일하여 대표 조사를 선정하거나, 용언의 원형을 분석하기 위해 사용한다. 어휘 빈도수와 함께 태깅시 사용하는 어휘의 빈도 레벨 정보와 띄어쓰기가 가능한 경우 입력되는 띄어쓰기 정보를 함께 등록한다.
예를 들어 "먹"이라는 키워드에 따른 사전의 내용은 아래와 같다. 아래의 형태소 사전 등록의 예에서 "먹"은 품사 인덱스 1로 표기되는 명사와 53으로 표기되는 동사를 함께 갖는 사전 엔트리임을 나타낸다. 이때 "먹"의 경우 띄어쓰기가 가능하지 않으므로 띄어쓰기 정보는 기입하지 않는다.
먹:
120022 1 28 먹 1
600014 53 1047 먹 1
띄어쓰기 정보는 형태소 분석 사전에 등재되어 있는 어휘가 어절로 나뉘어 문장에서 사용될 수 있는 복합명사나 보조용언과 같은 복합 형태소인 경우 분석을 위해 사용되는 정보이다. 아래의 띄어쓰기 정보 등록의 예는 "ㄹ_수_있을" 가능형 보조용언으로 등재한 경우를 보여준다.
ㄹ수있 :
d01514 86 2781 ㄹ수있 1 ㄹ_수_있
"ㄹ수있"과 같은 보조용언은 "갈 수 있다", "볼 수 있다"와 같이 띄어쓰기가 가능하며, 띄어쓰기의 가능 조합 중 최대 띄어쓰기의 형태로 등록한다. 공백은 "_" 기호를 사용하여 구분한다.
한국어 형태소 분석을 위해 전체 품사 분류는 총 138개의 세부 품사 체계로 나뉘어져 있다. 품사 체계는 대분류, 중분류, 소분류의 총 3단계로 나누어져 있다. 예를 들어 전성사의 경우 용언-전성사-긍정지정형전성사의 3단계 품사 분류를 사용한다. 표 1은 품사 인덱스 명칭의 예를 보여준다. 접속 규칙을 위한 접속 정보는 좌접속 코드(417개)와 우접속 코드(177개)로 나뉘어 2차원 배열에 의한 상호 접속 규칙을 등록한다. 접속 정보는 유종성, 무종성 구분에 의한 접속 정보나 동사 어간의 불규칙 변환에 대한 정보를 갖는다.
표 1. 품사 인덱스 명칭
품사 인덱스 품사명
0123...137 인명고유명사지명고유명사기타고유명사용언불가능보통명사...감탄사
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세히 설명하면 다음과 같다.
도 1은 본 발명의 바람직한 실시예에 따른 복합 형태소 분석 방법을 나타내는 흐름도이다. 도 1에 도시된 바와 같이, 본 발명에 따른 복합 형태소 분석 방법은 입력 문장을 받아 문장 내 특수 기호 등을 처리하고 기분석 사전을 적용하는 전처리 단계(S102), 결합 규칙과 분석 알고리즘에 의해 어절내 형태소 분석을 수행하는 어절 내 분석 단계(S104), 그리고 띄어쓰기 정보를 사용하여 복합 형태소 분석을 수행하는 복합 형태소 분석 단계(S106), 그리고 마지막으로 문맥 태깅 데이터와 어휘 태깅 데이터를 사용하는 형태소 태깅 단계(S108)를 포함한다.
본 발명에 따른 방법에 있어서, 어절 단위 형태소 분석은 미리 대용량의 한국어 말뭉치를 대상으로 분석결과를 수행하여 별도의 데이터 베이스로 활용할 수 있다. 본 시스템에서는 어절 단위 분석 결과를 저장하여 입력 문장에서 이미 분석된 어절이 등장하는 경우 어절 내 분석을 거치지 않고 곧장 어절 외 형태소 분석을 수행할 수 있도록 기분석 사전을 도입한다. 기분석 사전을 구성하는 엔트리는 따옴표, 쉼표와 같은 기호를 제외한 어절의 어휘 정보만을 사용하여 구축되며, 어절 내 태깅에 의한 우선 순위 정보를 갖는다.
따라서, 전처리 단계(S102)에서는 입력 문장을 받아 문장 내 발생되는 특수 기호 등을 처리하고 중복되는 공백 문자나 줄 넘김 기호 등 공백을 정규화한 입력 문장으로 가공한다. 다음으로 기분석 사전에 등록된 어절 정보가 입력 문장에 등장하였는지를 판단하여 대상 어절에 대해 어절 내 분석 단계(S104)를 적용할 것인지를 결정한다.
다음으로 어절 내 형태소 분석 단계(S104)가 수행된다. 어절 내 형태소 분석 단계(S104)는 크게 3 단계로 나누어 진다. 먼저, 1단계로 대상이 되는 입력 어절에 대해 조합형 코드 변환을 수행한다. 2 단계로 변환된 조합형 코드에 대해 음소 단위 트라이 구조의 형태소 사전을 이용하여 분석 알고리즘을 수행한다. 마지막으로, 분석 알고리즘에 의해 생성된 형태소 후보들은 어절 내 결합 규칙을 사용하여 규칙에 위배된 형태소 부호자를 삭제한다.
어절 외 형태소 분석 단계(S106)에서는 앞서 생성된 어절 내 분석 후보자들을 묶어 등록된 띄어쓰기 정보와 맞는지 비교하여 복합 형태소로 분석될 수 있는지를 판단한다. 띄어쓰기 정보를 사용하여 문장의 띄어쓰기 처리를 함께 검사하며, 모든 정보에 부합되어 새롭게 등록되는 복합 품사는 다시 주위 형태소와 결합 규칙을 검사하여 후보로 등록될 수 있는지 최종 판단된다.
마지막으로, 형태소 태깅 단계(S108)에서는 어절 외 형태소 분석 단계(S106)에서 새로 등록된 후보자와 어절 내 형태소 분석 단계(S104)에서 생성된 후보자에 태깅 가중치를 새로 부여하여 우선 순위를 재조정한다.
상기 어절 내 형태소 분석 단계(S104) 및 어절 외 형태소 분석 단계(S106)를한국어 문장에 맞도록 보다 상세하게 설명하면 다음과 같다. 이때, 전처리 단계(S102)가 적용되지 않은 경우의 분석 예를 중심으로 설명한다.
먼저, 어절 내 형태소 분석 단계(S104)에서는 한국어 문장을 받아 음절과 음소 단위 트라이로 구성된 1차 기본 형태소 사전을 참조하여 형태소 분석을 수행한다. 이와 같은 형태소 분석의 결과는 명사(n), 조사(p), 동사(v), 어미(e), 접사(c) 등의 형태소 분석에 의해 결정된 품사 태그 정보를 보여줄 수 있다.
어절 외 형태소 분석 단계(S106)는 복합 형태소 분석을 위한 것으로, 어절 내 형태소 분석 단계(S104)의 형태소 분석 결과를 받아 기본 형태소를 트라이 인덱스로 구성된 2차 복합 형태소 사전을 참조하여 형태소 분석을 수행한다.
예로, "영상등급 심의위원회"라는 복합명사를 분석하기 위한 복합 형태소 사전은 복합명사를 이루는 기본 형태소 각각을 트라이 인덱스 구조로 갖게 되어 "영상→등급→심의→위원→회"를 최종 인덱스 구조로 생성하게 된다. 마지막 트라이 인덱스 노드는 "영상등급 심의위원회"라는 명사에 대한 형태소 분석 정보로서 좌우 결합 정보와 품사 태깅 정보에 추가하여 다 어절 처리를 위한 띄어쓰기 정보 "영상_등급_심의_위원회"를 갖게 된다. 여기에서 사용되는 띄어쓰기 정보는 복합 형태소가 취할 수 있는 가능한 띄어쓰기의 형태를 나타내는 것으로, 한국어 문장에서 복합명사의 입력은 "영상등급_심의위원회"의 형태로 띄어쓰기가 입력되었으므로, "영상_등급_심의_위원회"라는 띄어쓰기 정보에 의해 복합 형태소로 분석될 수 있슴이 확인된다.
1차 기본 형태소 사전 구축 형식 1차 사전 구축 예
1. Key : 키워드2. Trie Index : 자소/음절 단위 인덱스3. Content : 접속 정보, 품사, 어휘빈도, 대표형, 어휘레벨 1. Key : 영상2. Trie Index : ㅇ→ㅕ→ㅇ→ㅅ→ㅏ→ㅇ3. Content : 120012, n, 231, 영상, 1
2 단계 분리 형태소 사전은 표 1과 같은 1차 사전과 표 2와 같은 2차 사전으로 나뉘어 구축할 수 있다. 1차 사전의 내용은 띄어쓰기가 되지 않는 단위 형태소를 기본 형태소로 정의하여 등록하도록 한다. 기본 형태소 사전(도 2의 210 참조)의 구축 형식은 표 1의 형식에 의해 구축된다. 예로, "영상"이란 명사에 대해 구축되는 1차 사전의 예는 표 1의 오른쪽 열과 같이 구축된다. 이때, 사전에 저장되는 내용은 형태소 분석을 위한 좌우 접속 정보와, 분석 결과에 의해 결정되는 품사 정보, 품사 태깅의 우선 순위를 결정하기 위해 미리 수집된 해당 형태소의 발생 빈도수, 형태소의 대표 어휘소를 기술하는 대표형, 형태소의 사용에 대한 어휘 레벨을 포함한다. 대표형의 경우는 문법적 변형을 갖는 형태소에 대해 원형 형태소를 지정하여 사용하는 것으로 예로, "새롭다"의 동사 변형에 의해 사용되는 "새로운"의 입력에서 'ㅂ-불규칙' 변환에 따른 동사 사용으로 "새로우"를 동사 어간으로 분석 할수 있다. 이때 사전에 등록되는 단어 "새로우"는 대표형으로 "새롭"이라는 원형을 갖게 된다.
2차 복합 형태소 사전 구축 형식 2차 사전 구축 예
1. Key : 키워드2. Trie Index : 기본형태소 단위 인덱스3. Content : 접속 정보, 품사, 어휘빈도, 대표형, 어휘레벨, 띄어쓰기 정보 1. Key : ㄹ수있2. Trie Index : ㄹ→수→있3. Content : d01210, e, 1084, ㄹ수있, 1, ㄹ_수_있
2차 사전의 내용은 띄어쓰기가 가능하며, 기본 형태소의 모음으로 이루어지나, 구조분석, 기계 번역 등 응용 시스템의 요구에 따라 문법적으로 단위 형태소로취급될 수 있는 복합 명사, 보조용언, 접사 표현 합성어 등을 복합 형태소로 정의하여 등록하도록 한다. 복합 형태소 사전의 구축 형식은 표 2의 형식에 의해 구축된다. 예로, "ㄹ수있"이란 보조용언에 대해 구축되는 2차 사전의 예는 표 2의 오른쪽 열과 같이 구축된다. 이때, 사전에 저장되는 내용은 복합 형태소 분석이 끝난 뒤 검사할수 있는 좌우 접속 정보와, 분석 결과에 의해 결정되는 품사 정보, 품사 태깅의 우선 순위를 결정하는 해당 형태소의 발생 빈도수, 형태소의 대표 어휘소를 기술하는 대표형, 형태소의 사용에 대한 어휘 레벨을 포함하며, 추가적으로 띄어쓰기가 가능한 형태를 기술하는 띄어쓰기 정보를 추가한다. 띄어쓰기의 경우는 공백으로 어절 구분을 할 수 있는 가능한 모든 경우의 최장값을 이용하여 공백을 '_' 문자를 사용하여 구분한다. 예로, "ㄹ수있"의 보조용언은 입력문에서 "할 수 있다"와 같은 형태로 나타나며, 이 경우 기본 형태소 'ㄹ', '수', '있'은 각각이 모두 공백으로 어절 분리가 된 경우이다.
도 2는 본 발명의 바람직한 실시예에 따른 복합 형태소 분석 장치의 구성을 나타낸 블록도로, 형태소 분석부(200), 기본 형태소 사전(210), 결합 규칙 사전(212), 복합 형태소 사전 및 띄어쓰기 정보 사전(214), 및 명사구 묶음 생성부(216)로 구성된다. 상기 형태소 분석부(200)는 형태소 전처리부(202), 어절 내 형태소 분석부(204), 어절 외 형태소 분석부(206), 및 품사 태깅부(208)로 이루어진다. 여기서, 형태소 전처리부(202), 어절 내 형태소 분석부(204), 어절 외 형태소 분석부(206), 및 품사 태깅부(208)는 앞서 설명한 본 발명에 따른 복합 형태소 분석 장치의 각 단계(S102 내지 S108)에 대응한다.
동 도면에 있어서, 형태소 분석부(200) 내의 형태소 전처리부(202)는 자연어 형태의 한국어 문장을 텍스트 스트링의 형태로 입력받아 한국어 문장 중의 일반 기호와 공백 정보 등을 가공하여 어절을 구분하고 기분석 사전을 참조하는 등 분석 엔진에 필요한 우선 분석을 수행한다. 상기 기분석 사전을 참조하여 기분석 사전에 어절 내 형태소 분석 결과가 이미 등록되어 있을 경우 어절 내 형태소 분석 단계를 거치지 않고 곧장 어절 외 형태소 분석 단계로 넘어가도록 하여 형태소 분석 속도를 향상시킬 수 있다.
어절 내 형태소 분석부(204)는 형태소 전처리부(202)에 의해 공백과 기호로 구분된 어절을 입력 단위로 하여 기본 형태소 사전(210)과 결합 규칙 사전(212)을 사용하여 음절 및 자소 기반의 한국어 형태소 분석을 수행한다. 상기 기본 형태소 사전(210)은 어절 단위 입력문을 처리하므로 띄어쓰기 정보가 포함되지 않은 형태소를 음절이나 자소 단위 트라이 인덱스로 구성되어진 사전의 형태로 등록되어진 것을 사용한다.
어절 외 형태소 분석부(206)는 어절 내 형태소 분석부(204)에서 분석된 어절 단위 분석 결과를 입력으로 하여 복합 형태소 사전 및 띄어쓰기 정보 사전(214)을 사용하여 복합 형태소의 분석과 띄어쓰기에 의한 분석 결과 검증을 수행한다. 상기 복합 형태소 사전 및 띄어쓰기 정보 사전(214)은 복합 형태소를 이루는 기본 형태소를 이용하여 사전 검색을 위한 트라이 인덱스를 구축한다. 따라서, 복합 형태소 사전의 트라이 인덱스는 기본 형태소 사전(210)과는 다르게 형태소의 음절이나 자소가 아닌 복합 형태소를 이루는 기본 형태소 자체를 트라이 인덱스로 사용한다.복합 형태소를 분석하기 위한 어절의 경계는 기본 형태소가 연결된 트라이 인덱스 연결에 의해 결정되며, 복합 형태소를 이룰 수 있는 최적 어절 길이를 판단할 수 있게 된다.
품사 태깅부(208)는 어절 외 형태소 분석부(206)로부터 복합 형태소의 분석이 된 결과를 입력으로 받아 전체 한국어 문장의 문맥에 따른 형태소들의 품사 우선 순위를 선정해서 한국어 문장에 대한 최적해를 선택하여 형태소 분석 결과를 최종적으로 생성한다. 이때 품사 태깅부(208)는 미리 품사가 태깅된 학습 데이터에서 수집된 태깅 데이터를 사용하여 한국어 문장에서 선택될 수 있는 품사의 최적해를 선택한다.
명사구 묶음 생성부(216)는 품사 태깅부(208)로부터 제공되는 형태소 분석 결과를 구조 분석에서 사용되도록 하기 위해 지시 관형사, 혹은 관형격 조사의 수식 처리 등을 수행한다.
1차 기본 형태소 사전 구축 형식 1차 사전 구축 예
1. Key : 키워드2. Trie Index : 자소/음절 단위 인덱스3. Content : 접속 정보, 품사, 어휘빈도, 대표형, 어휘레벨 1. Key : 영상2. Trie Index : ㅇ→ㅕ→ㅇ→ㅅ→ㅏ→ㅇ3. Content : 120012, n, 231, 영상, 1
2차 복합 형태소 사전 구축 형식 2차 사전 구축 예
1. Key : 키워드2. Trie Index : 기본형태소 단위 인덱스3. Content : 접속 정보, 품사, 어휘빈도, 대표형, 어휘레벨, 띄어쓰기 정보 1. Key : ㄹ수있2. Trie Index : ㄹ→수→있3. Content : d01210, e, 1084, ㄹ수있, 1, ㄹ_수_있
이상에서 설명한 바와 같이, 본 발명은 분석된 형태소 결과가 띄어쓰기에 의해 어절 단위로 구분되어 있어서도, 인접한 어절의 다른 형태소와 연결하여 묶였을 때 독립된 품사 역할을 수행할 수 있는 복합 명사, 보조용언과 같은 형태소를 복합형태소로 정의하고, 띄어쓰기 정보와 어절 내 형태소를 이용한 효율적인 복합 형태소 분석 방법을 제공한다.
또한, 본 발명은 2 단계 분리 형태소 사전을 구축하여 사용하여, 복합 형태소를 분석하기 위한 2 단계 분석 방법을 취한다. 2차 형태소 사전은 구축시 트라이 인덱스를 형태소 단위로 구축하게 되며, 이에 따라 복합 형태소를 일반 형태소 사전에 구축하여 사용한 경우 보다 트라이 인덱스의 수를 감소시켜, 이에 따르는 검색 속도의 향상과 메모리의 절감 효과를 가져온다. 아울러 기본 형태소를 기반으로 하는 복합 형태소의 분석 방법과 띄어쓰기 정보의 사용에 의한 정확률 향상 효과가 있다.

Claims (8)

  1. 한국어 문장의 어절 단위 형태소 분석을 사전에 수행하여 상기 어절 단위 형태소 분석 결과를 저장한 기분석 사전 데이터베이스를 이용하는 한국어 문장의 복합 형태소를 분석하는 방법에 있어서,
    문장을 입력받아 정규화하고 상기 기분석 사전 데이터베이스를 이용하여 어절 내 분석 적용여부를 결정하는 전처리 단계와,
    상기 전처리 단계에서 어절 내 분석의 적용이 결정된 경우에 어절 내 결합 규칙과 분석 알고리즘을 이용하여 어절 내 형태소 분석을 수행하는 단계와,
    띄어쓰기 정보를 사용하여 어절 외 형태소 분석을 수행하는 단계와,
    문맥 태깅 데이터와 어휘 태깅 데이터를 사용하여 형태소 태깅을 수행하는 단계와
    를 포함하는 복합 형태소 분석 방법.
  2. 제 1 항의 방법에 있어서,
    상기 전처리 단계에서 상기 기분석 사전 데이터베이스에 저장된 어절이 상기 입력 문장에 포함되지 않는 경우에 상기 어절에 대해 상기 어절 내 형태소 분석 단계를 적용하도록 하는 복합 형태소 분석 방법.
  3. 제 2 항의 방법에 있어서,
    상기 전처리 단계는 상기 입력 문장에 포함되어 있는 특수기호를 처리하고 중복된 공백 문자나 줄넘김 기호를 정규화하는 복합 형태소 분석 방법.
  4. 제 2 항의 방법에 있어서,
    상기 전처리 단계는 상기 입력 문장에 포함되어 있는 특수기호를 처리하고 중복된 공백 문자나 줄넘김 기호를 정규화하는 복합 형태소 분석 방법.
  5. 제 1 항의 방법에 있어서,
    상기 어절 내 형태소 분석 단계는
    분석 대상이 되는 어절에 대해 조합형 코드 변환을 수행하는 단계와,
    상기 변환된 조합형 코드에 대해 음소 단위 트라이 구조의 형태소 사전을 이용하여 상기 분석 알고리즘을 수행하는 단계와,
    상기 분석 알고리즘에 의해 생성된 형태소 후보들 중에서 상기 어절 내 결합 규칙에 위배된 형태소 후보를 삭제하는 단계와
    를 포함하는 복합 형태소 분석 방법.
  6. 제 5 항의 방법에 있어서,
    상기 어절 외 형태소 분석 단계는 상기 어절 내 형태소 분석 단계에서 생성된 상기 형태소 후보들을 결합하여 복합 형태소를 생성하며, 상기 복합 형태소가 상기 띄어쓰기 정보에 적합한지를 판단하여 복합 형태소 후보를 생성하는 복합 형태소 분석 방법.
  7. 제 6 항의 방법에 있어서,
    상기 형태소 태깅 단계는 상기 어절 외 형태소 분석 단계에서 생성된 상기 복합 형태소 후보들과 상기 어절 내 형태소 분석 단계에서 생성된 형태소 후보들에 태깅 가중치를 부여하여 상기 복합 형태소 후보들 간의 우선 순위를 재조정하는 복합 형태소 분석 방법.
  8. 한국어 문장의 복합 형태소를 분석하는 장치에 있어서,
    한국어 문장의 어절 단위 형태소 분석을 사전에 수행하여 상기 어절 단위 형태소 분석 결과를 저장한 기분석 사전 데이터베이스와,
    문장을 입력받아 정규화하고 상기 기분석 사전 데이터베이스를 이용하여 어절 내 분석 적용여부를 결정하는 전처리부와,
    상기 전처리부에서 상기 입력 문장에 대한 어절 내 분석의 적용이 결정된 경우에 어절 내 결합 규칙과 분석 알고리즘을 이용하여 어절 내 형태소 분석을 수행하는 어절 내 형태소 분석부와,
    상기 입력 문장에 대해 띄어쓰기 정보를 사용하여 어절 외 형태소 분석을 수행하는 어절 외 형태소 분석부와,
    상기 입력 문장에 대해 문맥 태깅 데이터와 어휘 태깅 데이터를 사용하여 형태소 태깅을 수행하는 품사 태깅부와
    를 포함하는 복합 형태소 분석 장치.
KR10-2003-0033372A 2003-05-26 2003-05-26 복합 형태소 분석 장치 및 방법 KR100481598B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2003-0033372A KR100481598B1 (ko) 2003-05-26 2003-05-26 복합 형태소 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0033372A KR100481598B1 (ko) 2003-05-26 2003-05-26 복합 형태소 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20040101678A true KR20040101678A (ko) 2004-12-03
KR100481598B1 KR100481598B1 (ko) 2005-04-08

Family

ID=37378331

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0033372A KR100481598B1 (ko) 2003-05-26 2003-05-26 복합 형태소 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100481598B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100617317B1 (ko) * 2004-12-15 2006-08-30 한국전자통신연구원 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
KR100835706B1 (ko) * 2007-07-09 2008-06-05 한국과학기술정보연구원 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
WO2009082115A1 (en) * 2007-12-20 2009-07-02 Korea Institute Of Science & Technology Information Korean morpheme analysis system and method using pre-analysis data
KR101365860B1 (ko) * 2009-04-29 2014-02-21 구글 인코포레이티드 짧은 관심 지점 명칭 생성
KR101497411B1 (ko) * 2008-09-09 2015-03-03 에스케이플래닛 주식회사 문체 변환 장치, 문체 변환 방법, 저장 매체, 자동 대화 서비스 시스템 및 방법
KR20190019683A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법
KR20190140668A (ko) * 2018-06-12 2019-12-20 (주)아이브릭스 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법
WO2020071666A1 (ko) * 2018-10-01 2020-04-09 주식회사 아카인텔리전스 빈도 테이블을 이용한 챗봇 발언 생성 방법
KR102640803B1 (ko) * 2023-09-01 2024-02-27 (주)유알피 사용자 사전 구축을 위한 딥러닝 기반 사용자 키워드 추천 방법
KR102640811B1 (ko) * 2023-09-01 2024-02-27 (주)유알피 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102291930B1 (ko) 2019-10-02 2021-08-23 (주)디앤아이파비스 복합 명사구를 포함하는 특허문서의 단어 세트 획득 방법 및 시스템
KR102263309B1 (ko) 2019-10-02 2021-06-10 (주)디앤아이파비스 이미지 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템
KR102255961B1 (ko) 2019-10-02 2021-05-25 (주)디앤아이파비스 오류 단어 수정을 통한 특허문서의 단어 세트 획득 방법 및 시스템
KR102255962B1 (ko) 2019-10-02 2021-05-25 (주)디앤아이파비스 템플릿 정보를 이용한 특허문서의 단어 세트 획득 방법 및 시스템
KR102297962B1 (ko) 2019-10-02 2021-09-03 (주)디앤아이파비스 특허문서의 단어 세트 의미 정보 획득 방법 및 시스템
KR102085214B1 (ko) 2019-10-02 2020-03-04 (주)디앤아이파비스 특허문서의 단어 세트 획득 방법 및 시스템
KR20210039899A (ko) 2020-02-06 2021-04-12 (주)디앤아이파비스 특허문서의 단어 세트 획득 방법 및 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
KR100304654B1 (ko) * 1993-11-30 2001-11-22 윤종용 한국어문서해석방법및장치
JPH11338863A (ja) * 1998-05-29 1999-12-10 Nippon Telegr & Teleph Corp <Ntt> 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
KR100282610B1 (ko) * 1998-09-30 2001-02-15 정선종 부분 문자열별 기분석에 기반한 한국어 형태소 분석장치 및 그방법
KR20000033993A (ko) * 1998-11-26 2000-06-15 정선종 워드프로세서의 형태소 정보를 이용한 문서 정렬장치 및 방법
KR20010057781A (ko) * 1999-12-23 2001-07-05 오길록 다중어 형태소 분석장치 및 그 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100617317B1 (ko) * 2004-12-15 2006-08-30 한국전자통신연구원 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
KR100835706B1 (ko) * 2007-07-09 2008-06-05 한국과학기술정보연구원 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
WO2009082115A1 (en) * 2007-12-20 2009-07-02 Korea Institute Of Science & Technology Information Korean morpheme analysis system and method using pre-analysis data
KR101497411B1 (ko) * 2008-09-09 2015-03-03 에스케이플래닛 주식회사 문체 변환 장치, 문체 변환 방법, 저장 매체, 자동 대화 서비스 시스템 및 방법
KR101365860B1 (ko) * 2009-04-29 2014-02-21 구글 인코포레이티드 짧은 관심 지점 명칭 생성
KR20190019683A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법
KR20190140668A (ko) * 2018-06-12 2019-12-20 (주)아이브릭스 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법
WO2020071666A1 (ko) * 2018-10-01 2020-04-09 주식회사 아카인텔리전스 빈도 테이블을 이용한 챗봇 발언 생성 방법
KR102640803B1 (ko) * 2023-09-01 2024-02-27 (주)유알피 사용자 사전 구축을 위한 딥러닝 기반 사용자 키워드 추천 방법
KR102640811B1 (ko) * 2023-09-01 2024-02-27 (주)유알피 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템

Also Published As

Publication number Publication date
KR100481598B1 (ko) 2005-04-08

Similar Documents

Publication Publication Date Title
US6721697B1 (en) Method and system for reducing lexical ambiguity
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
KR100853173B1 (ko) 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법
EP3267327A1 (en) Entailment pair expansion device, computer program therefor, and question-answering system
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
Alhasan et al. POS tagging for arabic text using bee colony algorithm
KR20040086775A (ko) 단어 분석 시스템 및 방법
KR101092354B1 (ko) 복합 명사 인식 장치 및 그 방법
Okhovvat et al. A hidden Markov model for Persian part-of-speech tagging
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
Govilkar et al. Part of speech tagger for Marathi language
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Mohri et al. Structural zeros versus sampling zeros
KR940022311A (ko) 기계번역장치 및 방법
KR100431190B1 (ko) 주제 적응 품사 태깅 시스템 및 방법
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
Cheng et al. MAG-Tagalog: A rule-based Tagalog morphological analyzer and generator

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110228

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee