KR100887726B1

KR100887726B1 - 자동 띄어쓰기 방법 및 그 시스템

Info

Publication number: KR100887726B1
Application number: KR1020070051391A
Authority: KR
Inventors: 이도길
Original assignee: 엔에이치엔(주)
Priority date: 2007-05-28
Filing date: 2007-05-28
Publication date: 2009-03-12
Also published as: KR20080104517A

Abstract

기존의 통계에 기반한 자동 띄어쓰기 방법을 개선한 것으로서, 사용자에 의해 입력되는 문장의 띄어쓰기 상태를 출력문장에 반영하기 위한 입력문장의 띄어쓰기에 대한 신뢰도를 산출할 수 있는 본 발명의 일 실시예에 따른 자동 띄어쓰기 방법은 사용자로부터 입력되는 문장의 띄어쓰기 확률값에 소정 가중치를 반영하여 상기 입력문장의 띄어쓰기 확률값을 수정하는 단계; 상기 입력문장에 대해 띄어쓰기가 수행된 교정문장의 띄어쓰기 확률값과 상기 수정된 입력문장의 띄어쓰기 확률값의 크기를 비교하는 단계; 상기 입력문장과 교정문장 중 더 큰 띄어쓰기 확률값을 가지는 문장의 띄어쓰기 상태를 출력문장의 띄어쓰기 상태로 결정하는 단계; 및 상기 출력문장의 띄어쓰기 상태를 이용하여 상기 출력문장을 생성하는 단계를 포함한다. 일 실시예에 있어서, 상기 가중치는 입력문장의 띄어쓰기에 대한 신뢰도로 결정되는데, 상기 신뢰도는 상기 입력문장의 평균 어절의 길이와 소정 말뭉치로부터 추출되는 전체 문장의 평균 어절의 길이의 차이를 이용해서 결정된다.

이러한 방법을 통해 입력문장의 띄어쓰기 신뢰도를 반영하여 출력문장을 생성함으로써 입력문장의 띄어쓰기 상태가 양호한 경우 종래의 방법보다 자동 띄어쓰기의 성능을 개선시킬 수 있다는 효과가 있다.

띄어쓰기, 마르코프, 통계, 신뢰도

Description

자동 띄어쓰기 방법 및 그 시스템 {Method and System for Automatic Word Spacing}

도 1은 본 발명의 일 실시예에 따른 자동 띄어쓰기 시스템의 개략적인 블록도

도 2는 도 1에 도시된 신뢰도 산출부에 의해 산출되는 입력문장의 띄어쓰기에 대한 신뢰도의 그래프를 보여주는 도면.

도 3은 도 1에 도시된 자동 띄어쓰기 시스템을 이용하여 자동 띄어쓰기를 수행하는 방법을 보여주는 플로우차트.

도 4는 본 발명의 일 실시예에 따라 교정문장을 생성하는 방법을 보여주는 플로우차트.

도 5는 본 발명의 일 실시예에 따른 자동 띄어쓰기 방법과 종래의 자동 띄어쓰기 방법에 대한 성능을 비교하여 보여주는 도표

도 6a 내지 도6c는 다양한 상태의 띄어쓰기 오류가 있는 입력문장에 대한 본 발명의 방법을 적용한 결과를 보여주는 그래프.

<도면의 주요부분에 대한 부호의 설명>

10: 자동 띄어쓰기 시스템 12: 교정문장 생성부

14: 태그 비교부 16: 연산부

18: 신뢰도 산출부 20: 확률값 산출부

22: 신뢰도 반영부 24: 태그값 결정부

26: 출력문장 생성부

본 발명은 자동 띄어쓰기 방법 및 그 시스템에 관한 것으로서, 보다 구체적으로, 입력문장의 띄어쓰기 상태를 반영할 수 있는 자동 띄어쓰기 방법 및 그 시스템에 관한 것이다.

자동 띄어쓰기란 하나의 문장 내에서 잘못 띄어 쓴 어절들을 올바르게 복원하는 과정을 의미하는 것으로서, 특히 한국어에 있어서는 글의 가독성을 위해서뿐만 아니라 정확한 의미를 전달하기 위해서 매우 중요한 것이라 할 수 있지만, 인터넷 상의 문서나 인터넷 사용자들이 작성한 글에는 띄어쓰기에 있어 많은 오류가 존재한다. 띄어쓰기 오류의 대부분은 의도하지 않은 실수나 정확한 맞춤법에 대한 부지로 인해 발생하지만, 최근에는 SMS문자 메시지 작성의 경우 등에 있어서 입력 글자 수의 제안을 감안하여 사용자가 의도적으로 띄어쓰기를 틀리게 쓰는 경우도 있다.

하지만, 상술한 바와 같은 이유 등으로 인해 띄어쓰기에 오류가 있다 하더라도 그 오류로 인해 심각한 중의성(Ambiguity)이 유발되는 경우가 아니라면 해당 문장을 이해하는 데에 큰 지장이 없다. 그러나 컴퓨터에 의한 자연어(natural language) 처리의 경우 이러한 띄어쓰기의 오류는 매우 큰 문제가 될 수 있다. 이는 대부분의 자연어처리를 위한 프로그램은 입력되는 언어 단위에 오류가 없다는 가정하에 개발되고 수행되기 때문이다. 이에 따라 자연어처리 시스템에 대한 전처리 모듈로서 띄어쓰기 오류가 포함된 문서의 띄어쓰기를 자동으로 교정하는 방법에 대한 여러 연구가 진행된 바 있다.

이러한 띄어쓰기 방법에는 규칙 기반 방법과 통계 기반 방법이 있는데, 규칙 기반 방법은 어휘 지식과 규칙을 이용하는 것으로서, 주로 띄어쓰기가 부분적으로 잘못되어 있는 문서를 대상으로 하는 것이다. 그러나 이러한 규칙 기반 방법의 경우 분석 과정이 복잡하고 어휘 지식과 규칙의 구축 비용이 높아진다는 문제점이 있다.

한편, 통계 기반 방법은 말뭉치로부터의 음절 통계를 이용하는 방식으로서 주로 확률 모델에 기반하고 학습 데이터의 질과 양의 영향을 크게 받는다. 근래에는 많은 양의 원시 말뭉치를 구하는 것이 어렵지 않으므로 최근의 연구는 통계 기반 방법이 주를 이루고 있으며 높은 수준의 성능을 보이고 있다. 그러나, 이러한 통계에 기반한 자동 띄어쓰기 방법은 입력 문장의 띄어쓰기를 완전히 무시하고 띄어쓰기가 전혀 되어 있지 않은 문서로 가정한 채로 자동 띄어쓰기를 수행하므로 입력문장의 띄어쓰기 상태가 양호한 경우에는 오히려 자동 띄어쓰기 수행으로 인해 그 결과가 나빠질 수 있다는 문제점이 있다.

본 발명은 상술한 문제점을 해결하기 위해, 기존의 통계에 기반한 자동 띄어 쓰기 방법을 개선한 것으로서, 사용자에 의해 입력되는 문장의 띄어쓰기 상태를 출력문장에 반영하기 위하여 입력문장의 띄어쓰기에 대한 신뢰도를 산출할 수 있는 자동 띄어쓰기 시스템 및 그 방법을 제공하는 것을 그 기술적 과제로 한다.

또한, 본 발명은 입력문장의 띄어쓰기 신뢰도를 이용하여 입력문장의 띄어쓰기 상태를 출력문장에 반영할 수 있는 자동 띄어쓰기 시스템 및 방법을 제공하는 것을 다른 기술적 과제로 한다.

상술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 자동 띄어쓰기 방법은 사용자로부터 입력되는 문장의 띄어쓰기 확률값에 소정 가중치를 반영하여 상기 입력문장의 띄어쓰기 확률값을 수정하는 단계; 상기 입력문장에 대해 띄어쓰기가 수행된 교정문장의 띄어쓰기 확률값과 상기 수정된 입력문장의 띄어쓰기 확률값의 크기를 비교하는 단계; 상기 입력문장과 교정문장 중 더 큰 띄어쓰기 확률값을 가지는 문장의 띄어쓰기 상태를 출력문장의 띄어쓰기 상태로 결정하는 단계; 및 상기 출력문장의 띄어쓰기 상태를 이용하여 상기 출력문장을 생성하는 단계를 포함한다. 일 실시예에 있어서, 상기 가중치는 입력문장의 띄어쓰기에 대한 신뢰도로 결정되는데, 상기 신뢰도는 상기 입력문장의 평균 어절의 길이와 소정 말뭉치로부터 추출되는 전체 문장의 평균 어절의 길이의 차이를 이용해서 결정된다.

상술한 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 자동 띄어쓰기 방법은, 입력문장에 포함된 소정 음절에 대해 입력문장의 띄어쓰기 태그와 교정문장의 띄어쓰기 태그를 비교하는 단계; 상기 띄어쓰기 태그가 상이한 경우, 상기 상 이한 띄어쓰기 태그를 포함하는 입력문장의 띄어쓰기 확률값인 제1 확률값을 산출하는 단계; 상기 제1확률값에 상기 입력문장의 띄어쓰기에 대한 신뢰도를 반영하여 상기 제1 확률값을 수정하는 단계; 상기 상이한 띄어쓰기 태그를 포함하는 교정문장의 띄어쓰기 확률값인 제2 확률값을 산출하는 단계; 상기 수정된 제1 확률값과 제2 확률값을 비교하여 더 큰 확률값을 가지는 문장의 띄어쓰기 태그값을 상기 음절에 대한 띄어쓰기 태그값으로 결정하는 단계; 및 상기 결정된 띄어쓰기 태그값을 이용하여 출력문장을 생성하는 단계;를 포함하는 것을 특징으로 한다.

이때, 상기 제1 확률값과 상기 제2 확률값이 복수개인 경우, 상기 각각의 제1 확률값에 상기 신뢰도를 반영하여 수정된 제1 확률값들을 생성한 후 수정된 제1 확률값들의 곱과 상기 제2 확률값들의 곱을 비교하여 더 큰 값을 가지는 문장의 띄어쓰기 태그값을 상기 음절에 대한 띄어쓰기 태그값으로 결정하는 것을 특징으로 한다.

상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 자동 띄어쓰기 시스템은 입력문장과 상기 입력문장에 대해 띄어쓰기가 수행된 교정문장의 소정 음절에 대한 띄어쓰기 태그를 비교하는 태그 비교부; 상기 음절에 대한 띄어쓰기 태그가 상이한 경우 상기 상이한 태그를 포함하는 상기 입력문장의 띄어쓰기 확률값인 제1확률값에 소정 가중치를 반영하여 상기 제1 확률값을 수정하는 연산부; 상기 상이한 태그를 포함하는 상기 교정문장의 띄어쓰기 확률값인 제2 확률값과 상기 수정된 제2확률값을 비교하여 더 큰 확률값을 가지는 문장의 띄어쓰기 태그값을 상기 음절의 태그값으로 결정하는 태그값 결정부; 및 상기 태그값 결정부에 의해 결정되 는 태그들의 태그값을 이용하여 출력문장을 생성하는 출력문장 생성부;를 포함하는 것을 특징으로 한다.

이하 첨부되는 도면을 참고하여, 본 발명의 바람직한 실시예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 자동 띄어쓰기 시스템의 개략적인 블록도 있다. 도시된 바와 같이 자동 띄어쓰기 시스템(10)은 교정문장 생성부(12), 태그 비교부(14), 연산부(16), 태그값 결정부(24), 및 출력문장 생성부(26)를 포함한다.

교정문장 생성부(12)는 소정의 확률모형을 이용하여 사용자에 의해 입력된 문장에 대해 자동 띄어쓰기를 수행함으로써 교정된 문장을 생성하는 것으로서, 사용자에 의해 입력되는 문장은 음절열(C)과 음절들 사이의 띄어쓰기를 정의하는 띄어쓰기 태그열(U)로 구성된다. 일 실시예에 있어서, 띄어쓰기 태그열에 포함되는 띄어쓰기 태그는 "0" 또는 "1"의 값을 가지는데, "0"은 해당 음절과 다음 음절 사이의 붙여쓰기를 나타내고, "1"은 해당 음절과 다음 음절 사이의 띄어쓰기를 나타낸다. 예를 들어 사용자가 입력문장으로 "공부할 수 있다."라고 입력한 경우 이러한 입력문장에 대한 띄어쓰기 태그열은 "공/0+부/1+할/1+수/1+있/0+다/0+./1"로 정의된다.

교정문장 생성부(12)는 입력문장에 대해 자동 띄어쓰기를 수행함에 있어서, 입력문장의 띄어쓰기 상태를 완전히 무시하고 띄어쓰기가 전혀 되어 있지 않은 문장으로 가정한 채 자동 띄어쓰기를 수행한다. 즉, 입력문장에서 띄어쓰기를 제거 하여 입력문장의 음절들을 재배열한 후 자동 띄어쓰기를 수행하는 것이다.

일 실시예에 있어서 교정문장 생성부(12)는 띄어쓰기 문제를 분류문제(Classification Problem)로 간주한 후 확률모형인 은닉 마르코프 모형(Hidden Markov Model: HMM)을 이용하여 재배열된 입력문장에 대한 교정문장을 생성한다.

이러한 은닉 마르코프 모형은 입력 문장 내에 주어진 음절열(C)에 대한 최적의 띄어쓰기 태그열(U)을 찾는 것으로서, 이를 수학식으로 표현하면 다음과 같다.

수학식 1에 베이즈 정리(Bayes' Rule)를 적용하면 다음의 수학식 2와 같이 정리된다.

여기서, 분모는 영향을 미치지 않으므로, 다음의 수학식 3을 통해 수학식 4와 같이 정리된다.

즉, 본 실시예에 의한 확률모형은 음절열 C와 태그열 U의 결합확률

을 최대로 하는 태그열 U를 찾는 것이라 할 수 있다.

이러한, 수학식 4에 의한 확률모형은, 크게 음절 우선 모형과 태그 우선 모형으로 표현될 수 있는데, 본 실시예에 있어서는 음절 우선 모형을 사용하기로 한다. 수학식 4에 표현된 결합확률

을 음절 우선 모형으로 표현하면 다음의 수학식 5와 같다.

수학식 5는 음절의 발생은 이전 K개의 음절과 이전 J개의 띄어쓰기 태그에 의존하고, 띄어쓰기 태그의 발생은 이전 L개의 음절과 현재 음절, 이전 I개의 띄어쓰기 태그에 의존한다는 마르코프의 가정을 이용한 것이다. 여기서, K, J, L, I의 값이 클수록 많은 문맥을 고려할 수 있으나, 자료 부족 문제와 모델의 파리미터의 수가 급격한 증가 문제를 방지하기 위해 적절한 값을 선택하는 것이 바람직하다. 본 실시예에 있어서는 입력문장에 대한 띄어쓰기를 수행하기 위한 확률모형으로써, K, J, L, I의 값을 적절히 한정한 다음의 수학식 6에 정의되는 확률모형을 이용하기로 한다.

즉, 교정문장 생성부(12)는 수학식 6에서 정의되는 확률모형으로부터 최적의 띄어쓰기 태그열을 결정하게 되는데, 일 실시예에 있어서, 교정문장 생성부(12)는 비터비 알고리즘을 이용하여 최적의 태그열을 결정할 수 있다.

여기서, 수학식 6에 기재된 두 확률값은 아래의 수학식 7 및 8에 기재된 바와 같은 선형 보간(Linear Interpolation)을 수행한 후, 수학식 9에 기재된 바와 같은 최우추정(Maximum Likelihood Estimation) 방법을 수행함으로써 계산될 수 있다.

여기서,

을 만족하고,

을 만족하며, 이들은 소정의 학습 말뭉치로부터 사전에 미리 계산 되어진다.

상술한 실시예에 있어서는 교정문장 생성부(12)가 확률모형을 이용하여 교정문장을 생성하는 것으로 기재하였지만, 이러한 방법은 교정문장을 생성하는 하나의 예에 불과한 것으로서, 입력문장에 대해 자동으로 띄어쓰기를 수행할 수 있는 방법이라면 어떠한 방법을 이용하여도 무방할 것이다.

나아가, 교정문장 생성부(12)가 본 발명의 자동 띄어쓰기 시스템에 포함되지 않고별도의 시스템으로 구현되어 본 발명의 자동 띄어쓰기 시스템(10)은 교정문장 생성부(12)에 의해 생성되는 교정문장만을 이용할 수도 있다.

태그 비교부(14)는 입력문장에 포함된 각 음절에 대한 입력문장의 띄어쓰기 태그와 교정문장의 띄어쓰기 태그를 비교한다. 비교결과, 두 문장의 띄어쓰기 태그가 동일한 경우에는 태그값 결정부(24)로 하여금 두 문장의 띄어쓰기 태그값 중 어느 하나의 태그값을 해당 음절에 대한 띄어쓰기 태그값으로 결정하도록 하고, 두 문장의 띄어쓰기 태그가 상이한 경우에는 그 결과를 연산부(16)로 전달하여 입력문장의 띄어쓰기 상태가 출력문장에 반영될 수 있도록 한다. 태그 비교부(14)는 이러한 태그 비교를 모든 음절에 대한 띄어쓰기 태그에 대해 반복하여 수행한다. 이하에서는, 설명의 편의를 위해 입력문장과 교정문장 중 띄어쓰기 태그가 상이한 음 절을 제1음절이라 하고, 제1 음절에 대한 띄어쓰기 태그를 제1 태그라 한다.

연산부(16)는 신뢰도 산출부(18), 확률값 산출부(20), 및 신뢰도 반영부(22)를 포함하여, 제1 태그가 상이한 것으로 판단되는 경우, 제1태그를 포함하는 입력문장의 띄어쓰기 확률값 및 제1 태그를 포함하는 교정문장의 띄어쓰기 확률값과 소정의 가중치를 산출하고, 가중치를 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값에 반영하여 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값을 수정한다. 일 실시예에 있어서, 소정의 가중치는 입력문장의 띄어쓰기에 대한 신뢰도로 정의될 수 있는데, 연산부(16)에 포함된 신뢰도 산출부(18)가 이러한 신뢰도를 산출한다.

신뢰도 산출부(18)에 의해 산출되는 신뢰도는 입력문장의 띄어쓰기 상태를 출력문장에 반영하기 위한 것으로서, 여기서 입력문장의 띄어쓰기 신뢰도란 입력문장의 띄어쓰기 상태를 얼마나 신뢰할 수 있는지에 대한 지표를 나타내는 것이다. 일 실시예에 있어서, 신뢰도 산출부(18)는 다음의 두 가지 값을 고려하여 입력문장의 띄어쓰기 신뢰도를 산출하는데, 먼저, 입력문장의 띄어쓰기 상태와 교정문장의 띄어쓰기 상태와의 유사성을 고려하여 신뢰도를 산출한다. 이러한 입력문장의 띄어쓰기 상태와 교정문장의 띄어쓰기 상태의 유사도는 두 문장의 띄어쓰기 확률의 기하 평균에 대한 로그비(log Ratio)를 이용하여 산출되는데, 이를 수학식으로 표현하면 다음과 같다.

수학식 10에서,

는 입력문장을 나타내고,

은 교정문장을 나타내며,

는 입력문장의 띄어쓰기 태그열을 나타내고,

은 교정문장의 띄어쓰기 태그열을 나타낸다. 또한,

는 입력문장의 띄어쓰기 확률을 나타내고,

는 교정문장의 띄어쓰기 확률을 나타내며,

은 문장에 속한 음절의 수를 나타낸다. 여기서, 교정문장의 띄어쓰기 확률

은 교정문장 생성부(12)에 의해 교정문장의 생성과정에서 산출되고, 입력문장의 띄어쓰기 확률

은 후술할 확률값 산출부(20)에 의해 산출되며, 기하평균을 구할 때

이 아니라

이 사용된 것은 하나의 음절에 대하여 태그 전이 확률과 음절 발생 확률이 곱해지기 때문이다.

수학식 10에 의해 로그비를 산출하는 경우, 교정문장의 띄어쓰기 확률이 입력문장의 띄어쓰기 확률보다 언제나 크거나 같게 되므로, 수학식 10에 의해 산출되는 로그비는 0이상의 값을 갖게 된다. 즉, 입력문장과 교정문장의 띄어쓰기가 완전히 동일하면 로그비는 0이 되고, 입력문장과 교정문장의 띄어쓰기가 상이할수록 로그비는 큰 양의 값을 가지게 된다. 본 실시예에 있어서는 수학식 10에 의해 산출되는 로그비는 1이하의 값을 가진 경우만 사용하기로 한다. 이는 로그비가 1보다 큰 경우에는 입력문장의 띄어쓰기와 교정문장의 띄어쓰기가 너무 상이하여 입력 문장의 띄어쓰기 상태를 출력문장에 반영하지 않기 위함이다.

다음으로, 신뢰도 산출부(18)는 입력문장의 평균 어절의 길이와 소정의 말뭉치에 속한 전체문장의 평균 어절의 길이의 차를 고려하여 입력문장의 띄어쓰기에 대한 신뢰도를 산출한다. 여기서, 어절 길이란 어절에 속한 문자의 수를 의미하는 것으로서, 입력문장의 평균 어절의 길이와 전체문장의 평균 어절의 길이와의 차이가 많을수록 입력 문장의 띄어쓰기에 오류가 있을 가능성이 높을 것이라는 가정을 고려한 것이다. 상술한 평균 어절 길이의 차이는 소정의 말뭉치에 속하는 평균 어절 길이와 입력문장의 평균 어절 길이의 차의 제곱으로써 산출되는데, 이를 수학식으로 표현하면 다음과 같다.

여기서, C는 소정의 말뭉치를 의미하고,

는 소정 말뭉치에 속한 전체 문장의 평균 어절길이를 나타내며,

는 입력문장의 평균 어절 길이를 나타낸다.

상술한 두 가지 조건을 모두 고려할 때, 입력문장의 띄어쓰기에 대한 신뢰도는 입력문장과 교정문장의 유사도가 커질수록(로그비가 작을수록) 증가하고, 평균 어절의 길이가 전체 문장의 평균 어절의 길이에 근접할수록 증가하여야 함을 알 수 있다. 이러한 조건에 따라 입력문장의 띄어쓰기에 대한 신뢰도

를 산출하는 방법을 수학식으로 표현하면 다음과 같다.

이러한 수학식 12에 로그를 취하면 수학식 13과 같고, 수학식 13을 토대로 입력문장의 띄어쓰기에 대한 신뢰도를 도식화하면 도 2와 같다.

도 2에 도시된 바와 같이, 로그를 취한 신뢰도는 항상 0 이상의 값이 되며, 입력문장과 교정문장의 띄어쓰기 유사도가 커질수록, 입력문장의 평균 어절 길이가 전체 문장의 평균 어절 길이에 근접할수록 신뢰도가 증가함을 알 수 있다.

상술한 실시예에 있어서는 신뢰도가 입력문장과 교정문장의 띄어쓰기 유사도 및 입력문장의 평균 어절의 길이와 전체 문장의 평균 어절길이의 차 모두를 이용해서 산출되는 것으로 기재하였지만, 변형된 실시예에 있어서는 둘 중 어느 하나의 값만을 이용하여 신뢰도를 산출할 수도 있을 것이다.

확률값 산출부(20)는 입력문장의 띄어쓰기 확률값과 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값 및 제1 태그를 포함하는 교정문장의 띄어쓰기 확률값을 산출한다. 여기서, 제1 태그를 포함하는 띄어쓰기 확률값이란 띄어쓰기 확률값 중 제1 태그가 사용된 띄어쓰기 확률값을 의미한다. 예컨대,

개의 음절로 이루어진 문장에서,

번째 음절의 띄어쓰기 태그가 상이한 경우라면, 입력문장 또는 교정문 장의 띄어쓰기 확률값 중 띄어쓰기 태그

가 포함된 확률값인

,

를 의미하고,

번째 음절의 띄어쓰기 태그가 상이한 경우라면, 입력문장 또는 교정문장의 띄어쓰기 확률값 중 띄어쓰기 태그

이 포함된 확률값인

,

, 및

를 의미하며,

이 포함된 확률값인

를 의미하는 것이다.

이때, 입력문장의 띄어쓰기 확률값은 수학식 6내지 9에 의해 산출될 수 있고, 교정문장의 띄어쓰기 확률값은 교정문장의 생성과정에서 산출된 것을 이용할 수 있다.

상술한 실시예에 있어서는 교정문장의 띄어쓰기 확률값은 교정문장 생성부에 의해 획득하는 것으로 기재하였지만, 변형된 실시예에 있어서 확률값 산출부(18)가 교정문장의 띄어쓰기 확률값을 직접 산출할 수도 있다. 또한, 역으로 확률값 산출부(18)가 교정문장의 띄어쓰기 확률값을 산출하고, 교정문장 생성부(12)는 교정문장을 생성함에 있어서 확률값 산출부(18)에 의해 산출된 교정문장의 띄어쓰기 확률값을 이용할 수도 있을 것이다.

신뢰도 반영부(22)는 신뢰도 산출부(18)에 의해 산출된 신뢰도를 확률값 산 출부(20)에 의해 산출된 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값들에 반영하여 제1 태그가 포함된 입력문장의 띄어쓰기 확률값들을 수정하는 것으로서, 구체적으로, 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값들에 신뢰도를 곱함으로써 해당 확률값을 수정하는 것이다.

신뢰도 반영부(22)가 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값에 신뢰도를 곱함으로써 수정된 입력문장의 띄어쓰기 확률값을 산출하는 과정을 수학식으로 표현하면 다음의 수학식 14와 같이 되고, 수학식 14에 로그를 취하면 수학식 15와 같이 된다.

여기서,

는 제1태그를 포함하는 수정전 입력문장의 띄어쓰기 확률값을 의미하고,

는 수정 후 입력문장의 띄어쓰기 확률값을 의미한다.

태그값 결정부(24)는 신뢰도 반영부(22)에 의해 제1 태그를 포함하는 수정된 입력문장의 확률값들의 곱과 제1 태그를 포함하는 교정문장의 확률값들의 곱을 산출하고, 두 확률값들의 곱을 비교하여 양자 중 더 큰 값을 가지는 문장의 띄어쓰기 태그값을 제1 음절에 대한 띄어쓰기 태그값으로 결정한다.

즉, 제1태그를 포함하는 수정된 입력문장의 띄어쓰기 확률값의 곱이 제1 태 그를 포함하는 교정문장의 확률값의 곱보다 더 큰 경우에는 입력문장의 띄어쓰기 태그값을 제1음절에 대한 띄어쓰기 태그값으로 결정하고, 제1 태그를 포함하는 교정문장의 띄어쓰기 확률값의 곱이 제1 태그를 포함하는 수정된 입력문자의 띄어쓰기 확률값의 곱보다 더 큰 경우에는 교정문장의 띄어쓰기 태그값을 제1음절에 대한 태그값으로 결정하는 것이다.

출력문장 생성부(26)는 태그값 결정부(24)에 의해 결정된 각 음절에 대한 태그값들을 이용하여 출력문장을 생성한다.

상술한 실시예에 있어서는 입력문장과 교정문장의 각 음절에 대한 띄어쓰기 태그를 비교한 후 양 문장의 띄어쓰기 태그가 상이한 경우에 한해 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값에 신뢰도를 반영하는 것으로 기재하였지만, 변형된 실시예에 있어서는 양 문장의 띄어쓰기 태그를 비교함 없이 일괄적으로 입력문장의 띄어쓰기 확률값에 신뢰도를 반영하여 교정문장의 띄어쓰기 확률값과 비교할 수도 있을 것이다. 이러한 경우 태그 비교부(22)는 포함되지 않을 수도 있다.

상술한 자동 띄어쓰기 시스템을 이용하여 입력문장에 대한 자동 띄어쓰기를 수행하는 방법을 도 3 내지 도 4를 참조하여 구체적으로 설명한다.

사용자로부터 문장이 입력되면(제100단계), 입력된 문장에 대해 교정문장을 생성한다(제110단계). 일 실시예에 있어서, 교정문장은 상술한 수학식 6에 기재된 확률모형을 이용하여 생성할 수 있는데, 이러한 교정문장의 생성과정을 도 4를 참조하여 구체적으로 설명한다.

먼저 입력문장을 띄어쓰기가 전혀 되지 않은 상태로 재배열하고(제112단계), 소정 확률모형으로부터 재배열된 입력문장에 대한 최적의 띄어쓰기 태그열을 산출한 후(제114단계), 산출된 띄어쓰기 태그열을 이용하여 교정문장을 생성한다(제116단계). 여기서, 바람직하게는 교정문장을 생성하기 위해 확률모형으로 은닉 마르코프 모형이 이용될 수 있으며, 최적의 띄어쓰기 태그열을 산출하기 위해서 비터비 알고리즘이 이용될 수도 있다.

상술한 실시예에 있어서는, 자동 띄어쓰기 시스템(10)이 교정문장을 생성함에 있어서, 확률모형을 이용하는 것으로 기재하였지만, 이러한 방법은 교정문장을 생성하는 하나의 예에 불과한 것으로서, 입력문장에 대해 자동으로 띄어쓰기를 수행할 수 있는 방법이라면 어떠한 방법을 이용하여도 무방하며, 나아가, 자동 띄어쓰기 시스템(10)이 교정문장을 직접 생성하지 않고, 타 시스템에 의해 생성된 교정문장을 이용할 수도 있을 것이다.

다시 도 3을 참조하면 입력문장의 띄어쓰기 상태를 출력문장에 반영하기 위해 입력문장의 띄어쓰기에 대한 신뢰도를 산출한다(제120단계). 여기서, 입력문장의 띄어쓰기에 대한 신뢰도는 입력문장과 교정문장의 띄어쓰기에 대한 유사도 및 입력문장의 평균 어절의 길이와 소정의 말뭉치에 포함된 전체 문장의 평균 어절의 길이의 차를 이용해서 산출되는 것으로서, 신뢰도는 수학식 12에 의해 산출된다.

입력문장과 교정문장의 띄어쓰기에 대한 유사도는 수학식 10에 의해 산출되고, 입력문장의 평균 어절의 길이와 소정의 말뭉치에 포함된 전체 문장의 평균 어절의 길이의 차는 수학식 11에 의해 산출된다.

상술한 실시예에 있어서는 입력문장의 신뢰도를 교정문장의 생성 이후에 산 출하는 것으로 기재하였지만, 변형된 실시예에 있어서는 교정문장의 생성과 동시에 산출될 수도 있다.

다음으로, 입력문장에 포함된 제1음절에 대한 입력문장과 교정문장의 띄어쓰기 태그인 제1 태그를 비교한다(제130단계). 비교결과, 제1태그가 상이한 경우, 제 1태그를 포함하는 입력문장의 띄어쓰기 확률값과 교정문장의 띄어쓰기 확률값을 산출한다(제140단계). 예컨대, 교정문장과 입력문장의 띄어쓰기 태그 중

번째 음절의 띄어쓰기 태그가 상이한 경우라면, 띄어쓰기 태그

가 포함된 확률값인

,

를 산출하는 것이다.

이후, 제140단계에서 산출된 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값에 제120단계에서 산출된 신뢰도를 반영함으로써 제1 태그가 포함된 입력문장의 띄어쓰기 확률값을 수정한다(제150단계). 여기서, 수정된 입력문장의 띄어쓰기 확률값은 수학식 14에 의해 산출될 수 있다.

다음으로, 제1 태그를 포함하는 수정된 입력문장의 띄어쓰기 확률값들의 곱과 제1태그를 포함하는 교정문장의 띄어쓰기 확률값들의 곱을 산출한다 (제160단계). 산출된 확률값들의 곱을 비교하여(제170단계), 양자 중 더 큰 값을 가지는 문장의 띄어쓰기 태그값을 제1 음절에 대한 띄어쓰기 태그값으로 결정한다(제180단계). 즉, 제1 태그를 포함하는 수정된 입력문장의 확률값들의 곱이 더 큰 경우에는 입력문장의 띄어쓰기 태그값을 제1음절의 띄어쓰기 태그값으로 결정하고, 교정 문장의 띄어쓰기 확률값들의 곱이 더 큰 경우에는 교정문장의 띄어쓰기 태그값을 제1음절의 띄어쓰기 태그값으로 결정하는 것이다.

한편, 제130단계에서, 제1 음절에 대한 제1 태그가 동일한 경우 두 문장 중 어느 하나의 태그값을 제1 음절에 대한 띄어쓰기 태그값으로 결정한다.

상술한 바와 같은 과정을 각 음절에 대한 모든 태그에 대하여 반복함으로써 출력문장의 띄어쓰기 태그열을 결정한 후 띄어쓰기 태그열을 이용하여 입력문장에 대한 출력문장을 생성한다(제190단계).

상술한 실시예에 있어서 입력문장과 교정문장의 각 음절에 대한 띄어쓰기 태그를 비교한 후 양 문장의 띄어쓰기 태그가 상이한 경우에 한해 제1 태그를 포함하는 입력문장의 띄어쓰기 확률값에 신뢰도를 반영하는 것으로 기재하였지만, 변형된 실시예에 있어서는 양 문장의 띄어쓰기 태그를 비교함 없이 일괄적으로 입력문장의 띄어쓰기 확률값에 신뢰도를 반영하여 교정문장의 띄어쓰기 확률값과 비교할 수도 있을 것이다. 이러한 경우 태그 비교부(22)는 포함되지 않을 수도 있다.

도 5는 본 발명의 일 실시예에 따른 자동 띄어쓰기 방법과 종래의 자동 띄어쓰기 방법에 대한 성능을 비교하여 보여주는 도표로서, 이러한 비교 실험에 사용되어진 실험 데이터는 288,269 어절 규모의 ETRI 품사 부착 말뭉치가 사용되었고, 학습 데이터로는 세종 계획 원시 말뭉치(1998년~2001년)가 사용되었다. 평가 척도로는 음절 단위 정확도, 어절 단위 재현율, 및 어절 단위 정확률이 이용되었다.

도 5에서 모두 붙인 말뭉치란 문장에서 띄어쓰기를 제거하고 모두 붙여 쓴 것을 의미한다. 도시된 바와 같이 모두 붙인 말뭉치에 대해서는 본 발명에 의한 방법은 기존의 방법들과 비슷한 성능을 보이나 정답 말뭉치에 대해서는 매우 높은 성능을 보이고 있음을 알 수 있다. 이 경우, 종래의 방법들은 입력문장의 띄어쓰기 상태를 전혀 고려하지 않으므로 정답 말뭉치에 대해서도 모두 붙인 말뭉치에서와 같은 결과로 도출되므로 이에 대해서는 따로 도시하지 않았다.

도 6a내지 도 6c는 실험 데이터에 음절별로 0~50% 사이의 띄어쓰기 오류를 임의로 추가한 후 본 발명에 따른 방법을 적용하여 실험한 결과를 보여주는데, 이러한 실험의 이유는 도 5의 결과가 모두 붙인 말뭉치이거나 정답 말뭉치에 대한 실험한 결과로써 극단적인 경우에 한하는 것이고, 실제 입력되는 문장의 띄어쓰기 상태와는 경향이 다를 수 있기 때문이다. 도 6a 내지 도 6c에서는 오류를 추가함에 따른 실험 데이터 자체에 대한 결과, 입력 문장이 띄어쓰기를 고려하지 않은 방법의 결과, 및 입력문자의 띄어쓰기를 고려한 방법의 결과를 보여준다.

도시된 바와 같이, 입력문장의 띄어쓰기를 고려하지 않은 경우는 오류율과 관계없이 항상 일정한 결과를 보이나, 입력 문장의 띄어쓰기를 고려하는 경우는 음절단위의 정확도(도 6a), 어절 단위의 재현율(도 6b), 및 어절 단위의 정확률(도 6c) 모두에 있어서 약 20% 이하의 오류률에서는 입력 문장의 띄어쓰기를 고려하지 않은 방법보다 높은 성능을 보임을 알 수 있다. 즉, 본 발명에 따른 자동 띄어쓰기 방법의 경우 입력되는 문장의 띄어쓰기 상태가 좋은 경우, 일괄적으로 입력문장의 띄어쓰기를 교정하는 것보다 훨씬 좋은 성능을 보임을 알 수 있다.

상술한 자동 띄어쓰기 방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 자동 띄어쓰기 방법을 수행하기 위 한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.

본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

상술한 바와 같이, 본 발명에 따르면, 입력문장의 띄어쓰기에 대한 신뢰도를 산출할 수 있어 입력문장에 대한 자동 띄어쓰기 수행 시 입력문장의 띄어쓰기 상태를 반영할 수 있다는 효과가 있다.

또한, 본 발명은 입력문장의 띄어쓰기 신뢰도를 반영하여 출력문장을 생성함으로써 입력문장의 띄어쓰기 상태가 양호한 경우 종래의 방법보다 자동 띄어쓰기의 성능을 개선시킬 수 있다는 효과가 있다.

Claims

사용자로부터 입력되는 문장의 띄어쓰기 확률값에 상기 입력문장의 띄어쓰기에 대한 신뢰도를 반영하여 상기 입력문장의 띄어쓰기 확률값을 수정하는 단계;

상기 입력문장에 대해 띄어쓰기가 수행된 교정문장의 띄어쓰기 확률값과 상기 수정된 입력문장의 띄어쓰기 확률값의 크기를 비교하는 단계;

상기 입력문장과 교정문장 중 더 큰 띄어쓰기 확률값을 가지는 문장의 띄어쓰기 상태를 출력문장의 띄어쓰기 상태로 결정하는 단계; 및

상기 출력문장의 띄어쓰기 상태를 이용하여 상기 출력문장을 생성하는 단계;

를 포함하는 것을 특징으로 하는 자동 띄어쓰기 방법.
삭제
제1항에 있어서, 상기 신뢰도는 상기 입력문장과 상기 교정문장의 띄어쓰기에 대한 유사도를 이용하여 결정되는 것을 특징으로 하는 자동 띄어쓰기 방법.
제3항에 있어서, 상기 유사도는 상기 입력문장의 띄어쓰기 확률값과 상기 교정문장의 띄어쓰기 확률값의 기하 평균에 대한 로그비를 이용하여 산출되는 것을 특징으로 하는 자동 띄어쓰기 방법.
제1항에 있어서, 상기 신뢰도는 상기 입력문장의 평균 어절의 길이와 소정 말뭉치로부터 추출되는 전체 문장의 평균 어절의 길이의 차이를 이용해서 결정되는 것을 특징으로 하는 자동 띄어쓰기 방법.
제1항에 있어서, 상기 신뢰도는 상기 입력문장과 교정문장의 유사도 및 상기 입력문장의 평균 어절길이와 소정 말뭉치로부터 추출되는 전체 문장의 평균 어절 길이의 차이에 의해 결정되는 것을 특징으로 하는 자동 띄어쓰기 방법.
제1항에 있어서, 상기 교정문장은 은닉 마르코프 모형(Hidden Markov Model: HMM)을 이용하여 생성되는 것을 특징으로 하는 자동 띄어쓰기 방법.
제1항에 있어서, 상기 교정문장의 생성은

상기 입력문장의 띄어쓰기를 제거하여 상기 입력문장을 재배열하는 단계;

상기 재배열된 입력문장의 띄어쓰기 태그열을 산출하는 단계; 및

상기 띄어쓰기 태그열을 이용하여 교정문장을 산출하는 단계;

를 포함하는 것을 특징으로 하는 자동 띄어쓰기 방법.
제8항에 있어서, 상기 띄어쓰기 태그열 산출단계에서, 상기 띄어쓰기 태그열은 비터비(Viterbi) 알고리즘을 이용하여 결정되는 것을 특징으로 하는 자동 띄어 쓰기 방법.
제1항에 있어서, 상기 띄어쓰기 확률값은 해당 문장에 포함된 소정음절의 발생확률과 상기 음절에 대한 띄어쓰기 태그의 발생확률의 결합확률로 정의되는 것을 특징으로 하는 자동 띄어쓰기 방법.
제 1항에 있어서, 상기 자동 띄어쓰기 방법은,

상기 입력문장에 포함된 각 음절에 대한 입력문장의 띄어쓰기 태그와 교정문장의 띄어쓰기 태그를 비교하는 단계를 더 포함하고,

상기 띄어쓰기 태그가 상이한 경우, 상기 띄어쓰기 태그가 상이한 상기 각각의 음절에 대해 상기 입력문장의 띄어쓰기 확률값 수정 단계 내지 상기 출력문장의 띄어쓰기 상태 결정 단계를 반복함으로써 상기 출력문장을 생성하는 것을 특징으로 하는 자동 띄어쓰기 방법.
제11항에 있어서, 상기 띄어쓰기 태그 비교단계에서, 상기 띄어쓰기 태그가 동일한 경우에는 해당 음절에 대한 입력문장과 교정문장의 띄어쓰기 태그값 중 어느 하나를 상기 음절에 대한 띄어쓰기 태그값으로 결정하는 것을 특징으로 하는 자동 띄어쓰기 방법.
제1항 및 제3항 내지 제12항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램이 기록된 기록매체.
입력문장과 상기 입력문장에 대해 띄어쓰기가 수행된 교정문장의 소정 음절에 대한 띄어쓰기 태그를 비교하는 태그 비교부;

상기 음절에 대한 띄어쓰기 태그가 상이한 경우 상기 상이한 태그를 포함하는 상기 입력문장의 띄어쓰기 확률값인 제1확률값에 상기 입력문장의 띄어쓰기에 대한 신뢰도를 반영하여 상기 제1 확률값을 수정하는 연산부;

상기 상이한 태그를 포함하는 상기 교정문장의 띄어쓰기 확률값인 제2 확률값과 상기 수정된 제1확률값을 비교하여 더 큰 확률값을 가지는 문장의 띄어쓰기 태그값을 상기 음절의 태그값으로 결정하는 태그값 결정부; 및

상기 태그값 결정부에 의해 결정되는 태그들의 태그값을 이용하여 출력문장을 생성하는 출력문장 생성부;

를 포함하는 것을 특징으로 하는 자동 띄어쓰기 시스템.
제14항에 있어서, 상기 연산부는

상기 제1확률값과 상기 제2 확률값을 산출하는 확률값 산출부;

상기 입력문장의 띄어쓰기에 대한 신뢰도를 산출하는 신뢰도 산출부; 및

상기 신뢰도 산출부에 의해 산출된 신뢰도를 상기 제1 확률값에 반영하는 신뢰도 반영부;

를 포함하는 것을 특징으로 하는 자동 띄어쓰기 시스템.
제15항에 있어서, 상기 신뢰도 산출부는 상기 입력문장과 상기 교정문장과의 유사도 및 상기 입력문장의 평균 어절길이와 소정 말뭉치로부터 추출되는 전체 문장의 평균 어절 길이의 차를 이용하여 상기 신뢰도를 산출하는 것을 특징으로 하는 자동 띄어쓰기 시스템.
제14항에 있어서, 상기 입력문장에 대해 띄어쓰기를 수행하여 교정문장을 생성하는 교정문장 생성부를 더 포함하는 것을 특징으로 하는 자동 띄어쓰기 시스템.
제17항에 있어서, 교정문장 생성부는 은닉 마르코프 모델을 이용하여 상기 교정문장을 생성하는 것을 특징으로 하는 자동 띄어쓰기 시스템.