KR100487716B1

KR100487716B1 - 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치

Info

Publication number: KR100487716B1
Application number: KR10-2002-0079265A
Authority: KR
Inventors: 최미란; 박준
Original assignee: 한국전자통신연구원
Priority date: 2002-12-12
Filing date: 2002-12-12
Publication date: 2005-05-03
Also published as: KR20040051351A

Abstract

본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그 장치는 대상 언어 코퍼스로부터 통계적으로 순서 정보를 생성하여 저장하는 단계; 대역 사전 데이터베이스를 구비하는 단계; 원시 언어 문장을 입력받아 형태소를 분석하는 단계; 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계; 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단계; 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 단계; 및 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 단계;를 포함하는 것을 특징으로 하며, 대화체 영역에서 대규모 대상 언어 코퍼스를 이용하여 통계적 방식으로 추출한 순서정보 데이터 베이스를 구성한 후 이용하여 번역문을 생성함으로써 고품질 및 고속의 번역문 생성이 가능하다.

Description

단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그 장치{Method for machine translation using word-level statistical information and apparatus thereof}

본 발명은 단어 레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그 장치에 관한 것으로, 보다 자세하게는 대용량 대상어의 코퍼스를 이용한 훈련 절차에서 추출된 통계정보에 의해 고품질의 번역문을 생성할 수 있는 번역문 생성 방법 및 그 장치에 관한 것이다.

지금까지 원시 언어에서 대상 언어로 번역문을 생성하기 위한 기계번역 방식에는 크게 생성 문법을 사용한 방식과 중간 언어를 사용한 방식이 사용되었다. 전자인 생성 문법을 사용한 방식은 번역문 생성장치의 핵심 지식인 문법을 프로그래밍 언어를 사용하여 구현하는 방식을 채택했는데 이 방법은 많은 언어학적 정보들을 프로그래밍화하기 위하여 언어학적인 지식을 가진 사람들에 의해 구현되기 때문에 문법의 확장이 어렵다는 단점이 있다. 또한 다양한 언어학적인 현상을 단순한 문법을 사용하여 표시하기 어렵기 때문에 수많은 예외 처리를 하는데 한계가 발생한다. 특히 생성 문법에 의해 번역을 하는 방식은 대화체에서 많은 어려움이 있는데 그 이유는 문법적으로 문어체보다 자유로운 대화체의 특성 때문이다.

번역문 생성을 위하여 사용되는 다른 한 가지 방법인 중간 언어를 이용하는 방식은 한정된 도메인에서는 적용 가능하나 범용으로 사용되기에는 한계가 있으며 인간의 언어가 나타내는 다양한 표현 형태를 중간 언어를 사용하여 표현하기 위해서는 대량 작업이 요구되며 끊임없이 중간 언어의 새로운 형태를 추가해야 된다는 부담이 있다. 또한 복잡한 상황에 대해서는 중간언어를 사용하여 표현하기 어렵고 이 중간 언어를 대상 언어로 다시 변환하기 위해서는 복잡한 변환 규칙을 다시 규정해야하는 어려움이 존재한다. 즉, 번역 장치의 점진적인 품질 향상을 위한 부담이 크게 증진하는 문제점이 있게 된다.

본 발명이 이루고자 하는 기술적 과제는 통계적 방법을 이용해 고품질의 번역문을 생성할 수 있는 번역문 생성 방법 및 그 장치를 제공하는데 있다.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 방법은 대상 언어 코퍼스로부터 통계적으로 순서 정보를 생성하여 저장하는 단계; 대역 사전 데이터베이스를 구비하는 단계; 원시 언어 문장을 입력받아 형태소를 분석하는 단계; 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계; 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단계; 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 단계; 및 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 단계;를 포함하는 것을 특징으로 한다.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 장치는 대역 사전 데이터베이스; 대상 언어 코퍼스로부터 통계적으로 순서 정보가 저장된 훈련모듈; 원시 언어 문장을 입력받아 형태소를 분석하는 형태소분석부; 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 변수화부; 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단어배열부; 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 복구부; 및 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 후처리부;를 포함하는 것을 특징으로 한다.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체는 대상 언어 코퍼스로부터 통계적으로 순서 정보를 생성하여 저장하는 단계; 대역 사전 데이터베이스를 구비하는 단계; 원시 언어 문장을 입력받아 형태소를 분석하는 단계; 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계; 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단계; 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 단계; 및 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 단계;를 포함하는 것을 특징으로 한다.

이하 첨부된 도면을 참조하면서 본 발명의 바람직한 일 실시예를 자세히 설명하도록 한다. 도 1 은 본 발명에 의한 단어 레벨의 통계적 방법을 이용한 번역문 생성 장치의 블럭도이며, 도 2는 본 발명에 의한 단어 레벨의 통계적 방법을 이용한 번역문 생성 방법의 흐름을 보여주는 흐름도이다. 설명의 편의 및 본 발명의 구성을 명확하게 하기 위하여 장치와 방법의 일 실시예를 함께 기술하도록 한다. 먼저, 본 발명의 바람직한 일 실시예의 구성을 개괄적으로 언급하도록 한다. 본 발명은 크게 두 가지로 이루어진다. 첫째는 훈련 모듈(110)인데, 순서 정보 데이터 베이스를 만들기 위한 것으로서, 형태소 추출부(111)은 대상 언어 코퍼스를 입력으로하여(201단계) 형태소 분석(202단계)을 거치게 된다. 이어 변수부(113)는 일정한 품사(예를 들면, 명사와 수사)에 해당하는 단어를 변수화한 후 형태소별로 단어별로 제거, 은닉 및 변수화를 시킨다(203단계). 순서정보추출부(115)는 트라이그램(trigram)을 이용하여 단어 순서 정보를 추출하고(204단계), 이 204단계의 결과로 생성된 순서 정보를 데이터베이스(205)화하여 저장한다.

두번째로 번역 모듈(120)을 살펴본다. 형태소분석부(121)은 입력으로 원시 언어 문장을 수신(206단계)하여 훈련 모듈(110)과 같이 형태소를 분석한다(207단계). 이 때는 원시 언어에 해당되는 형태소 분석기가 사용된다. 변수화부(123)는 형태소를 분석한 후 원시 언어 문장에 형태소 태거를 부착한다. 그리고 원시 언어 문장에 일정한 품사에 해당하는 단어를 변수화하고 해당 형태소별로 단어를 제거, 은닉 및 변수화를 시킨후에 출력한다(208단계). 단어배열부(125)는 대역 사전 데이터베이스(130)으로부터 자료을 입력받아 대상 언어로 단어를 교체한다(209단계). 단어 배열부는 훈련 모듈(110)에서 추출되어 저장된 순서 정보를 저장하고 있는 데이터베이스(205)를 참조하여 가장 확률값이 높은 단어 배열 선정에 들어간다(210단계). 이 때 각 퍼뮤테이션에 대하여 단어 교체의 가능성을 감안하여 가장 확률값이 높은 단어와 단어 배열이 선정된다. 만일 해당 트라이그램 정보가 순서 정보 데이터베이스(117, 205)에 없을 경우에는 백오프(backoff) 방법을 사용하여 바이그램(bigram)과 모노그램(monogram)을 이용하여 확률값을 구한다. 가장 확률값이 높은 단어 배열이 선정된 후 복구부(127)는 변수를 원래의 단어로 바꿔주고 은닉된 단어를 살린다(211단계). 후처리부(129)는 복구부(127)에서 결과로 생성된 문장을 문장의 형태에 맞게 평서문, 의문문등으로 문장 순서나 어미등을 맞춰서 변형해준다. 한영 번역의 경우에는 주어가 생략된 문장에 대해서 적절한 주어를 삽입해준다. 그외에 첫단어의 첫글자는 대문자화, 문장 부호를 살려준다(212단계). 그 결과로 대상 언어의 번역문이 생성된다(213단계).

이제, 본 발명의 바람직한 실시예를 보다 구체적으로 예를 들면서 상세히 설명한다. 번역문 생성장치의 기능은 번역문 생성 방법에 대응되므로 이하 번역문 생성 방법을 주로 하여 설명하도록 한다. 훈련 모듈(110)에서 대상 언어 코퍼스의 문장들은 문장 단위로 입력되어(201) 아래에서 설명할 각 단계를 거친다. 예로 대상 언어는 영어이고 원시 언어는 한국어인 경우를 들겠다. 즉 영어 코퍼스에서 하나의 영어 문장이 형태소 분석 단계(202)에서 영어 형태소 분석기에 의해 형태소 태깅 작업이 일어난다. 그 결과로 다음과 같은 예문의 형태소 태깅 결과문을 얻을 수 있다.

원문: I'd like a hot coffee with milk.

태깅 결과문: i/PRON 'd/AUX like/VERB a/DET hot/ADJ coffee/NOUN with/PREP milk/NOUN

다음으로 태깅 결과문은 해당 단어의 변수화 과정(203)을 거쳐서 접속사, 조동사, 한정사, 부사등은 은닉이 되고 명사와 수사는 변수화된다. 문장 부호는 삭제된다. 그 결과 문장은 다음과 같다.

i/PRON like/VERB hot/ADJ NOUN with/PREP NOUN

이 결과를 가지고 다음 단계인 단어 순서 정보 추출(204)로 넘어간다. 문장 경계 정보를 넣기 위해서 결과 문장의 양 끝에 문장 시작과 끝은 표시하는 <s>와 </s>를 추가한다. 그 결과 문장은 다음과 같다.

이 문장을 입력으로 하여 순서 통계를 추출하는 과정을 거친다. 이 문장에서의 모든 트라이그램을 기록하고 또한 바이그램과 모노그램을 기록한다. 영어 코퍼스에 있는 모든 문장을 이와 같은 단계를 거쳐서 훈련 코퍼스 데이터에서 나올 수 있는 모든 트라이그램, 바이그램, 모노그램의 통계를 계산하여 하나의 표에 저장한다. 즉 각 트라이그램, 모노그램에 대하여 출현 빈도를 계산하고 그 확률값을 계산하여 기록한다. 트라이그램 확률 계산식은 $prob = $count_tri / $count_bi 가 되는데 즉 하나의 트라이그램이 나올 확률은 그 트라이그램의 출현 빈도수를 바이그램의 출현 빈도수로 나눈 값이 된다. 바이그램 확률 계산식은 $binom_w = $v_count + $binom{$item_bi}; $prob = ($count_bi + 1)/$binom_w;을 사용한다. 여기서 $v_count는 전체 어휘수이며, $binom{$item_bi}는 특정 바이그램 $item_bi가 출현하는 누적 빈도수이다. $count_bi는 특정 바이그램이 출현하는 빈도수이다. 모노그램의 빈도수는 1/$v_count로 계산한다. 이 모노그램의 확률값은 번역 모듈에서 순서 정보가 없는 경우에 스무딩(smoothing)을 위하여 0 대신 사용한다. 이런 계산 과정을 거쳐서 나온 결과가 순서 정보 데이터 베이스(205)에 저장된다. 순서 정보 데이터 베이스(205)에 기록되는 다른 정보로는 프루닝을 위한 출현하지 않는 바이그램의 리스트이다. 이 리스트를 추출하기 위해서는 훈련 데이터의 각 문장을 가능한 모든 배열로 정렬하여 산출될 수 있는 모든 종류의 바이그램을 추출한 후에 순서 정보에 이미 저장되어 있는 바이그램은 제외한 것을 리스트로 만들어 놓는다. 이것이 프루닝을 위한 후보 바이그램 리스트이다.

이제, 실제로 원시 언어 문장을 번역하는 번역 모듈(120)에서 한국어 문장이 입력(206)되어 형태소 분석 단계(207)로 들어간다. 다음과 같이 한국어 원문은 한국어 형태소 분석기를 거쳐서 태깅된 결과가 나온다.

입력 문장: 저는 내일 서울로 출발할 것입니다.

태깅 결과: 저/npp+는/jxt 내일/mag 서울/nq+로/jca 출발/ncpa+ 하/xsv+ㄹ/etm 것/nbn+이/jp+ㅂ니다/ef

태깅 결과문에서 변수화 과정(208)을 거쳐서 해당 형태소의 은닉, 제거, 변수화가 이루어진 후 다음과 같은 결과 문장이 나온다.

저/npp nq 로/jca 출발/ncpa+하/xsv

이 문장은 도 3에 나온 것과 같은 대역 사전(130)을 기반으로 대상 언어로 단어 교체(209) 과정을 거쳐서 영어 단어로 교체되며, 형태소도 해당 영어 형태소로 교체된다. 원시 언어의 형태소와 대상 언어의 형태소의 비교표는 테이블로 프로그램 상에 유지된다. 그 결과 문장은 다음과 같다. 여기에서 동사인 출발하다의 대역어가 대역어 사전에 두 개가 존재하므로 두 가지의 후보 문장이 생성된다.

I/PRON NOUN for/PRON start/VERB

I/PRON NOUN for/PRON depart/VERB

위의 두 가지 경우에 대한 각 단어를 배열한 모든 경우에 대하여 순서 정보 데이터 베이스(205)를 참조하여 가장 높은 확률값을 구한다. 확률값은 모든 경우로 배열된 문장에 출현하는 각각의 트라이그램의 확률값의 곱으로 결정한다. 이 과정이 단어 배열(210) 단계이다. 여기에서 사용되는 프루닝 리스트는 훈련과정에서 산출된 출현하지 않는 바이그램 리스트이다. 모든 경우의 단어 배열을 하면서 프루닝 리스트에 해당되는 바이그램에 대해서는 미리 제외함으로써 계산의 범위를 줄여서 성능을 높일 수 있다. 이 단계의 결과로 확률값을 계산한 결과 가장 높은 점수를 얻은 배열로 다음과 같은 중간 단계의 문장이 출력된다.

I/PRON depart/VERB for/PRON NOUN

다음 단계는 변수의 원단어 복구(211) 단계로 이 문장의 변수인 NOUN은 원단어인 Seoul로 교체되고 은닉되었던 부사인 tomorrow가 문장 뒤에 삽입되어 다음과 같은 결과가 나온다.

I/PRON depart/VERB for/PRON Seoul tomorrow.

번역 모듈의 마지막 단계인 문장 후처리(212) 단계에서는 태깅이 삭제되고 부호가 추가되며 각 문장에 해당되는 문장 룰에 의해서 미래를 나타내는 조동사 will 이 추가된다. 결과로 다음과 같은 번역문이 생성된다.

I will depart for Seoul tomorrow.

문장 후처리 단계에서는 이외에도 주어 첨가, 수, 인칭, 시제등의 생성 정보를 처리하여 최종적으로 대상 언어에 가장 가까운 형태의 번역 문장이 출력된다(213).

본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등이 있으며, 또한 캐리어 웨이브(예를들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 또한 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서의 통상의 지식을 가진 자에게 있어 명백할 것이다.

상기와 같이 본 발명에 의한 번역문 생성 방법 및 그 장치에 의하면 대화체 영역에서 원시언어로부터 대상 언어로 번역하는 과정에 있어서 대규모 대상 언어 코퍼스를 이용하여 통계적 방식으로 추출한 순서정보 데이터 베이스를 구성하여 이용함으로써 고품질 및 고속의 번역문 생성이 가능하며, 기존의 기계 번역 장치의 효율적인 번역문 생성 장치로 다양하게 응용될 수 있다.

도 1 은 본 발명에 의한 단어 레벨의 통계적 방법을 이용한 번역문 생성 장치의 블럭도이다.

도 2는 본 발명에 의한 단어 레벨의 통계적 방법을 이용한 번역문 생성 방법의 흐름을 보여주는 흐름도이다.

도 3은 본 발명에 적용되는 대역 사전의 일 실시예를 보여주는 도면이다.

Claims

(a) 대상 언어 코퍼스로부터 통계적으로 순서 정보를 생성하여 저장하는 단계;

(b) 대역 사전 데이터베이스를 구비하는 단계;

(c) 원시 언어 문장을 입력받아 형태소를 분석하는 단계;

(d) 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계;

(e) 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단계;

(f) 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 단계; 및

(g) 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 단계;를 포함하는 것을 특징으로 하는 번역문 생성 방법.
제1항에 있어서, 상기 (a)단계는

(a1) 상기 대상 언어 코퍼스로부터 문장을 입력받아 형태소를 분석하는 단계;

(a2) 상기 형태소별로 태깅을 한 후 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계;

(a3) 변수화되고 형태소별로 태깅된 상기 입력문장을 구성하는 단어의 순서정보를 추출한 후 저장하는 단계;를 포함하는 것을 특징으로 하는 번역문 생성 방법.
제2항에 있어서, 상기 (a3)단계는

상기 단어간의 트라이그램, 바이그램, 그리고 모노그램의 빈도수에 기초한 확률값을 저장하는 단계;를 포함하는 것을 특징으로 하는 번역문 생성 방법.
제1항에 있어서, 상기 (e)단계는

(e1) 상기 대상 언어 단어가 하나 이상인 경우에는 각 단어가 삽입된 문장에 대하여 배열한 후 상기 (a)단계에서 저장된 확률값에 기초하여 그 중 하나를 선택하는 것을 특징으로 하는 번역문 생성 방법.
제4항에 있어서, 상기 (e1)단계는

상기 각 단어가 배열된 문장에 대하여 대치된 단어의 의미를 반영하고, 상기 저장된 순서정보에서 트라이그램, 바이그램, 그리고 모노그램값을 추출하여 각 배열의 값을 구한 후 가장 최대값을 선택하는 것을 특징으로 하는 번역문 생성 방법.
대역 사전 데이터베이스;

대상 언어 코퍼스로부터 통계적으로 순서 정보가 저장된 훈련모듈;

원시 언어 문장을 입력받아 형태소를 분석하는 형태소분석부;

상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 변수화부;

상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단어배열부;

상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 복구부; 및

상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 후처리부;를 포함하는 것을 특징으로 하는 번역문 생성 장치.
제6항에 있어서, 상기 훈련모듈은

상기 대상 언어 코퍼스를 문장단위로 입력받아 형태소를 분석하는 형태소추출부;

상기 형태소별로 태깅을 한 후 소정의 품사들에 대하여 변수화하는 변수부;

변수화되고 형태소별로 태깅된 상기 입력문장을 구성하는 단어의 순서정보를 추출하는 순서정보추출부;

상기 순서정보를 저장하는 저장부;를 포함하는 것을 특징으로 하는 번역문 생성 장치.
제6항에 있어서, 상기 저장부는

상기 단어간의 트라이그램, 바이그램, 그리고 모노그램의 빈도수에 기초한 확률값을 저장하는 것을 특징으로 하는 번역문 생성 장치.
제6항에 있어서, 상기 단어배열부는

상기 대상 언어 단어가 하나 이상인 경우에는 각 단어가 삽입된 문장에 대하여 상기 훈련모듈의 저장부에 기록된 확률값에 기초하여 배열하는 것을 특징으로 하는 번역문 생성 장치.
제9항에 있어서, 상기 단어배열부는

상기 순서정보를 생성하는 과정에서 출현하지 않는 바이그램 리스트를 작성하여 상기 리스트에 해당되는 바이그램은 제외하는 것을 특징으로 하는 번역문 생성 장치.
제1항의 단계를 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.