KR20000036487A

KR20000036487A - 정보검색기술을 이용한 한영번역 데이터베이스 시스템

Info

Publication number: KR20000036487A
Application number: KR1020000013599A
Authority: KR
Inventors: 임종태
Original assignee: 임종태
Priority date: 2000-03-17
Filing date: 2000-03-17
Publication date: 2000-07-05
Also published as: KR100376931B1

Abstract

본 발명은 한글 문장을 영어 문장으로 번역하기 위한 데이터베이스 시스템으로, 더욱 상세하게는 한글 문장과 그에 대응하는 영어 문장을 데이터베이스로 구축하고 정보 검색의 n-gram 기술을 이용하여 한글 문장을 영어 문장으로 번역하는 방법에 관한 것이다.

이를 위하여 본 발명은, 한글 문장과 영어 문장들을 데이터베이스로 구축하는 단계와 한글 문장을 영어 문장으로 번역하는 단계로 나누어지며, 번역하는 단계는 질의한 한글 문장을 n-gram 기술을 이용하여 두 음절씩 나누는 과정, 분리한 음절들이 들어있는 문장을 데이터베이스에서 검색하는 과정, 검색된 문장들 중에서 질의 음절을 많이 포함한 순서로 정렬하여 사용자 인터페이스를 작성하는 과정으로 이루어진 것에 특징이 있다.

Description

정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 {A Database System for Korean-English Translation Using Information Retrieval Techniques}

본 발명은 정보 검색 기술을 이용한 한영 번역 데이터베이스 시스템에 관한 것으로서, 더욱 상세하게는 한글 문장과 그에 대응하는 영어 문장을 데이터베이스로 구축하고 정보 검색의 n-gram 기술을 이용하여 한글 문장을 영어 문장으로 번역하는 정보 검색 기술을 이용한 한영 번역 데이터베이스 시스템에 관한 것이다.

종래에는 숙어 번역 방식에 의한 방법, 단어의 품사로 번역순서를 정하는 방법들을 사용한 번역 소프트 웨어가 일부 개발되어 상품화되어 있다. 하지만 한영 번역 기술은 한글의 형태소 분석, 구문 분석과 의미소 분석을 사용하여 영어 문장으로 번역하는 방법을 쓴다. 이 방법은 한글 문장의 복잡하고 조사의 다양한 사용 방법으로 인해서 원하는 영어 문장으로의 번역이 이루어지고 있지 않다. 예를 들어 최근에 좋은 번역 프로그램이라고 알려진 매직 박스 99는 영어 단문을 한글로 번역하는데 있어서 단문인 경우에 60-70%의 번역률을 나타내고 있으며, 두 개 이상의 절이 결합된 영어 장문 번역에 있어 매끄럽지 못한 단점이 있다. 특히 And와 But 등의 접속사와 가정형 If나 명령문의 연결이 매끄럽지 못하다. "It is important that people from different cultures come to understand each other and develop mutual trust"의 경우 "중요하다, 다른 문화들로부터 사람이 서로 이해하는 것을 하게 된다, 그리고 상호의 확신한다는 것을 발전시킨다"로 해석해 순차 번역 알고리즘의 한계를 드러낸다.

기초적인 영문법에 근간으로 무난한 번역률을 보인 매직 박스 99는, 그러나 한영 번역에서 50% 미만의 번역률로, 실제로 홈페이지에 올릴 회사 소개서를 번역할 경우 주어와 동사로 연결된 문장이 아닌 단어 번역의 수준에 그쳤다. "최고의 경쟁력을 갖춘 기업임을 자신합니다"를 "Paramount competition 갖춘 enterprise 자신합니다"로 옮기는 정도이다.

국내공개특허공보 공개번호제10-1999-047854호에는 지능형 메타데이타 시스템(IMDS)을 위한 메타데이타에 의한 정보 검색의 지능형 사용자 인터페이스 방법에 관한 것이다. 사용자가 질의를 하고, 시스템은 사용자 질의의 특징을 추출하여 번역 모듈에서 특징 벡터로 변환한다. 그후 태스크 처리 모듈에서 질의 특징벡터를 이용하여 메타데이터 탐색 트리를 탐색한다. 그 탐색중에 특징에서 지속적 탐색이 불가능하면 자동 질의 분석 모드로 전환하여서 사용자 인터페이스 관리기에서 이전의 유사한 질의와 긍정적으로 연계되어 있는 응답 케이스를 조회하고, 조회된 응답 케이스들을 통하여 특징의 속성을 결정한다. 만일 불충분한 정보로 인하여 특징의 속성을 결정할 수 없으면 사용자와 대화형 모드로 전환하여서 사용자가 속성을 추가 입력한다. 그리고 그 판단 트리의 단말노드에 도착할 때까지 지속적으로 탐색한다. 그 탐색결과, 시스템 학습모드이면 조회된 응답들에 대한 상관도를 사용자가 평가하여 피이드백하는 것을 특징으로 하는 메타데이타에 의한 정보 검색의 지능형 사용자 인터페이스 방법이 기재되어 있으며,

국내공개특허공보 공개번호 제10-1994-017572호에는 데이타 백업 블럭(DBBG)의 기능 수행 시작시 데이타 베이스 화일의 물리적 옵셋을 저장하는 제1단계(10); 데이타 백업 요구를 받으면 화일을 오픈하고 생(RAW) 디스크의 물리적 옵셋을 계산한 후 화일 시스팀 내부의 블럭 경계를 조정하는 제2단계(11 내지 13); 출력 데이타의 블럭 경계를 조정하여 해당 데이타를 데이타 베이스 화일에 출력하는 제3단계(14 내지18)로 구성된 실시간 데이타베이스 관리 시스템에서 고속 데이타 백업 방법이 공개되어 있고,

국내공개특허공보 공개번호 제10-1999-088678호에는 문서에 기술된 내용의 특징을 나타내는 문자열을 추출하는 방법 및 장치와, 문자열 추출 프로그램을 격납한 기억매체와, 이 방법 및 장치를 이용하여, 사용자가 지정한 문서에 기술되어 있는 내용과 유사한 내용을 포함하는 문서를 문서 데이터베이스 중에서 검출하는 방법 및 장치와, 검색 프로그램을 격납한 기억매체에 관한 특징 문자열 추출방법 및 장치와,이를 이용한 유사문서 검색방법 및 장치와,특징문자열 추출프로그램을 격납한 기억매체 및 유사문서 검색프로그램을 격납한 기억매체가 기재되어 있으나,

상기 종래의 기술들은 개발된 영한 번역 프로그램은 초급 수준 정도로 사용할 수 있으나, 한영 번역 프로그램은 거의 사용할 수 있는 단계에 있지 못하고 있는 실정이다.

본 발명은 상기와 같은 문제점을 해결하기 위하여, 정보 검색의 N-GRAM 기술의 문장 분리 방법과, 데이터베이스 시스템의 장점인 대용량의 데이터를 빨리 처리할 수 있다는 점과, 한글과 영어 문법을 잘 아는 사람보다 아주 많은 영어 문장을 암기하고 있는 사람이 영어 작문 실력이 더 훌륭하다는 사실에 착안하여 많은 양의 한글과 영어를 데이터베이스로 구축하고, 이를 이용하여 사용자의 질의에 일치하거나 가장 근접한 영어 문장으로 번역해 주는 정보 검색 기술을 이용한 한영 번역 데이터베이스 시스템을 제공하는 것을 그 목적으로 하는 것이다.

도 1은 한영 번역 데이터베이스 시스템의 스키마

도 2는 데이터베이스에 "나는 교회에 간다"와 "I go to church"를 추가할 때의 변화되는 부분들을 나타낸 도면

상기와 같은 목적을 달성하기 위하여, 본 발명은 데이타베이스 스키마의 구조, 데이터베이스 구축 단계 및 번역 단계로 구성된 정보 검색 기술을 이용한 한영 번역 데이터베이스 시스템에 관한 것이다.

본 발명에서 사용되는 데이타베이스 스키마의 구조는 한영 번역 데이터베이스 시스템으로서, 도 1과 같은 한글 문장 릴레이션(테이블) 스키마들을 갖는다. 도 1의 1번 릴레이션(KTB)는 한글 문장 리스트들을, 2번 영어 문장 릴레이션(ETB)는 영어문장 리스트들을 유지하는 테이블이다. 도 1의 3번 한영 매칭 릴레이션(KEMAT)는 한글 문장과 그에 대응하는 영어 문장의 쌍의 관계를 표시한다. 도 1의 4번 음절표 릴레이션(KWTB)는 데이터베이스에 구축된 한글 문장에서 나타날 수 있는 음절들과 그들을 구별하기 위한 번호, 그리고 음절이 포함한 문장의 수를 나타내는 항목들로 구성한다. 도 1의 5번 음절포함 문장 릴레이션(WKMAT)는 두 음절이 포한된 문장들의 관계를 표시한다.

데이터베이스 구축 단계는 사용자 인터페이스에서 한글 문장과 대응하는 영어 문장을 입력받아서 이 한글 문장이 이미 등록되어 있는지 확인하는 단계를 거친다. 등록되어 있는 지 여부의 확인은 입력한 영어 문장과 도 2의 영어 문장 릴레이션(ETB)의 영어 문장들과 문자열 비교하여 매칭되는 지 여부로 결정한다. 새로운 한영 문장 쌍이 데이터베이스에 등록되어 있지 않으면 입력한 한영 문장 쌍을 데이터베이스에 추가하는 단계를 거친다. 예를 들어 설명하면, "나는 교회에 간다"와 "I go to church"의 한영 문장 쌍에 대하여 이 영어 문장이 데이터베이스에 등록되어 있지 않으므로 이 문장 쌍을 데이터베이스에 추가한다. 도 2에서 릴레이션의 별표(*) 표시가 있는 부분이 추가 변화된 것이다. 먼저 도 2의 KTB 릴레이션에 한글 문장을, ETB 릴레이션에 영어 문장을, 그리고 KEMAT 릴레이션에 한글 문장번호와 영어 문장번호를 추가한다. 다음에 추가할 한글 문장을 구두점(쉼표, 물음표, 느낌표 등)을 제거한 후에 두 음절씩 분해하고, 각 음절이 KWTB 릴레이션에 있는지 여부를 탐색하여 있으면 음절 번호를, 없으면 이 음절을 KWTB 릴레이션에 추가하고 나서 음절 번호를 얻는다. 이 때에 KWTB 릴레이션의 이들 음절에 대한 Scnt 항목의 값은 1 증가 시키고, 새로운 음절인 경우에는 1로 초기화한다. 도 2의 KWTB 릴레이션은 Wid가 16, 17, 18인 레코드의 Scnt의 값이 1로 초기화되고, 10, 15번은 1이 증가한 내용을 나타내고 있다.

다음에는 도 2의 WKMAT 릴레이션에 이들 음절 번호와 KTB 릴레이션에 첨가할 때의 한글 문장 번호를 쌍으로 추가한다.

번역 단계는 사용자가 번역을 원하는 한글 문장을 받아서 문장내의 구두점(쉼표, 물음표, 느낌표 등)을 제거하는 과정을 거쳐서, n-gram 기술을 이용하여 문장으로부터 두 음절씩 분해하는 과정을 거친다. 분해한 각 음절들에 대하여 도 2의 KWTB 릴레이션를 탐색하여 음절번호(Wid)를 얻고, 이 음절 번호로 WKMAT 릴레이션에서 문장번호들을 얻는다. 모든 분해 음절에 대하여 포함한 문장번호를 얻어서 이 문장번호들 중에서 분해 음절을 많이 포함한 순서로 정렬하여 KEMAT, ETB, 그리고 KTB 릴레이션들로부터 영어문장 과 한글 문장들을 얻어 이를 사용자에게 보여 준다.

예를 들어 사용자가 "나는 교회에 간다"라는 한글을 번역하고자 한다면, 먼저 구두점을 제거한 문장 "나는교회에간다" 로 바꾸고 다시 두음절로 분해한 "나는,는교,교회,회에,에간,간다"를 만들고 KWTB 릴레이션을 탐색하여 "10,16,17,18,15"의 음절번호를 얻는다. 다음에 WKMAT 릴레이션으로부터 10번은 문장번호 (100,101)을, 16번은 문장번호 101을, 17번은 101, 18은 101, 15는 (100,101)의 문장번호를 얻게 되어 결과로 101번이 원하는 문장이다. 다음에는 이 문장번호 101번을 가지고 KEMAT, KTB, ETB 로부터 영어 문장 201을 얻게 되어, 영어문장 201과 한글문장 101을 사용자에게 보여 준다.

상기와 같은 본 발명은, 데이터베이스와 정보검색의 기술을 이용하여 한글문장과 그에 대응되는 영어 문장들의 데이터베이스를 구축하고 사용자의 한글 질의를 구축한 데이터베이스를 검색하여 해당 영어 문장으로 변역하여 주는 방법으로, 향후 기가헤르쯔의 CPU 속도와 테라 바이트의 기억 공간이 보편화되는 시점에는 질의 처리 속도는 크게 빨라지게 될 것이므로 번역이 필요한 모든 분야에서 널리 이용되는 효과가 있는 것이다.

Claims

정보 검색 기술을 이용한 한영 번역 데이터베이스 시스템에 있어서, 데이터베이스 구축 단계와, 한글 문장을 영어 문장으로 데이터베이스를 이용하여 번역하는 단계와, 질의한 한글 문장을 n-gram 기술을 이용하여 두 음절씩 나누는 과정과, 분리한 음절들이 들어있는 문장을 데이터베이스에서 검색하는 과정,검색된 문장들 중에서 질의 음절을 많이 포함한 순서로 정렬하여 사용자 인터페이스를 작성하는 과정을 포함하여 구성됨을 특징으로 하는 정보 검색 기술을 이용한 한영 번역 데이터베이스 시스템.
제1항에 있어서, 상기 데이터베이스 구축 단계는 사용자 인터페이스에서 한글 문장과 대응하는 영어 문장을 입력받아서 이 한글 문장이 이미 등록되어 있는지 확인하는 단계를 거친 다음, 등록되어 있는 지 여부의 확인은 입력한 영어 문장과 영어 문장 릴레이션(ETB)의 영어 문장들과 문자열 비교하여 매칭되는 지 여부로 결정하는데, 새로운 한영 문장 쌍이 데이터베이스에 등록되어 있지 않으면 입력한 한영 문장 쌍을 데이터베이스에 추가함을 특징으로 하는 정보 검색 기술을 이용한 한영 번역 데이터베이스 시스템.
제1항에 있어서, 상기 번역 단계는 사용자가 번역을 원하는 한글 문장을 받아서 문장내의 구두점(쉼표, 물음표, 느낌표 등)을 제거하는 과정을 거쳐서, n-gram 기술을 이용하여 문장으로부터 두 음절씩 분해한 각 음절들에 대하여 KWTB 릴레이션를 탐색하여 음절번호(Wid)를 얻고, 이 음절 번호로 WKMAT 릴레이션에서 문장번호들을 얻는다음, 모든 분해 음절에 대하여 포함한 문장번호를 얻어서 이 문장번호들 중에서 분해 음절을 많이 포함한 순서로 정렬하여 KEMAT, ETB, 그리고 KTB 릴레이션들로부터 영어문장 과 한글 문장들을 얻어 이를 사용자에게 보여 주는 번역 단계로서, 정보 검색 기술을 이용한 한영 번역 데이터베이스 시스템.