KR101099177B1

KR101099177B1 - 기계 번역기를 훈련하기 위한 방법 및 시스템

Info

Publication number: KR101099177B1
Application number: KR1020040037286A
Authority: KR
Inventors: 제시 핑크햄
Original assignee: 마이크로소프트 코포레이션
Priority date: 2003-05-27
Filing date: 2004-05-25
Publication date: 2011-12-27
Also published as: EP1482416A2; EP1482416B1; KR20040102329A; BRPI0401815A; CN1573740A; US20040243390A1; JP4554273B2; US7319949B2; CN101673260A; EP1482416A3; JP2004355625A

Abstract

본 발명에서는 다른 기계 번역기들에 의해 생성된 텍스트 입력들을 가지고 훈련되는 기계 번역기가 개시된다. 사용자 또는 다른 소스(source)에 의해 제1 언어로 된 텍스트 입력이 제공된다. 그 후 이러한 텍스트 입력이 제1 기계 번역기에 의해 번역되어 그 텍스트 입력의 제2 언어로 번역된 버전이 생성된다. 그 텍스트 입력 및 번역된 버전이 파싱되고(parsed) 훈련 아키텍처를 통과하여 전송 매핑(transfer mapping), 및 이중언어 사전(bilingual dictionary)이 개발된다. 이러한 컴포넌트들은 그 후 제2 기계 번역기에 의해 다른 텍스트 입력들을 번역할 때 사용된다.

기계 번역기, 훈련, 이중언어 코퍼스, 이중언어 사전, 전송 매핑, 논리 형태.

Description

기계 번역기를 훈련하기 위한 방법 및 시스템{UNILINGUAL TRANSLATOR}

도 1은 본 발명이 구현될 수 있는 일 환경을 나타내는 블록도.

도 2a는 본 발명의 훈련 아키텍처(training architecture)를 나타내는 블록도.

도 2b는 훈련 프로세스 동안 수행되는 단계들을 나타내는 흐름도.

도 3은 본 발명의 일 실시예에 따른 훈련 아키텍처를 나타내는 블록도.

도 4는 도 2a에서 도시된 기계 번역기를 보다 상세하게 나타내는 블록도.

도 5는 번역을 위해 텍스트 입력이 제공될 때에 기계 번역기에 의해 실행되는 단계들을 나타내는 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

200 : 훈련 시스템

210 : 입력 텍스트

220 : 제1 기계 번역기

230 : 번역 쌍들

240 : 훈련 아키텍처

250 : 제2 기계 번역기

본 발명은 단어들 간의 관계들을 습득하는 것과 관련된다. 보다 구체적으로, 본 발명은 이중언어 텍스트(bilingual text)를 사용하여 기계 번역기를 훈련하는 방법에 관한 것이다.

기계 번역은 컴퓨터 소프트웨어 및 컴포넌트들을 이용하여 독일어, 프랑스어, 또는 일본어와 같은 하나의 언어로 된 텍스트를 제2 언어, 이를테면 영어, 스페인어, 또는 아랍어로 번역하는 프로세스이다. 기계 번역은 결코 간단한 프로세스가 아니다. 기계 번역은 단순히 하나의 단어를 다른 것으로 대체하는 것이 아니라, 주어진 텍스트를 구성하는 모든 단어들을 아는 것에 기초하며, 텍스트 내의 한 단어가 어떻게 그 텍스트 내의 다른 단어들에 영향을 미치는지를 기초로 한다. 한편, 인간의 언어는 복잡하며, 형태론(morphology), 구문론(syntax) 또는 문장 구조(sentence structure), 의미론(semantics), 중의성(ambiguities) 및 불규칙성(irregularities)과 같은 여러 특성들로 이루어진다. 두 언어들 간의 번역을 위해, 기계 번역기는 각각의 언어의 문법적 구조(grammatical structure)를 고려해야 한다. 나아가, 기계 번역기는 제1 언어(소스)의 문법적 구조를 제2 언어(타깃)로 전송하기 위해 규칙들(rules) 및 가정들(assumptions)을 사용해야 한다.

한편, 언어들에 수반된 복잡성 때문에, 기계 번역은 단지 30%와 65% 사이의 정확도를 갖는 편이다. 많은 구문들(phrases)과 구어 용어들(colloquial terms)이 쉽게 번역되지 않는다. 장소, 사람, 과학 용어 등의 명칭들이 번역되지 않아야 하는 경우에도 이들의 번역이 시도된다. 규칙들에 대한 많은 예외들이 존재함에도 불구하고, 그 모든 예외들에 대해 코드를 기록하는 것은 연장된 작업이 될 것이기 때문에, 소정의 문법적 특징들에 대하여 하드-코딩된(hard-coded) 규칙들이 항상 적용될 수 있고, 이는 느린 번역 프로세스를 가져온다. 따라서 현재의 기계 번역 기법들에 의해 번역된 문서가 사용자에게 이해 가능할 수도 있고, 심지어 이해 불가할 수도 있다. 더군다나, 그 문서의 몇몇 중요한 요소들(elements)이 잘못 번역될 수도 있다.

기계 번역기들은 사실상 시스템을 훈련하는데 사용되는 훈련 데이터(training data)와 같은 역할을 한다. 기계 번역기들은 일반적으로 사람에 의해 작성된 번역들(human authored translation)을 사용하여 훈련된다. 이러한 번역들은 서로 관련된 다양한 단어 쌍들(pairs of words)을 식별하는 훈련 아키텍처(training architecture)를 통과한다. 이러한 단어 쌍들은 주로 텍스트 내의 단어들에 대한 번역들인데, 때때로 이러한 단어들이 관련된 단어들의 정확한 번역들이 아닌 경우가 있다. 다른 기계 번역기들은 이중언어 사전(bilingual dictionary)으로부터의 데이터를 사용하여 훈련된다. 한편, 이러한 유형의 번역들로부터의 훈련이 반드시 기계 번역기를 훈련하기 위한 최고의 방법만은 아니다. 그 번역들이 번역기로 하여금 주어진 환경에서 잘못된 단어를 선택하도록 유도할 수도 있기 때문이다.

기계 번역기를 훈련하기 위해 사람에 의해 작성된 번역들을 사용하는 것의 한 가지 문제는 그 번역들이 종종 단어의 진정한 의미에서의 번역이 아니라 오히려 텍스트의 해석에 더 가깝다는 점이다. 예를 들어, 캐나다에서는, 의회 토론(parliamentary debates)이 기계 번역기를 훈련하는데 사용될 수 있는 사람에 의해 작성된 번역 데이터(translate data)의 용이한 소스를 제공한다. 그러나, 이러한 번역들은 종종 진정한 번역들이 아니다. 따라서 이들은 기계 번역기에 정확한 번역들을 생성하는데 필요한 수준까지 훈련 데이터를 제공하지 않는다.

기계 번역의 정확도 문제(accuracy problem)는 간단한 예를 통해 설명될 수 있다. 현재 이용 가능한 기계 번역을 사용하여, 사용자가 하나의 문장을 영어에서 불어로 번역하고자 한 경우에는, 어느 정도의 부정확성(inaccuracy)이 수반될 것이다. 기계 번역을 사용하여 그 문장을 도로 영어로 번역함에 있어서, 원래의 번역 부정확성이 증폭되어 대부분의 경우 그 문장은 원래의 영어 문장과 달라질 것이다. 캐나다의 토론에서 가져온 이하의 성명(statement)을 예로 든다.

Mr. Hermanson: On a point of a order, Mr. Speaker, I think you will find unanimous consent to allow the leader of the Reform Party, the hon. member for Calgary Southwest, to lead off this debate, and the hon. member for Red Deer would then speak in his normal turn in the rotation. (의사진행에 관하여, 의장님, 저는 개혁당의 총재이자 캘거리 사우스웨스트의 명예 의원으로 하여금 이 토론을 개시하도록 하는 것이 만장일치임을 당신이 알게 되실 거라고 생각합니다. 그리고 레드 디어의 명예 의원은 발언 차례에서 그의 정상적인 차례가 되면 발언할 것입니다.)

이는 사람인 번역자에 의해 불어로 다음과 같이 번역되었다.

이를 도로 영어로 번역하면 다음과 같다.

I call upon the requirement, Mr. President. I think that you will find that there is a unanimous consent to the proposition that the head of the reformist party, the member from Calgary-Southwest start this debate, and that the member from Red Deer makes his statement when it is his turn. (요구사항을 요청합니다, 의장님. 저는 개혁당의 총재이자 캘거리-사우스웨스트로부터의 의원이 이 토론을 시작하자는 제안에 대해 만장일치가 있음을 당신이 알게 되실 것이고, 레드 디어로부터의 의원은 그의 차례가 되는 때에 그의 성명을 발표할 거라고 생각합니다.)

한편, 기계 번역기를 사용하여 영어로 도로 번역하는 경우에는 다음과 같이 된다.

I call upon the Payment, Mr. President President. I think that you will find that there is unanimous assent so that the chief of the Party reformist, the deputy of Calgary-South-west, engages this debate and that the deputy of Red Deer speaks then when it is its turn. (지불을 요청합니다, 의장님 President. 저는 개혁당의 우두머리이자 캘거리-사우스-웨스트의 하원 의원이 이 토론을 채우도록 만장일치가 있음을 당신이 알게 되실 것이고, 레드 디어의 하원 의원은 그것의 차례가 되면 발언할 것이라고 생각합니다.)

앞의 예에서 볼 수 있는 바와 같이, 기계 번역의 질은 개선해야 할 점이 많다. 사람에 의한 번역들에 의존하는 것은 단어들 사이의 관계를 습득할 때, 기계 번역기로 하여금 번역들이 아닌 해석들에 의존하도록 만들기 쉽다. 또한 훈련 데이터로서 사용할 수 있는 자료들(materials)의 수는 제한되어 있다. (예를 들면, 성경책, 2개 국어나 수 개 국어를 사용하는 조직에서의 토론, 및 특히 이중언어의 형태로 생성된 다른 문서들.) 나아가, 기계 번역기를 훈련하는데 사용하기 위해, 번역된 문서들을 더 많이 생성하는 것은 비용이 많이 드는 프로세스이며, 여전히 기계 번역기를 효율적으로 훈련하기에 충분한 정확도를 제공하지 않는다. 따라서, 기계 번역기의 정확도를 유지하거나 향상시키면서, 최소한의 비용으로 많은 양의 번역된 데이터를 사용하여 기계 번역기를 훈련하는 것이 바람직하다.

본 발명은 다른 기계 번역기들에 의해 도출된 텍스트 입력들(textual inputs)에 의해 훈련되는 기계 번역기에 관한 것이다. 사용자 또는 다른 소스에 의해 제1 언어로 된 텍스트 입력이 제공된다. 그 후 이러한 텍스트 입력이 기계 번역기에 의해 번역되어 그 텍스트 입력의 제2 언어로 번역된 버전이 생성된다. 이러한 번역을 위해 사용되는 기계 번역기는, 사람에 의해 작성된 정렬된 이중언어 코르피(human authored aligned bilingual corpi)나 이중언어 사전을 사용하여, 또는 양자를 사용하여 훈련되는 종래 기술 유형의 기계 번역기이다.

텍스트 입력 및 그 텍스트의 번역된 버전 양자가 정렬 컴포넌트(aligning component)에 제공된다. 이 정렬 컴포넌트는 훈련 아키텍처의 일부일 수 있고, 또는 자립형 컴포넌트(stand alone component)일 수도 있다. 정렬 컴포넌트는 텍스트 입력 내의 단어들 또는 구문들(phrases)을 그 텍스트 입력의 번역된 버전 내의 단어들 및 구문들과 짝지어 쌍으로 만든다. 이러한 쌍들은 그 후 논리 형태들(logical forms)로 변환된다. 텍스트 입력에 대한 쌍들의 도출에 이어서, 그 쌍들이 훈련 아키텍처에 의해 처리된다. 기계 번역기로부터의 텍스트 입력은 사람에 의해 작성된 소스들이나 이중언어 사전들로부터의 데이터를 가지고 보충될 수 있다.

훈련 아키텍처는, 결함이 있는 입력이더라도 그로부터 합당한 논리 형태들을 제공하는 견고한 파서(robust parser)의 사용을 통해, 기계 번역기에 의해 생성된 불완전한 번역들로부터 습득하도록 구성된다(configured). 훈련 아키텍처는 소스 언어로 된 논리 형태들이나 그 부분들을 제2 언어로 된 논리 형태들이나 그 부분들에 링크(link)하는 전송 매핑들(transfer mappings)을 포함하는 전송 매핑 데이터베이스(transfer mapping database)를 구축한다. 일단 전송 매핑 데이터베이스가 생성되면, 그 결과들이 제2 기계 번역기에 제공된다.

제2 기계 번역기는 훈련 아키텍처에 의해 개발된 전송 매핑을 사용하여 텍스트 입력을 제1 언어로부터 제2 언어로 번역하도록 구성된다. 번역 프로세스동안 제1 언어로 된 텍스트 입력이 제2 기계 번역기에 제공된다. 제2 기계 번역기는 그 텍스트 입력을 수신하며 분석 컴포넌트를 사용해 그 텍스트 입력 내의 각각의 단어에 대한 소스 논리 형태들(source logical forms)을 생성한다.

소스 논리 형태들의 생성에 이어서, 제2 기계 번역기 내의 매칭 컴포넌트(matching component)는 소스 논리 형태들을 전송 매핑 데이터베이스 내의 논리 형태들과 매칭한다. 그 후 소스 논리 형태의 노드들(nodes) 상에서 대응하는 타깃 논리 형태 세그먼트들(target logic form segments)의 사본들(copies)로의 링크들(links)이 생성된다. 그 후 링크된 논리 형태의 하향식 순회(top down traversal)를 수행함으로써 타깃 논리 형태들이 생성된다. 소스 논리 형태 노드들 상의 링크들에 의해 지시되는 타깃 논리 형태 세그먼트들이 결합된다. 매핑 프로세스에 이어서, 타깃 논리 형태들이 타깃 문장으로 매핑되며, 텍스트 입력의 번역이 생성되어 제2 기계 번역기로부터 타깃 언어로 출력된다.

도 1은 본 발명이 구현될 수 있는 적합한 컴퓨팅 시스템 환경(100)을 나타낸다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 하나의 예일 뿐이며 본 발명의 사용 또는 기능의 범위에 관하여 임의의 제한을 제시하고자 의도되지 않는다. 예시적인 동작 환경(100)에서 도시된 컴포넌트들 중 임의의 하나 또는 임의의 조합과 관련해 컴퓨팅 환경(100)이 의존성(dependancy) 또는 요구사항(requirement)을 갖는 것으로 해석되어서는 안 된다.

본 발명은 다른 다수의 범용(general purpose) 또는 특수 목적(special purpose) 컴퓨팅 시스템 환경들이나 구성들(configurations)에서 동작할 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는, 잘 알려진 컴퓨팅 시스템들, 환경들, 및/또는 구성들의 예들은, 퍼스널 컴퓨터, 서버 컴퓨터, 휴대용(hand-held) 이나 랩톱(lap-top) 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 톱 박스(set top box), 프로그램 가능한 가전 제품(programmable consumer electronic), 네트워크 PC, 미니컴퓨터, 대형 고속 컴퓨터(mainframe computer), 앞의 시스템들 또는 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경(distributed computing environments) 등을 포함하지만, 이들에 한정되지는 않는다.

본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈들과 같은, 컴퓨터 실행가능 명령문들(computer-executable instructions)의 일반적인 문맥(context)으로 설명될 수 있다. 일반적으로, 프로그램 모듈들은 특정한 작업들을 수행하거나 특정한 추상 데이터 타입들(abstract data types)을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 연결되는 원격 처리 장치들에 의해 작업들이 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 메모리 저장 장치들(memory storage devices)을 포함하는 로컬 및 원격 컴퓨터 저장 매체 양자에 위치할 수 있다.

도 1을 참조하면, 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태로 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(processing unit; 120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트들을 처리 장치(120)에 연결하는 시스템 버스(121)를 포함할 수 있으나, 이들에 한정되지는 않는다. 시스템 버스(121)는, 메모리 버스나 메모리 컨트롤러, 주변장치 버스, 및 다양한 버스 아키텍처들 중 임의의 것을 사용하는 로컬 버스를 포함하는 몇몇 유형의 버스 구조들(bus structures) 중에서 어떤 것이든지 될 수 있다. 예를 들어, 그러한 아키텍처는 산업 표준 아키텍처(Industry Standard Architecture; ISA) 버스, 마이크로 채널 아키텍처(Micro Channel Architecture; MCA) 버스, 확장 ISA(Enhanced ISA; EISA) 버스, 비디오 전자 공학 표준 협회(Video Electronics Standards Association; VESA) 로컬 버스, 및 메자닌(Mezzanine) 버스로도 알려진 주변 컴포넌트 상호 접속(Peripheral Component Interconnect; PCI) 버스를 포함하나 이들에 한정되지는 않는다.

컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체(computer readable media)를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 접근될 수 있는 임의의 이용 가능 매체가 될 수 있고, 휘발성 및 비휘발성 매체, 착탈식(removable) 및 고정식(non-removable) 매체 모두를 포함한다. 예를 들어, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체(computer storage media) 및 통신 매체(communication media)를 포함할 수 있으나 이에 한정되지는 않는다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령문, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법이나 기술에서 구현되는 휘발성 및 비 휘발성, 착탈식 및 고정식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다용도 디스크(DVD) 또는 다른 광 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치들, 또는 컴퓨터(110)에 의해 접근 가능하며 원하는 정보를 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있으나, 이에 한정되는 것은 아니다. 통신 매체는 통상적으로, 반송파(carrier wave) 또는 다른 전송 메커니즘(transport mechanism)과 같은, 변조 데이터 신호(modulated data signal) 내의 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈 또는 다른 데이터를 구현한다. 통신 매체는 또한 임의의 정보 전달 매체(information delivery media)를 포함한다. "변조된 데이터 신호"라는 용어는 그 신호의 특성 세트(characteristics set) 중에서 하나 또는 그 이상을 갖거나, 그 신호 내의 정보를 인코딩하기 위한 방식으로 변경된 신호를 의미한다. 예를 들어, 통신 매체는 유선 네트워크(wired network) 또는 직접-유선 접속(direct-wired connection)과 같은 유선 매체를 포함하고, 음향(acoustic), RF, 적외선 및 그 밖의 무선 매체와 같은 무선 매체를 포함하나, 이에 한정되는 것은 아니다. 앞의 것들의 임의의 조합들도 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

시스템 메모리(130)는 랜덤 액세스 메모리(RAM; 132)와 같은 휘발성 메모리, 및/또는 판독 전용 메모리(ROM; 131)와 같은 비휘발성 메모리의 형태로 컴퓨터 판독가능 매체를 포함한다. 이를테면 초기 시동(start-up) 중에, 컴퓨터(110)의 구성 요소들 간에 정보를 전송하는데 도움이 되는 기본 루틴을 포함하는 기본 입출력 시스템(basic input/output system; BIOS)(133)은 ROM(131)에 저장된다. RAM(132)은 통상적으로 처리 장치(120)에 의해 즉시 접근 가능하거나 그리고/또는 현재 실행되고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예를 들어, 도 1은 운영 체계(134), 애플리케이션 프로그램들(application programs; 135), 다른 프로그램 모듈들(136), 및 프로그램 데이터(137)를 도시하나 이에 한정되지는 않는다.

컴퓨터(110)는 다른 착탈식/고정식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수도 있다. 단지 예시로서, 도 1은 고정식, 비휘발성 자기 매체로부터 판독하거나 그에 기록하는 하드디스크 드라이브(141), 착탈식, 비휘발성 자기 디스크(152)로부터 판독하거나 그에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 다른 광 매체와 같은 착탈식, 비휘발성 광 디스크(156)로부터 판독하거나 그에 기록하는 광 디스크 드라이브(155)를 나타낸다. 예시적인 운영 환경에서 사용될 수 있는 다른 착탈식/고정식, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래시 메모리 카드, 디지털 다용도 디스크(digital versatile disk), 디지털 비디오 테이프, 고체 RAM(solid state RAM), 고체 ROM(solid state ROM) 등을 포함하나 이들에 한정되지는 않는다. 하드디스크 드라이브(141)는 인터페이스(140)와 같은 고정식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151), 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 착탈식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

앞서 논의되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매 체는 컴퓨터(110)에 대해 컴퓨터 판독가능 명령문(computer readable instructions), 데이터 구조, 프로그램 모듈, 및 다른 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드디스크 드라이브(141)는 운영 체계(144), 애플리케이션 프로그램들(145), 다른 프로그램 모듈들(146), 및 프로그램 데이터(147)를 저장하는 것으로서 도시된다. 이러한 컴포넌트들이 운영 체계(134), 애플리케이션 프로그램들(135), 다른 프로그램 모듈들(136), 및 프로그램 데이터(137)와 동일할 수도 있고 상이할 수도 있다는 점에 유념할 것이다. 운영 체계(144), 애플리케이션 프로그램들(145), 다른 프로그램 모듈들(146), 및 프로그램 데이터(147)는, 이들이 적어도 상이한 사본들(copies)이라는 점을 나타내기 위해, 본 명세서에서 상이한 번호들이 주어진다.

사용자는 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 위치 지정 도구(pointing device; 161)와 같은 입력 장치들을 통해 컴퓨터(110)로 명령들 및 정보를 입력할 수 있다. 다른 입력 장치들(도시되지 않음)은 조이스틱, 게임 패드, 위성 접시, 스캐너 등을 포함할 수 있다. 이러한 것들 및 다른 입력 장치들은 종종 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되나, 병렬 포트, 게임 포트, 또는 범용 직렬 버스(universal serial bus; USB)와 같은 다른 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치가 비디오 인터페이스(190)와 같은 인터페이스를 통해 시스템 버스(121)에 접속될 수도 있다. 컴퓨터들은 모니터 외에도, 출력 주변장치 인터페이스(190)를 통해 접속될 수 있는 스 피커들(197) 및 프린터(196)와 같은 다른 주변장치 출력 장치들을 포함할 수도 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터들에의 논리적 접속들(logical connections)을 사용하는 네트워크 환경(networked environment)에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 휴대용 컴퓨터, 서버, 라우터, 네트워크 PC, 피어 장치(peer device), 또는 다른 공동 네트워크 노드(common network node)일 수 있으며, 통상적으로 컴퓨터(110)에 관하여 앞서 설명된 구성요소들 중에서 다수 또는 전부를 포함한다. 도 1에서 기술된 논리적 접속들은 근거리 통신망(LAN; 171) 및 광역 통신망(WAN; 173)을 포함하나, 다른 네트워크들을 포함할 수도 있다. 그러한 네트워킹 환경들은 사무소, 기업 광역 컴퓨터 네트워크(enterprise-wide computer networks), 인트라넷, 및 인터넷에서는 흔한 것이다.

LAN 네트워킹 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용되는 경우, 컴퓨터(110)는 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 다른 수단들을 통상적으로 포함한다. 내장형이거나 외장형일 수 있는 모뎀(172)은 사용자-입력 인터페이스(160) 또는 다른 적절한 메커니즘들을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경(networked environment)에서는, 컴퓨터(110)에 관하여 기술된 프로그램 모듈들 또는 그 일부들이 원격 메모리 저장 장치에 저장될 수 있다. 예를 들어, 도 1은 원격 애플리케이션 프로그램 들(185)을 원격 컴퓨터(180) 상에 상주하는 것으로서 나타내나, 이와 같이 한정되지는 않는다. 도시된 네트워크 접속들이 예시적이며, 컴퓨터들 간에 통신 링크(communication link)을 설정하는 다른 수단들이 사용될 수 있음이 인식될 것이다.

본 발명에 대하여 논리 형태들이 필수적인 것은 아니지만, 이들이 도 2에서 도시된 기계 번역 아키텍처와 관련해 논의된다. 따라서, 그러한 아키텍처를 보다 상세하게 논의하기 전에, 논리 형태에 대한 간략한 논의가 도움이 될 것이다. 논리 형태들 및 이들을 생성하기 위한 시스템들 및 방법들의 전체적이고 상세한 논의는, 발명의 명칭이 "METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES"이고 1999년 10월 12일에 발행되었으며 Heidorn 등에게 부여된 미국 특허 제5,966,686호에서 찾아볼 수 있다. 한편, 간단히 말해, 입력 텍스트 상의 형태론적 분석(morphological analysis)을 수행하여 문법적인 관계들로 증강된 전통적인 구문 구조 분석들(phrase structure analyses)을 생성함으로써 논리 형태들이 생성된다. 텍스트 입력 내의 콘텐트 단어들(content words) 간의 라벨 의존성(labeled dependency)을 기술하는 그래프 구조들(graph structures)인 논리 형태들을 도출하기 위해, 구문론적 분석들(syntactic analyses)은 추가적인 처리 과정을 거친다. 논리 형태들은 소정의 구문론적 변경들(syntactical alternations)(예컨대, 능동/수동)을 정규화(normalize)하고 문장 내의 대용어(intrasentential anaphora) 및 장거리 의존성(long distance dependencies) 양자를 결정한다(resolve).

특히, 논리 관계(logical relation)는 방향 관계 유형(directional relation type)(예를 들면, Part, Time, Hypernym, LogicalSubject, Cause, Domain, Location, Manner, Material, Means, Modifier, Possessor, Purpose, Quasihypernym, Synonym, LogicalObject, 및 User)에 의해 결합된 두 개의 단어들로 구성된다. 논리 형태는 문장과 같은 단일한 텍스트 입력을 나타내는 연결된 논리 관계들(connected logic relations)의 그래프이다. 이는 최소한 하나의 논리 관계로 구성된다. 논리 형태는 구조적인 관계들(즉, 구문론적 및 의미론적 관계들), 특히 입력 문자열(input string) 내의 중요한 단어들 간의 추론(argument) 및/또는 부가어(adjunct) 관계를 나타낸다.

기계 번역 아키텍처의 예시적인 일 실시예에서, 구문론적 분석들로부터 논리 형태들을 구축하는 특정한 코드(code)가, 기계 번역 시스템이 동작하는 다양한 소스 및 타깃 언어들에 걸쳐 공유된다. 두 언어들에서 표면상 별개인 구성들(constructions)이 종종 유사하거나 동일한 논리 형태 표현들(logic form representations)로 축소(collapse)되기 때문에, 공유된 아키텍처는 상이한 언어들로부터의 논리 형태 세그먼트들을 정렬하는 작업을 매우 단순화시킨다.

도 2a는 본 발명의 일 실시예에 따른 기계 번역기를 훈련하기 위한 예시적인 아키텍처를 나타낸다. 도 2b는 훈련 프로세스 동안 실행되는 단계를 나타내는 흐름도이다. 도 2a 및 도 2b는 함께 논의될 것이다. 훈련 시스템(200)은 입력 텍스트(210), 제1 기계 번역기(220), 번역 쌍들(230), 훈련 아키텍처(240), 및 제2 기계 번역기(250)를 포함한다. 선택적으로, 훈련 시스템(200)은 부가적인 기계 번역 기들(222 및 224), 사람에 의해 작성된 이중언어 코퍼스(human authored bilingual corpus; 270), 및 이중언어 사전(260)을 포함할 수 있다. 제1 기계 번역기(220)가 전통적인 종래 기술의 훈련 방법을 사용하여 훈련되는 반면, 기계 번역기(250)는 다른 기계 번역기들로부터의 훈련 데이터를 사용하여 훈련되는 점을 제외하면, 기계 번역기(250)는 제1 기계 번역기(220)와 유사하다. 기계 번역기(250)의 동작은 도 4 및 도 5와 관련해 보다 상세하게 논의될 것이다.

일 실시예에서, 제1 기계 번역기(220)는 현존하는 기계 번역기라면 어떤 것이든지 될 수 있다. 한편, 제1 기계 번역기(220)에 대하여 다른 기계 번역기들이 사용될 수도 있다. 제1 기계 번역기(220)는 제1(또는 소스) 언어로 된 텍스트 입력(210)을 수신한다. 이는 단계(290)에서 도시된다. 이러한 텍스트 입력(210)은 기계 번역기(220)의 내부 프로그래밍 구조에 따라 소스 언어로부터 타깃 언어로 (예를 들면, 독일어에서 영어로 또는 스페인어에서 영어로) 번역된다. 이는 블록(291)에서 도시된다. 블록(292)에서 텍스트 입력(210)의 번역된 버전이 번역된 텍스트(221)로서 기계 번역기(220)로부터 출력된다. 제1 기계 번역기(220)에 의한 텍스트 입력(210)의 번역에 이어서, 텍스트 입력에 대한 번역 쌍들(230)을 도출하기 위해 텍스트 입력(210)과 출력(221)이 서로 결합된다. 이는 블록(293)에서 도시된다. 블록(293)에서 번역 쌍들(230)을 도출하는 방법의 예시적인 예가 차후에 설명된다. 한편, 번역 쌍들(230)을 도출하는 다른 방법들이 사용될 수도 있다. 나아가, 일 실시예에서는, 번역 쌍들(230)의 생성이 훈련 아키텍처(240)의 일 컴포넌트이다. 한편, 훈련 아키텍처(240)의 배열(arrangement) 및 프로그래밍에 따라, 번역 쌍들(230)의 생성이 훈련 아키텍처(240)로부터 분리된 컴포넌트를 통해 달성될 수도 있다.

일 실시예에서, 예시적으로 번역 쌍들(230)은 정렬된 이중언어 코퍼스(aligned bilingual corpus)로부터 생성된다. 이중언어 코퍼스는 텍스트(210 및 221)로부터의 정렬된 번역된 문장들(예를 들면, 소스 또는 타깃 언어, 이를테면 영어로 된 문장들이, 다른 타깃 또는 소스 언어, 이를테면 독일어로 된 이들의 번역과 함께 정렬됨)을 포함한다. 쌍으로 만들어지는(pairing) 동안, 문장들은 텍스트 입력(210)으로부터의 소스 문장들(번역될 문장들)로서, 그리고 번역된 텍스트(221)로부터의 타깃 문장들(소스 문장들의 번역)로서, 정렬된 이중언어 코퍼스로부터 훈련 아키텍처(240)로 들어간다.

정렬된 코퍼스는 그의 컴포넌트 단어들(예컨대, 앞서 언급한 바와 같은 표제어들(lemmas))로 파싱된다 (반면, 표면형(surface form)으로 유지될 수도 있다). 정렬된 코퍼스는 소스 및 타깃 논리 형태들로 파싱된다. 한편, 본 발명은 논리 형태들로 파싱되는 텍스트 입력들 상에서 동작하는 것에 한정되지 않으나, 대신에 정렬된 코퍼스로 하여금 그의 콘텐트 단어들로 파싱되도록 하는 것을 필요로 할 뿐이다. 또한, 소정의 어휘 합성어들(lexical compounds)이 마치 단일한 유닛인 것처럼 식별될 수 있다. 그러한 복합어 표현들(multi-word expressions)이 어휘부(lexicon)에 속하는 경우에는, 그들이 특정한 의미 또는 용법을 가지고 있기 때문에, 또는 그들이 고유 명사(proper noun), 장소의 명칭, 시간 표현(time expression), 날짜, 측정 표현(measure expressions) 등과 같은 다수의 일반적인 카테고리들 중 하나에 속하기 때문에, 그들은 복합어로서 식별된다.

이어서, 정렬된 파싱된 이중언어 코퍼스 내의 개별적인 단어 쌍들에 대해 단어 연관 점수들(word association scores)이 계산된다. 훈련 코퍼스 내의 단어 쌍들 간의 통계적인 단어 연관(statical word association)을 나타내는 점수를 제공하는 임의의 단어 연관 메트릭(word association metric)이 사용될 수 있다. 예를 들어, Computational Linguistics 제19권(1호; 1993년 발행) 61쪽 내지 74쪽에 실린 Dunning의 Accurate Methods for the Statistics of Surprise and Coincidence에서, Dunning에 의해 논의된 로그-우도비 통계(log-likelihood-ratio statistic)가 사용될 수 있다.

연관 점수들이 계산된 단어 쌍들의 목록이 가지치기(prune)될 수도 있다. 다시 말해, 단어 연관 점수들을 계산하는 프로세스는 큰 훈련 코퍼스에 대하여 많은 수의 단어(또는 표제어) 쌍들에 대해 연관 점수들을 생성한다. 따라서, 예시적인 일 실시예에서, 단어 쌍들의 세트가 가지치기되어, 번역 쌍들(230)로서 고려될 수 있는 적어도 일말의 가능성을 갖는 단어 쌍들로 추가적인 처리가 제한된다. 예시적인 일 휴리스틱(heuristic)은 이러한 임계치(threshold)를, 하나의 동시발생(co-occurrence) 및 각각의 하나의 다른 발생(occurrence)을 갖는 단어 쌍 또는 표제어 쌍의 연관도(degree of association)로 설정한다.

이어서 훈련 데이터 내의 합성어들(compounds)의 발생이 가정되어(hypothesized), 단일한 토큰(single token)으로 대체된다. 재기록된(rewritten) 입력 텍스트(즉, 합성어들 및 임의의 잔존하는 개별적인 단어 들)에 대한 연관 점수들이 다시 계산되어 재기록된다.

그 후 연관 점수들이 또 다시 계산된다. 한편, 이번에는, 정렬된 문장들 내에서 동등하게 강하거나 더 강한 다른 연관이 없는 동시발생들(co-occurrences)만이 고려된다. 다시 말해, 번역에 필요한 모든 합성어들이 정확하게 식별되어 훈련 데이터에서 단일한 아이템으로 재형성(reformulate)된다고 가정하면, 그 훈련 데이터는 모든 번역들이 1 대 1인 것과 같이 취급될 수 있다. 따라서, 주어진 정렬된 문장 쌍에서 진정한 번역 쌍들이 항상 가장 강하게 상호적으로 연관될 것이라는 가정 하에, 정렬된 번역 쌍들의 최종 세트가 선택된다. 연관들의 최종 세트는 그 후 연관의 강도(strength)에 따라 내림차순으로 정렬된다.

최종적으로, 최종 목록에서 임계치보다 높은 연관 점수들을 갖는 단어들 및/또는 합성어들의 쌍들이 서로에 대한 번역으로서 식별된다. 임계치는 경험에 의해(empirically) 선택되거나, 최종 쌍 목록에서 제공되는 결과들의 언어적 분석(linguistic analysis)에 기초하여 선택되거나, 원하는 다른 기법을 사용하여 선택될 수 있다.

다시 도 2a 및 도 2b를 참조하면, 텍스트 입력(210)에 대한 번역 쌍들(230)이 도출된 후에, 그 쌍들은 훈련 아키텍처(240)에 의해 처리된다. 이는 블록(294)에서 도시된다. 일 실시예에서, 훈련 아키텍처(240)는, 결함이 있는 입력이더라도 그 입력으로부터 합당한 논리 형태들을 제공하는 견고한 파서(robust parser)를 사용함으로써, 기계 번역기(220)에 의해 생성된 불완전한 번역들로부터 습득할 수 있다. 훈련 아키텍처(240)는 제1 언어로 된 논리 형태들이나 그 부분들을 제2 언어 로 된 논리 형태들이나 그 부분들에 링크(link)하는 전송 매핑들을 포함하는 전송 매핑 데이터베이스(transfer mapping database)를 구축한다.

일단 전송 매핑 데이터베이스가 생성되면, 블록(295)에서 그 결과들이 기계 번역기(250)로 제공된다. 기계 번역기(250)를 훈련하는데 사용될 수 있는 하나의 예시적인 훈련 아키텍처(240)에 대한 간략한 설명이 이하에서 제공되며, 도 3과 관련해 설명된다. 한편, 기계 번역기(250)를 훈련하는 다른 방법들이 사용될 수도 있다.

도 3은 본 발명의 예시적인 일 실시예에 따른 훈련 아키텍처(240)의 블록도이다. 훈련 아키텍처(240)는 파싱 컴포넌트들(304 및 306), 통계적인 단어 연관 습득 컴포넌트(statistical word association learning component; 308), 논리 형태 정렬 컴포넌트(logical form alignment component; 310), 어휘 지식 기반 구축 컴포넌트(lexical knowledge base building component; 312), 이중언어 사전(314), 사전 통합 컴포넌트(dictionary merging component; 316), 전송 매핑 데이터베이스(318), 및 업데이트된 이중언어 사전(updated bilingual dictionary; 320)을 포함한다.

앞서 논의된 바와 같이, 시스템을 훈련하기 위해 이중언어 코퍼스가 사용된다. 그 이중언어 코퍼스는 정렬된 번역된 문장들(예를 들면, 소스 또는 타깃 언어, 이를테면 영어로 된 문장들이, 다른 소스 또는 타깃 언어, 이를테면 스페인어나 프랑스어 등으로 된 그들의 번역과 함께 정렬됨)을 포함한다. 훈련 중에, 문장들은 소스 문장들(330)(번역될 문장들)로서, 그리고 타깃 문장들(332)(소스 문장들 의 번역)로서, 정렬된 이중언어 코퍼스로부터 훈련 아키텍처(240)로 들어간다. 파싱 컴포넌트들(304 및 306)은 정렬된 이중언어 코퍼스로부터의 문장들을 파싱하여 소스 논리 형태들(334) 및 타깃 논리 형태들(336)을 생성한다. 파싱이 되는 동안, 문장들 내의 단어들은 정규화된 단어 형태들(표제어들)로 변환된다. 본 명세서에서 사용된 것과 같은 용어 "표제어(lemma)"는 콘텐트 단어에 대한 어간(stem) 또는 어근(root) 단어를 지칭한다. 예를 들어, "sleep"은 표면형들(surface forms), "sleep","sleeping" 및 "slept"에 대한 표제어이다. 훈련 아키텍처가 콘텐트 단어의 표제어들 대신에 표면형들에 적용될 수도 있다는 점에 유념해야 할 것이다. 그러나 이 경우 성능이 어느 정도 나빠질 수 있다. 어쨌든, 표제어들은 그 후 통계적인 단어 연관 습득 컴포넌트(308)에 들어간다. 각각의 신뢰성 있는 세트(reliable set)가 얻어질 때까지, 단일어(single word) 및 복합어(multi-word) 양자의 연관들이 반복적으로 가정되어(hypothesized) 습득 컴포넌트(308)에 의해 점수가 매겨진다. 통계적인 단어 연관 습득 컴포넌트(308)는 습득된 단일어 번역 쌍들(338)뿐만 아니라 복합어 쌍들(340)도 출력한다.

복합어 번역 쌍들(340)은 사전 통합 컴포넌트(316)에 제공되며, 사전 통합 컴포넌트(316)는 업데이트된 이중언어 사전(320)을 형성하기 위해 이중언어 사전(314) 내에 부가적인 엔트리들을 추가하는데 사용된다. 새로운 엔트리들은 복합어 쌍들(340)을 나타낸다.

단일어 쌍들(338)은, 소스 논리 형태들(334) 및 타깃 논리 형태들(336)과 함께 논리 형태 정렬 컴포넌트(310)에 제공된다. 컴포넌트(310)는 먼저 소스 및 타 깃 논리 형태들(334 및 336) 내의 노드들(nodes) 간에 임시적인 어휘 대응들(tentative lexical correspondences)을 개별적으로 설정한다. 이는 통계적인 단어 연관 습득 컴포넌트(308)로부터의 단일어 번역 쌍들(338)을 가지고 증강된 이중언어 어휘부(또는 이중언어 사전)(314)로부터의 번역 쌍들을 사용하여 행해진다. 가능한 대응들을 설정한 후에, 정렬 컴포넌트(310)는 어휘적 특징 및 구조적 특징 양자에 따라 논리 형태 노드들을 정렬하며 논리 형태 전송 매핑들(logical form transfer mappings; 342)을 생성한다.

기본적으로, 정렬 컴포넌트(310)는 이중언어 사전 정보(314) 및 단일어 쌍들(338)을 사용하여 논리 형태들 간의 링크를 도출(draw)한다. 전송 매핑들은 그들이 소스 및 타깃 논리 형태들(334 및 336)에서 발견되는 빈도에 기초하여 필터링되어(filtered) 어휘 지식 기반 구축 컴포넌트(312)에 제공된다.

일례에 있어서, 전송 매핑이 훈련 데이터 내에서 두 번 이상 출현하지 않는 경우에는, 그 전송 매핑이 전송 매핑 데이터베이스(318)를 구축하는데 사용되지 않지만, 원하는 임의의 다른 빈도가 필터로서 사용될 수도 있다. 출현 빈도(frequency of appearance)가 아닌, 다른 필터링 기법들이 역시 사용될 수도 있다는 점에 유의해야 할 것이다. 예를 들어, 전송 매핑들은 그들이 입력 문장들의 완전한 파스들(parses)로부터 형성되었는지 여부를 기초로, 그리고 전송 매핑들을 생성하는데 사용된 논리 형태들이 완전히 정렬되었는지 여부를 기초로 필터링될 수 있다.

컴포넌트(312)는, 기본적으로 제1 언어로 된 논리 형태들이나 그 부분들을 제2 언어로 된 논리 형태들이나 그 부분들에 링크(link)하는 전송 매핑들을 포함하는 전송 매핑 데이터베이스(318)를 구축한다.

대안적인 실시예에서, 부가적인 번역 쌍들(230)이 부가적인 기계 번역기들의 사용을 통해 생성될 수 있다. 도 2a를 다시 참조하면, 기계 번역기들(222 및 224)은 이러한 부가적인 기계 번역기들을 나타낸다. 기계 번역기들(222 및 224)은 제1 기계 번역기(220)와 상이한 기계 번역기들이다. 텍스트 입력들(212 및 214)이 각각 기계 번역기들(222 및 224)에 제공된다. 텍스트 입력들(212 및 214)은 텍스트 입력(210)과 동일할 수도 있고, 텍스트 입력(210)과 상이할 수도 있다. 각각의 기계 번역기들(220, 222, 및 224)에 대하여 동일한 텍스트 입력을 사용함으로써, 훈련 아키텍처(240)로 하여금 단어에 대한 정확한 번역을 습득하도록 할 수 있다.

기계 번역기들(222 및 224)은 텍스트 입력들(212 및 214)에 대한 번역들을 생성한다. 이러한 번역들이 블록(223 및 225)에서 표시된다. 기계 번역기들(222 및 224)이 기계 번역기(220)와 상이하기 때문에, 동일한 텍스트 입력에 대하여 상이한 번역 결과들을 얻을 수 있다. 번역들에서의 이러한 차이는 흔히 각각의 기계 번역기가 받은 훈련에 기인한다. 하나의 기계 번역기가 종종 텍스트의 특정 주제(specific subject of text)를 취급하도록 생성되는데 반해, 다른 번역기는 그것을 취급하도록 설계되지 않는다.

또한, 기계 번역기(250)를 훈련하기 위해 훈련 아키텍처(240)가 사용되는 경우에, 번역된 데이터의 선택적이며 부가적인 소스들이 훈련 아키텍처에 제공될 수 있다. 이러한 부가적인 데이터 부분들은 사람에 의해 작성된 이중언어 코퍼스(260) 및 이중언어 사전(270)을 포함할 수 있다. 사람에 의해 작성된 이중언어 코르피는 기계 번역기를 훈련하는데 사용되는 통상적인 방법이다. 코퍼스는 일반적으로 의회 토론이나 계약서(contract)와 같은 트랜잭션(transaction)의 번역된 버전이지만, 임의의 번역된 텍스트일 수 있다. 이중언어 사전(270)은 일반적으로 소스 언어 및 타깃 언어에서 동등한 단어들(word equivalents)(예를 들어, 독일어에서 "Fenster"는 영어에서 "Window"이다)을 열거하는 사전이다. 이러한 부가적인 데이터 부분들이 존재하는 경우에, 훈련 아키텍처는 이중언어 코퍼스(260) 및 이중언어 사전(270)에 의해 제공되는 정보를 평가하며, 텍스트 입력(210)에 대해 생성된 번역 쌍들(230)에 대해 사용된 것과 동일한 프로세스를 사용하여 기계 번역기를 훈련한다.

훈련 아키텍처(240)를 통한 기계 번역기(250)의 훈련에 이어서, 선택적인 훈련 후 편집 컴포넌트(post training editing component; 275)에 의해 번역 매핑이 편집될 수 있다. 훈련 후 편집 컴포넌트(275)는 어휘 지식 기반 내의 유효하지 않은 어휘 정보나 링크들을 제거함으로써 그 매핑을 편집할 수 있다.

도 4는 도 2에서 도시된 기계 번역기(250)에 포함되는 컴포넌트들을 나타낸다. 기계 번역기(250)는 분석 컴포넌트(analysis component; 410), 매칭 컴포넌트(matching component; 420), 전송 컴포넌트(transfer component; 430) 및 생성 컴포넌트(generation component; 440)를 포함한다. 이러한 컴포넌트들은 기계 번역이 텍스트 입력을 번역할 때 호출된다(invoked).

분석 컴포넌트(410)는 소스 문장(406)을 수신하여 그 소스 문장 입력을 기초 로 소스 논리 형태(412)를 생성하도록 구성된다. 이러한 소스 논리 형태(412)는 매칭 컴포넌트(420)에 제공된다.

매칭 컴포넌트(420)는 소스 논리 형태(412)를 도 3의 전송 매핑 데이터베이스(318) 내의 논리 형태들에 매칭하도록 구성된다. 전송 매핑 데이터베이스(318) 내의 매칭된 정보를 통해, 매칭 컴포넌트(420)는 소스 논리 형태(412)에 대한 링크된 논리 형태(linked logical form; 422)를 얻는다. 복수의 전송 매핑들이 소스 논리 형태(412)의 부분들을 매칭할 수 있다. 매칭 컴포넌트(420)는 매칭하는 표제어들, 음성의 부분들(parts of speech), 및 다른 특징 정보(feature information)를 갖는 데이터베이스(318)에서 매칭하는 전송 매핑들(matching transfer mappings)의 최고 세트(best set)를 검색한다. 보다 큰(보다 구체적인) 전송 매핑들이 보다 작은(보다 일반적인) 전송 매핑들에 비해 예시적으로 선호될 수 있다. 동등한 크기의 매핑들 중에서, 매칭 컴포넌트(420)는 보다 높은 빈도의 매핑들(higher frequency mappings)을 예시적으로 선호할 수 있다. 매핑들은 또한, 소스 논리 형태(412)의 중복되는 부분들(overlapping portions)이 어떤 방식으로든 충돌(conflict)하지 않는다는 가정 하에, 그 중복되는 부분들을 매칭할 수도 있다.

매칭 컴포넌트(420)는 또한 소스 논리 형태(412) 내의 노드들 상에, 전송 매핑들에 의해 수신된 대응하는 타깃 논리 형태 세그먼트들(corresponding target logical form segments)의 사본들로의 링크들을 생성하여, 링크된 논리 형태(422)를 생성하도록 구성된다.

전송 컴포넌트(430)는 링크된 논리 형태(422)를 매칭 컴포넌트(420)로부터 수신하도록 구성된다. 전송 컴포넌트(430)는 또한 타깃 번역의 기초를 형성하는 타깃 논리 형태(432)를 생성하도록 구성된다. 타깃 논리 형태(432)의 생성은, 소스 논리 형태(412)의 노드들 상의 링크들에 의해 지시되는 타깃 논리 형태 세그먼트들이 결합되는, 링크된 논리 형태(922)의 하향식 순회(top down traversal)를 수행함으로써 행해진다. 복잡할 가능성이 있는 복합어 매핑들에 대하여 논리 형태 세그먼트들을 서로 결합하는 경우에는, 매칭 컴포넌트(420)가 개별적인 노드들 간에 설정한 서브링크들(sublinks)이 사용되어, 수식어구(modifiers) 등에 대한 정확한 첨부 지점(attachment points)을 결정한다. 필요한 경우에는 디폴트 첨부 지점들(default attachment points)이 사용된다.

적용할 수 있는 전송 매핑들을 발견하지 못한 경우에는, 소스 논리 형태(412) 내의 노드들과 이들의 관계들(relations)이 단순히 타깃 논리 형태(432)로 복사된다. 디폴트 단일어 번역들은 이러한 노드들에 대해 전송 매핑 데이터베이스(318)에서 여전히 발견될 수 있어 타깃 논리 형태(432)에 삽입될 수 있다. 그러나, 아무것도 발견되지 않은 경우에는, 정렬 중에 사용되었던 업데이트된 이중언어 사전(320)으로부터 번역들을 예시적으로 얻을 수 있다.

생성 컴포넌트(440)는 예시적으로 규칙-기반(rule-based), 애플리케이션-독립(application-independent) 생성 컴포넌트이며, 타깃 논리 형태(432)로부터 타깃 문자열(또는 출력 타깃 문장)로 매핑한다. 생성 컴포넌트(440)는 예시적으로 입력 논리 형태들의 소스 언어에 관한 정보를 가지지 않을 수도 있고, 전송 컴포넌트(430)에 의해 그것으로 전달되는 정보만을 가지고 작업한다. 생성 컴포넌트(440)는 또한 예시적으로 이러한 정보를 단일 언어(예컨대, 타깃 언어에 대한) 사전(monolingual dictionary)과 함께 사용하여 타깃 문장(446)을 생성한다. 따라서 각각의 언어에 대하여 하나의 일반적인 생성 컴포넌트(440)로 충분하다.

도 5는 번역을 위해 텍스트 입력이 제공될 때 기계 번역기(250)에 의해 실행되는 단계들을 나타내는 흐름도이다. 도 5는 도 4의 컴포넌트들을 참조하여 논의될 것이다.

텍스트 입력(406)이 시스템(250)에 제공된다. 텍스트 입력(406)은 사용자가 소스 언어로부터 타깃 언어로 번역하고자 하는 문서 또는 다른 텍스트의 기록된 버전이다. 예를 들어, 텍스트 입력(406)이

일 수 있다. 이렇게 텍스트 입력을 기계 번역 시스템(250)에 제공하는 것은 블록(510)에서 도시된다.

블록(520)에서, 기계 번역기(250)는 텍스트 입력(406)을 수신하여 그 텍스트 입력(406)을 스페인어에서 영어로 번역할 준비를 한다. 한편, 다른 언어들이 번역에 대해 사용될 수도 있다. 그 후 분석 컴포넌트(410)에 의해 텍스트 입력(406) 내의 각각의 단어에 대하여 소스 논리 형태들이 생성된다. 이는 블록(503)에서 도시된다.

소스 논리 형태들의 생성에 이어서, 매칭 컴포넌트는 그 소스 논리 형태들을 전송 매핑 데이터베이스 내의 논리 형태들과 매칭한다. 이는 블록(540)에서 도시된다. 소스 논리 형태의 노드들 상에서 대응하는 타깃 논리 형태 세그먼트들의 사본들로 링크들이 생성된다. 이는 블록(550)에서 도시된다. 타깃 논리 형태들은 링크된 논리 형태의 하향식 순회를 수행함으로써 생성된다. 소스 논리 형태의 노드들 상의 링크들에 의해 지시되는 타깃 논리 형태 세그먼트들이 결합된다. 이는 블록(560)에서 도시된다. 전송 매핑들이 발견되지 않은 경우, 기계 번역기는 이중언어 사전으로부터 번역들을 얻는다. 이는 블록(570)에서 도시된다.

예를 들어, 앞의 예시적인 텍스트 입력이 처리되는 동안, 단어들 "para obtener"은 "to obtain"으로 링크된다. 반면, 종래 기술의 기계 번역기에서 단어 "para"는 "in order"로 링크되며 단어"obtener"는 "to obtain"으로 링크된다. 또한 단어

은 본 발명에서 "information"에 링크되지만, 종래 기술에서는 "data"에 링크된다. 단어들의 링킹(linking) 및 매핑에 있어서, 두 기계 번역기들 간의 이러한 차이는 각각의 기계 번역기에 대한 훈련 방법들의 차이에 기인한다.

매핑 프로세스에 이어서, 타깃 논리 형태들이 타깃 문장(446)으로 매핑된다. 따라서 앞의 예시 문장은, 종래 기술의 기계 번역기로부터 얻어지는 번역인 "In order to obtain more data about WSH, consult Windows Script Host" 대신에, 기계 번역기(250)에 의해 "To obtain more information about WSH, consult Windows Script Host"와 같이 번역될 것이다. 이러한 번역이 블록(580)에서 도시된다. 그 번역은 단계(590)에서 사용자에게 출력된다.

본 발명이 특정한 실시예들을 참조하여 설명되었지만, 당업자들은 본 발명의 기술 사상이나 범위로부터 벗어나지 않고도 형태 및 세부 사항에 있어 변경들이 이루어질 수 있음을 인식할 것이다.

본 발명에서 개시된 방법의 사용에 의해, 기계 번역기의 정확도를 유지하거나 향상시키면서, 최소한의 비용으로 많은 양의 번역된 데이터를 사용하여 기계 번역기를 훈련할 수 있게 된다.

Claims

주어진 기계 번역기(a given machine translator)를 훈련하는 방법으로서,

제1 언어로 제1 훈련 문장을 수신하는 단계;

제1 입력 기계 번역기를 사용하여 상기 제1 훈련 문장을 제2 언어의 제1 목표 문장으로 번역하는 단계 - 상기 제1 입력 기계 번역기는 상기 주어진 기계 번역기와는 상이한 것이며, 상기 제1 언어의 상기 제1 훈련 문장과 상기 제2 언어의 상기 제1 목표 문장은 제1 번역 세트를 포함함 -; 및

상기 제1 번역 세트를 사용하여 상기 주어진 기계 번역기를 훈련하는 단계

를 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제1항에 있어서, 상기 훈련하는 단계 이전에, 상기 제1 번역 세트를 훈련 컴포넌트에 제공하는 단계를 더 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제1항에 있어서, 쌍으로 만드는 컴포넌트(pairing component)를 사용하여 상기 제1 번역 세트 내의 단어들 또는 구문들(phrases)을 정렬하는 단계를 더 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제1항에 있어서, 상기 주어진 기계 번역기 상에서 훈련 후 편집(post training editing)을 수행하는 단계를 더 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제4항에 있어서, 상기 훈련 후 편집을 수행하는 단계는 상기 훈련으로부터 유효하지 않은 어휘 정보(invalid lexical information)를 제거하는 단계를 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제1항에 있어서, 상기 주어진 기계 번역기의 컴포넌트로서 상기 훈련의 결과들을 출력하는 단계를 더 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제6항에 있어서, 상기 결과들을 출력하는 단계는 이중언어 사전(bilingual dictionary)을 출력하는, 주어진 기계 번역기를 훈련하는 방법.
제6항에 있어서, 상기 결과들을 출력하는 단계는 전송 매핑 컴포넌트(transfer mapping component)를 출력하는, 주어진 기계 번역기를 훈련하는 방법.
제1항에 있어서, 상기 주어진 기계 번역기를 훈련하는 단계는,

사람에 의해 작성된 이중언어 코퍼스(human authored bilingual corpus)를 제공하는 단계; 및

상기 제1 번역 세트 및 상기 사람에 의해 작성된 이중언어 코퍼스를 사용하여 상기 주어진 기계 번역기를 훈련하는 단계

를 더 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제1항에 있어서, 상기 주어진 기계 번역기를 훈련하는 단계는,

이중언어 사전을 제공하는 단계; 및

상기 제1 번역 세트 및 상기 이중언어 사전을 사용하여 상기 주어진 기계 번역기를 훈련하는 단계를 더 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제1항에 있어서,

상기 제1 언어로 제2 입력 훈련 문장을 제공하는 단계;

상기 주어진 기계 번역기와 상이하고 상기 제1 입력 기계 번역기와 상이한 제2 입력 기계 번역기를 사용하여 상기 제2 훈련 문장을 제2 언어의 제2 목표 문장으로 번역하는 단계 - 상기 제1 언어의 상기 제2 훈련 문장과 상기 제2 언어의 상기 제2 목표 문장은 제2 번역 세트를 포함함 -;

상기 제1 번역 세트 및 상기 제2 번역 세트를 사용하여 상기 주어진 기계 번역기를 훈련시키는 단계

를 더 포함하는, 주어진 기계 번역기를 훈련하는 방법.
제1항에 있어서, 상기 주어진 기계 번역기 번역기를 훈련하는 단계는,

의존 구조(dependency structure)를 얻기 위해 상기 제1 훈련 문장을 어휘적으로 분석하는 단계를 더 포함하는, 주어진 기계 번역기를 훈련하는 방법.
텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템으로서,

제1 언어의 훈련 문장 및 상기 훈련 문장의 제2 언어로 번역된 버전을 수신하도록 구성된 훈련 컴포넌트 - 상기 훈련 컴포넌트는 또한 상기 훈련 문장 및 상기 훈련 문장의 번역된 버전에 기초하여 이중언어 사전 컴포넌트 및 전송 매핑 컴포넌트를 생성하도록 구성됨 -; 및

상기 제1 언어의 상기 훈련 문장을 수신하며, 상기 이중언어 사전 컴포넌트 및 상기 전송 매핑 컴포넌트에 의해 제공되는 정보에 기초하여 상기 훈련 문장의 상기 제2 언어로의 또 다른 번역을 출력하도록 구성된 기계 번역 컴포넌트(machine translation component)

를 포함하며,

상기 훈련 문장의 제2 언어로의 번역된 버전은 상기 기계 번역 컴포넌트와 상이한 외부 기계 번역기(external machine translator)에 의해 생성되는, 텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템.
제13항에 있어서, 상기 제2 언어로 된 단어들과 연관된 상기 제1 언어로 된 단어들을 포함하고, 상기 훈련 컴포넌트와 통신하도록 구성된 이중언어 사전을 더 포함하는, 텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템.
제13항에 있어서, 상기 훈련 문장 내의 단어들 및 구문들을 상기 훈련 문장의 번역된 버전에서의 단어들 및 구문들과 짝지어 쌍으로 만들도록 구성된 정렬 컴포넌트를 더 포함하는, 텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템.
제15항에 있어서, 상기 정렬 컴포넌트는 논리 형태들(logical forms)을 사용함으로써 단어들을 쌍으로 만드는, 텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템.
제13항에 있어서, 상기 훈련 컴포넌트에 의해 생성된 유효하지 않은 어휘 정보를 식별하도록 구성된 훈련 후 편집 컴포넌트(post training editing component)를 더 포함하는, 텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템.
제13항에 있어서, 상기 제2 언어의 상기 훈련 문장의 사람에 의해 번역된 버전을 갖는, 사람에 의해 작성된 이중언어 텍스트(human authored bilingual text) - 상기 사람에 의해 작성된 이중언어 텍스트는 상기 훈련 컴포넌트와 통신하도록 구성됨 - 를 더 포함하는, 텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템.
제13항에 있어서, 상기 훈련 컴포넌트는 복수의 외부 기계 번역기들로부터 상기 훈련 문장의 번역된 버전을 수신하도록 구성된, 텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템.
제13항에 있어서, 상기 기계 번역기 컴포넌트는 상기 텍스트 입력의 단어들 및 구문들에 대한 논리 형태들을 생성하도록 더 구성된, 텍스트 입력을 제1 언어로부터 제2 언어로 번역하기 위한 시스템.
주제(subject)의 기계 번역기를 훈련하기 위한 시스템으로서,

훈련 문장 입력을 번역하도록 구성된 제1 기계 번역기; 및

상기 훈련 문장 입력의 번역된 버전 및 상기 훈련 문장 입력을 수신하도록 구성되며, 상기 주제의 기계 번역기를 훈련시키는데 사용되는 컴포넌트를 생성하도록 구성되는 훈련 아키텍처 - 상기 제1 기계 번역기는 상기 주제의 기계 번역기와는 상이함 -

를 포함하고,

상기 훈련 문장 입력 및 상기 훈련 입력의 번역된 버전은 제1 번역 세트를 포함하는, 주제의 기계 번역기를 훈련하기 위한 시스템.
제21항에 있어서, 상기 제1 번역 세트 내의 단어들 또는 구문들을 정렬하도록 구성된 정렬 컴포넌트 - 상기 정렬 컴포넌트는 상기 정렬된 단어들 또는 구문들을 상기 훈련 아키텍처에 제공하도록 구성됨 - 를 더 포함하는, 주제의 기계 번역기를 훈련하기 위한 시스템.
제21항에 있어서,

이중언어 사전 컴포넌트; 및

사람에 의해 작성된 이중언어 코퍼스

를 더 포함하며,

상기 훈련 아키텍처는 상기 제1 번역 세트, 상기 이중언어 사전 및 상기 사람에 의해 작성된 이중언어 코퍼스에 기초하여 상기 컴포넌트를 생성하도록 더 구성되는, 주제의 기계 번역기를 훈련하기 위한 시스템.
제21항에 있어서,

상기 제1 기계 번역기는 복수의 기계 번역기를 포함하며, 각각의 상기 복수의 기계 번역기는, 상기 주제의 기계 번역기에 의해 사용가능한 컴포넌트를 생성하기 위해 상기 훈련 아키텍처에 제공되는 번역 세트를 생성하는, 주제의 기계 번역기를 훈련하기 위한 시스템.