KR101031970B1

KR101031970B1 - 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법

Info

Publication number: KR101031970B1
Application number: KR1020030082664A
Authority: KR
Inventors: 무어로버트씨
Original assignee: 마이크로소프트 코포레이션
Priority date: 2002-11-20
Filing date: 2003-11-20
Publication date: 2011-04-29
Also published as: DE60328575D1; JP4694121B2; US7249012B2; ATE438147T1; US20080015842A1; CN1503161A; KR20040044176A; EP1422634A2; CN100565500C; US20040098247A1; BR0305304A; EP1422634B1; JP2004171575A; EP1422634A3

Abstract

본 발명은, 소스 언어에서 식별된 학습되어질 구문을 갖는 병렬 정렬된 언어자료를 수신함으로써 구문 번역 관계를 학습하는 것이다. 타겟 언어의 후보 구문들이 생성되고, 소스 언어 구문과 후보 구문의 내부의 단어에 대한 단어 연관성 스코어에 기초하여 내부 스코어가 계산된다. 소스 언어 구문과 후보 구문의 외부의 단어에 대한 단어 연관성 스코어에 기초하여 외부 스코어가 계산된다. 내부 및 외부 스코어가 결합되어 조인트 스코어를 획득한다.

소스 언어, 타겟 언어, 후보 구문, 연관성, 스코어

Description

구문들 사이의 번역 관계를 학습하기 위한 통계적 방법{STATISTICAL METHOD AND APPARATUS FOR LEARNING TRANSLATION RELATIONSHIPS AMONG PHRASES}

도 1은 본 발명이 사용될 수 있는 일반적인 환경의 블록도.

도 2a는 본 발명이 사용될 수 있는 일반적인 기계 번역 아키텍쳐의 보다 상세한 블록도.

도 2b는 본 발명의 일 실시예에 따라 사용될 수 있는 구문 번역 학습(learning) 시스템의 블록도.

도 3은 본 발명의 일 실시예에 따른 구문 번역 학습기(learner)의 블록도.

도 4는 도 3에 도시된 구문 번역 학습기의 전반적인 동작을 설명하는 흐름도.

도 5a 및 도 5b는 본 발명의 일 실시예에 따라 개별적인 단어 연관성 스코어 모델의 동작을 설명하는 흐름도.

도 6은 본 발명의 일 실시예에 따른 내부 스코어의 계산을 설명하는 도면.

도 7은 본 발명의 일 실시예에 따른 외부 스코어의 계산을 설명하는 도면.

도 8은 본 발명의 일 실시예에 따라 후보 구문의 생성을 설명하는 흐름도.

도 9a 및 도 9b는 후보 구문을 생성하도록 처리되는 정렬된 문장들을 도시하는 도면.

도 10은 본 발명의 일 실시예에 따라 크로스-문장 모델의 동작을 설명하는 흐름도.

도 11은 본 발명의 일 실시예에 따라 신뢰성 측정 변환 모델의 동작을 설명하는 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

200: 기계 번역 시스템

204, 206: 구문 해석 컴포넌트

208: 통계적 단어 연관성 학습 컴포넌트

210: 논리 형태 정렬 컴포넌트

214: 2개국어 사전

216: 사전 병합 컴포넌트

218: 전송 매핑 데이타베이스

222: 분석 컴포넌트

224: 매칭 컴포넌트

226: 전송 컴포넌트

228: 생성 컴포넌트

본 발명은 구문들 사이의 학습 관계를 찾는 것에 관한 것이다. 특히, 본 발 명은 다른 언어의 구문들 사이의 번역 관계를 학습하기 위한 통계적 접근법에 관한 것이다.

기계 번역 시스템은 한가지 언어의 텍스트 입력을 수신하고, 그것을 2차 언어로 번역하여 2차 언어의 텍스트 출력을 제공하는 시스템이다. 이를 행함에 있어서, 이러한 시스템은 일반적으로 번역 어휘집(lexicon)을 사용하여, 트레이닝시에 얻어지는 컨텐트 단어들 사이의 대응성(correspondence), 또는 번역 관계를 얻는다.

경험적인 데이타로부터 번역 어휘집을 도출하는 공통적인 접근법은 병렬 2개국어 언어자료(corpus)의 정렬된 문장에서 제1 언어 L1의 단어와 제2 언어 L2의 단어 사이의 연관성 정도에 대한 측정을 선택하는 것을 포함한다. 그 후 선택된 연관성의 측정에 따라 단어쌍(L1으로부터의 단어와 L2로부터의 단어를 포함함)이 랭크에 따라 순서가 매겨진다. 임계값이 선택되고, 연관도가 임계값을 넘는 모든 단어쌍들로 번역 어휘집이 형성된다.

예를 들면, 종래의 접근법에서는, 유사성 메트릭(단어 사이의 연관성 정도의 측정)은, 배열된 병렬 텍스트 언어자료의 대응 영역(예를 들어, 문장들)에 단어들이 얼마나 자주 동시에 나타나는지에 기초한다. 다른 단어쌍들에 대한 연관성 스코어가 계산되고, 이 단어쌍들은 그 연관성 스코어의 내림 차순으로 소팅된다. 다시, 임계값이 선택되고 연관성 스코어가 임계값을 초과하는 단어쌍들은 번역 어휘집의 엔트리가 된다.

그러나, 이런 형식의 방법은 단점을 갖는다. 한가지 문제점은 유사성 스코 어는 일반적으로 서로 독립적으로 계산된다는 것이다. 예를 들면, 언어 L1의 단어들을 심볼 V_k로 나타내고(여기서 k는 L1의 상이한 단어들을 나타내는 정수임); 언어 L2의 단어들을 W_k로 나타낸다고(여기서 k는 L2의 상이한 단어들을 나타내는 정수임) 가정한다. 따라서, V 및 W의 시퀀스들은 2개의 정렬된 텍스트 세그먼트를 나타낸다. W_k 및 V_k가 유사한 2개국어 문맥에(즉, 정렬된 문장들에) 발생하면, 임의의 합리적인 유사성 메트릭은 그들 사이의 높은 연관성 스코어를 생성하며, 이는 그 분포들의 상호 의존성을 반영한다.

그러나, V_k 및 V_k+1도 유사한 문맥에(즉, 동일한 문장에) 나타난다고 가정해보자. 이 경우, V_k와 V_k+1의 분포 사이에도 강한 상호 의존성이 있다. 따라서, W _k와 V_k가 유사한 문맥에 나타나고, V_k와 V_k+1이 유사한 문맥에 나타나면, W_k와 V_k+1도 유사한 문맥에 나타난다는 문제가 발생한다. 이것은 W_k와 V_k 사이 및 V_k+1과 V_k 사이의 연관성에 의해서만 발생하기 때문에 간접적인 연관성으로 알려져있다. 서로 독립적으로 연관성 스코어를 계산하는 종래의 방법들은 직접적인 연관성(예를 들어, W_k와 V_k 사이)과 간접적인 연관성(예를 들어, W_k와 V_k+1 사이)을 구별하지 못한다. 당연히, 이에 의해 간접적인 연관성으로 채워지고 또한 부정확할지 모르는 번역 어휘집이 생성된다.

간접적인 연관성의 구체적인 예로서, 주로 번역용 컴퓨터 소프트웨어 메뉴얼로 이루어진 병렬 프랑스어-영어 언어자료를 고려해본다. 이 언어자료에서, 영어 용어 "file system"과 "system files"은 매우 빈번히 발생한다. 유사하게, 대응하는 프랑스어 용어 "systeme de fichiers"와 "fichiers systeme"도 매우 빈번히 함께 나타난다. 이 단일 언어의 동일 장소 배치(co-locations)는 일반적이기 때문에, 여분의 번역 쌍들 fichier/system 및 systeme/file도 보다 높은 연관성 스코어를 수신한다. 실제로, 이 스코어는 많은 실제 번역 쌍들에 대한 스코어보다 높을 수 있다.

이 결점은 일부 종래 기술에서 언급되어 왔다. 예를 들면, 멜라메드(Melamed)의, Automatic Construction of Clean Broad-Coverage Translation Lexicons (Second Conference of the Association for Machine Translation in the America's(AMTA 996), Montreal Canada)이 이 문제에 관한 것이다.

멜라메드는 연관성이 높은 단어 쌍들이 동일한 단어중 하나 또는 모두를 포함하는 보다 연관성이 높은 쌍들이 있는 배열된 문장으로부터 도출되면 번역시 연관성이 높은 단어쌍들을 버림으로써 이 문제를 처리하고 있다. 즉, 보다 강한 연관성이 또한 보다 신뢰성있기 때문에 직접적인 연관성이 간접적인 연관성보다 강하다고 추측된다. 따라서, V를 포함하는 세그먼트(또는 문장)가 W와 W'를 모두 포함하는 세그먼트(또는 문장)과 배열되면, 엔트리 (V,W) 및 (V,W')는 번역 어휘집에 모두 나타나서는 안된다. 그렇게 되면, 적어도 하나는 부정확하게 될 것이다. 직접적인 연관성이 간접적인 연관성보다 강한 경향이 있다고 가정하기 때문에, 가장 최고의 연관성 스코어를 갖는 엔트리는 정확한 연관성으로서 선택된 것이다.

상술한 예에서, 프랑스어 측에서의 "fichier" 및 "systeme"와 영어 측에서의 "file" 및 "system"을 포함하는 병렬 영어 및 프랑스어 문장들에서는, ficher/system 및 systeme/file의 연관성이 감소될 것인데, 그 이유는 "fichier/file" 및 "systeme/system"에 대한 연관도가 동일 배열 문장들에서 보다 높을 것이기 때문이다.

이 접근법은 정확성이 높은 출력을 이전에 보고된 것보다 더 높은 적용 범위 레벨로 연장시키는 것으로 보고되었지만, 단점을 갖고 있다. 예를 들어, 구현하기가 매우 복잡하고 난해하며, 구동시키는데 시간이 많이 소비된다고 여겨진다.

단어들 사이의 번역 관계를 학습하는데 있어서 직면하는 또 다른 어려움은 합성어(또는 합성어를 형성하기 위해 함께 취해지는 다수의 단어 시퀀스)를 포함하는 것이다. 이러한 합성어들은 다른 언어에서는 하나의 단어로, 또는 다른 언어에서는 다수의 단어로 번역될 수 있다. 종래 기술에서는, 어휘의 번역 관계가 오직 하나의 단어만을 포함한다고 가정했다. 물론, 다음의 합성어 리스트로부터 알 수 있는 바와 같이, 이는 명백하게 거짓이다:

Base_de_donnees/database

Mot_de_passe/password

Sauvegarder/back_up

Annuler/roll_back

Ouvrir_session/log_on

상기 열거된 처음의 4쌍에서, 한 언어의 합성어는 다른 언어의 단일 단어로 서 번역된다. 그러나, 마지막 예에서, 한 언어의 합성어는 다른 언어의 합성어로서 번역되고, 그 복합어의 개별적인 컴포넌트들 각각은 다른 복합어의 개별적인 컴포넌트들 중의 하나로 의미있는 방식으로 번역될 수 없다. 예를 들면, 일반적으로 "open"으로 번역되는 "ouvrir"이 "log" 또는 "on" 중 하나로서 번역되는 것은 합리적이지 않다. 마찬가지로, 일반적으로 "session"으로 번역되는 "session"도 "log" 또는 "on"으로 번역되는 것은 합리적이지 않다.

이 문제를 해결하기 위한 종래의 한 시도는 멜라메드(Melamed)에 의해, Automatic Discovery of Non-Compositional compounds in Parallel Data, (Conference on Empirical Methods in Natural Language Processing (EMNLP 97) Providence, Rhode Island (1997))에서 연구되었다. 멜라메드는 2개의 번역 모델, 즉 후보 합성어를 포함하는 시험 번역 모델 및 포함하지 않는 기준 번역 모델을 유도했다. 멜라메드의 목적 함수의 값이 기준 모델에서보다 시험 모델에서 더 높으면, 합성어는 유효한 것으로 간주된다. 그렇지 않으면, 후보 합성어는 무효인 것으로 간주된다. 그러나, 멜라메드가 잠재적 합성어를 선택하는데 사용한 방법은 매우 복잡하고 계산적으로 고가이며, 시험 번역 모델의 구성에 의한 그의 검증 방법도 마찬가지이다.

보다 많은 구문들에 대한 번역 관계를 학습하는 것은 덜 주목받아 왔다. 구문 번역은 비대칭 또는 대칭중 어느 것, 그리고 고정 구문들 또는 보다 유연성 있는 배열(collocation)중 어느 것으로 생각되었다. 소스 언어에 구문 세트가 주어지며 작업은 타겟 언어에서 번역을 찾는 것이라고 가정하면 시스템은 비대칭적이지 만, 대칭 시스템은 양 언어에서 구문을 찾아낼 때 문제가 나타난다. 유사하게, 소스 언어 구문의 번역이 타겟 언어의 단어의 인접하는 시퀀스라고 가정하면, 시스템은 고정 구문에 관한 것이다.

고정 구문에서 비대칭적이고 타겟팅된 이전의 유일한 연구는 Dagan과 Church에 의한 Termight: Coordinating Humans and Machine in Bilingual Terminology Acquisition (Machine Translation, 12:89-107, (1997))에 개시되어 있다. 이 시스템은 사전 편찬가용 자동 보조물로서 단일 언어 방식을 이용하여 언어자료로부터 추출된 기술 용어들을 제안하며, 사용자들에 의해 승인된 것에 대해서, 병렬 언어자료로부터의 가능한 번역을 제안한다.

유연성 있는 배열에 관한 비대칭 시스템의 예는 Smadja 등에 의해, Translating collocations for Biligual Lexicons: A Statistical Approach, (Computational Linguistics, 22(1):1-38 (1996))에 개시되어 있다. 대칭 시스템의 예는 J, Kupiec에 의해, An Algorithm for Finding Noun Phrase Correspondences in Bilingual Corpora(Proceedings of 31st Annual Meeting of Association for Computational Linguistics, Columbus, Ohio pp.17-22 (1993)); 및 K. Yamamoto 등의 A Competitive Study on Translational Units for Bilingual Lexicon Extraction(Proceedings of the Workshop on Data-Driven Machine Translation, 39th Annual Meeting of Association for Computational Linguistics, Toulouse, France pp.87-94 (2001))에 개시되어 있다.

본 발명은, 소스 언어에서 식별된 학습되어질 구문을 갖는 병렬 정렬된 언어자료를 수신함으로써 구문 번역 관계를 학습하는 것이다. 타겟 언어의 후보 구문들이 생성되고, 소스 언어 구문과 후보 구문의 내부의 단어에 대한 단어 연관성 스코어(word association score)에 기초하여 내부 스코어가 계산된다. 소스 언어 구문과 후보 구문의 외부의 단어에 대한 단어 연관성 스코어에 기초하여 외부 스코어가 계산된다. 내부 및 외부 스코어가 결합되어 조인트 스코어(joint score)를 획득한다.

일 실시예에서, 결합된 스코어는 구문이 전체 언어자료에 걸쳐 어떻게 번역되는 지에 기초하여 수정된다. 내부 스코어는 크로스-언어자료(cross-corpus) 데이타에 기초하여 수정 및 가중(weighted)된다.

다른 실시예에서, 수정된 스코어는 로그 가능도 비율(log-likelihood-ratio) 메트릭과 같은 편리한 번역 신뢰성 메트릭으로 변환된다.

본 발명의 또 다른 특징은 3가지 모델을 포함하는 구문 번역 학습(learning) 시스템을 포함한다. 제1 모델은 개별적인 단어 연관성 스코어에 기초하여 후보 구문에 대한 스코어를 계산하는 개별적 단어 연관성 모델이다. 제2 모델은 소스 언어 구문이 언어자료에 걸쳐 어떻게 번역되는 지를 나타내는 크로스-문장(cross-sentence) 데이타에 기초하여 제1 모델에 의해 계산되는 스코어를 수정한다. 제3 모델은 제2 모델로부터의 구문 번역 스코어를 원하는 신뢰성 메트릭으로 변환하는 메트릭 변환 모델이며, 이는 변환에 기초하여 가장 가능성있는 구문 번역에서의 가능한 변경을 설명한다.

본 발명의 다른 실시예는 (내부 및 외부 스코어에 기초하여) 전체 언어자료에 걸쳐 번역 데이타를 찾고, 내부 스코어를 수정 및 가중하여 그 스코어를 원하는 신뢰성 메트릭으로 변환하는 것을 포함하는 구문 번역 학습 방법 및 시스템을 포함한다.

다른 실시예는 구문 번역 학습 컴포넌트에서 후보 구문을 생성하기 위한 시스템 및 방법이다. 소스 언어 구문의 단어와 가장 강하게 연관되어 있는 단어들로만 시작하고 종료하거나 또는 그 반대인 후보 구문들이 생성된다. 선택적으로, 후보 구문은 타겟 언어 문장의 대문자 단어로 시작하는 후보 구문들이 생성될 수 있다.

이하 도 1의 설명은 본 발명이 사용될 수 있는 하나의 예시적인 환경을 간단히 개시하지만, 다른 환경에서도 마찬가지로 사용될 수 있다.

도 1은 본 발명의 하나의 예시적인 실시예에 따른 컴퓨터(20)의 블록도이다. 도 1 및 관련 설명은 본 발명이 구현될 수 있는 적합한 컴퓨팅 환경에 대한 간략하고 일반적인 설명을 제공하도록 의도된다. 요구되지는 않지만, 본 발명은 적어도 부분적으로, 프로그램 모듈과 같이 퍼스널 컴퓨터에 의해 실행되는 컴퓨터 실행가능한 명령들의 일반적인 문맥으로 설명될 것이다. 일반적으로, 프로그램 모듈은 특정한 태스크를 수행하거나 특정한 요약 데이타 타입을 구현하는 루틴 프로그램, 오브젝트, 컴포넌트, 데이타 구조 등을 포함한다. 또한, 당업자들은 본 발명이 핸드 헬드 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 또는 프로그램 가능한 소비자 전자기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터 등을 포함하는 다른 컴퓨터 구성에서 실용화될 수 있음을 이해할 것이다. 본 발명은 또한 통신 네트워크를 통해 링크되어 있는 원격 프로세싱 장치에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실용화될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치에 배치될 수 있다.

도 1에서, 본 발명을 구현하기 위한 예시적인 시스템은 프로세싱 유닛(21), 시스템 메모리(22), 및 시스템 메모리를 포함하는 각종 시스템 컴포넌트를 프로세싱 유닛(21)에 결합시키는 시스템 버스(23)를 포함하는 종래의 퍼스널 컴퓨터(20)의 형태로 일반적인 목적의 컴퓨팅 장치를 포함한다. 시스템 버스(23)는 메모리 버스 또는 메모리 컨트롤러, 주변장치 버스, 및 임의의 다양한 버스 아키텍쳐를 사용하는 로컬 버스를 포함하는 임의의 다양한 타입의 버스 구조일 수 있다. 시스템 메모리는 ROM(24) 및 RAM(25)을 포함한다. 기동(start-up) 중과 같이, 퍼스널 컴퓨터(20) 내의 소자들 사이에서 정보 전달을 돕는 기본 루틴을 포함하는 BIOS(basic input/output; 26)는 ROM(24)에 저장된다. 퍼스널 컴퓨터(20)는 하드 디스크(도시하지 않음)로부터의 판독 또는 그로의 기입을 위한 하드 디스크 드라이브(27), 이동가능한(removable) 자기 디스크(29)로부터의 판독 또는 그로의 기입을 위한 자기 디스크 드라이브(28), 및 CD ROM 또는 다른 광 매체와 같은 이동가능한 광디스크(31)로부터의 판독 또는 그로의 기입을 위한 광디스크 드라이브(30)를 더 포함한다. 하드 디스크 드라이브(27), 자기 디스크 드라이브(28), 및 광디스크 드라이브(30)는 각각 하드 디스크 드라이브 인터페이스(32), 자기 디스크 드라이브 인터페이스(33), 및 광디스크 드라이브 인테페이스(34)에 의해 시스템 버스(23)에 접속된다. 드라이브들과 관련 컴퓨터 판독가능한 매체는 컴퓨터 판독가능한 명령, 데이타 구조, 프로그램 모듈 및 퍼스널 컴퓨터(2)용의 다른 데이타의 불휘발성 기억매체를 제공한다.

본 발명에 설명된 예시적인 환경은 하드 디스크, 이동가능한 자기 디스크(29) 및 이동가능한 광디스크(31)를 채용하고 있지만. 당업자들이라면 자기 카세트, 플래시 메모리 카드, 디지털 비디오 디스크, 베르노울리 카트리지, RAM, ROM 등의 컴퓨터에 의해 액세스 가능한 데이타를 저장할 수 있는 다른 타입의 컴퓨터 판독가능한 매체도 예시적인 동작 환경에서 사용될 수 있음을 이해해야 한다.

다수의 프로그램 모듈은 하드 디스크, 자기 디스크(29), 광디스크(31), ROM(24) 또는 RAM(25) 상에 저장될 수 있으며, 오퍼레이팅 시스템(35), 하나 이상의 응용 프로그램(36), 다른 프로그램 모듈(37), 및 프로그램 데이타(38)를 포함한다. 사용자는 키보드(40) 및 포인팅 장치(42)와 같은 입력 장치를 통해 명령 및 정보를 퍼스널 컴퓨터(20)에 입력할 수 있다. 다른 입력 장치(도시하지 않음)는 마이크로폰, 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 다른 입력 장치들은 종종 시스템 버스(23)에 연결되는 직렬 포트 인터페이스(45)를 통해 프로세싱 유닛(21)에 접속되지만, 사운드 카드, 병렬 포트, 게임 포트 또는 USB(universal serial bus)와 같은 다른 인터페이스에 의해 접속될 수 있다. 모니터(47) 또는 다른 타입의 표시 장치도 비디오 어댑터(48)와 같은 인터페이스를 통해 시스템 버스(23)에 접속된다. 모니터(47)에 부가하여, 퍼스널 컴 퓨터는 일반적으로 스피커 및 프린터(도시하지 않음)와 같은 다른 주변의 출력 장치를 포함할 수 있다.

퍼스널 컴퓨터(20)는 원격 컴퓨터(49)와 같은 하나 이상의 원격 컴퓨터와의 논리 접속을 이용하여 네트워크 환경에서 동작할 수 있다. 비록 메모리 저장 장치(50)만이 도 1에 도시되었지만, 원격 컴퓨터(49)는 또 다른 퍼스널 컴퓨터, 서버, 라우터, 네트워크 PC, 피어 디바이스 또는 다른 네트워크 노드일 수 있으며, 일반적으로 퍼스널 컴퓨터(20)에 비해 상술한 많은 또는 모든 소자들을 포함한다. 도 1에 도시된 논리 접속은 LAN(local area network)(51) 및 WAN(wide area network)(52)을 포함한다. 이러한 네트워크 환경은 오피스, 기업형 컴퓨터 네트워크 인트라넷 및 인터넷에 흔하다.

LAN 네트워크 환경에서 사용되는 경우, 퍼스널 컴퓨터(20)는 네트워크 인터페이스 또는 어댑터(53)를 통해 LAN(51)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 퍼스널 컴퓨터(20)는 일반적으로 인터넷과 같은 WAN(52)을 통해 통신을 수립하기 위한 다른 수단 또는 모뎀(54)을 포함한다. 내부 또는 외부에 있을 수 있는 모뎀(54)은 직렬 포트 인터페이스(46)를 통해 시스템 버스(23)에 접속된다. 네트워크 환경에서, 퍼스널 컴퓨터(20), 또는 그 일부분들에 대하여 도시된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 도시된 네트워크 접속은 예시적이며 컴퓨터들 사이의 통신 링크를 확립하기 위한 다른 수단이 사용될 수 있다.

본 발명은 실질적으로 임의의 환경 또는 문맥에서의 구문들 사이에서의 번역 관계를 도출하는데 이용될 수 있다. 설명되어질 기계 번역 아키텍쳐는 단지 하나의 환경 또는 문맥일 뿐이다.

논리 형태는 본 발명에 요구되지 않지만, 도 2a에 도시된 기계 번역 아키텍쳐와 관련하여 설명된다. 따라서, 그 아키텍쳐를 보다 상세히 설명하기 이전에, 논리 형태에 대해 간단히 설명하면 도움이 될 것이다. 논리 형태 및 이를 생성하기 위한 시스템 및 방법에 대한 전반적이고 상세한 설명은 1999년 10월 12일 등록되고 헤이돈(Heidorn) 등에게 허여된 METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES라는 제목의 미국 특허 제5,966,686호에서 볼 수 있다. 간단하게, 그러나, 논리 형태는 입력 텍스트 상의 형태학상 분석을 수행하여 문법적 관계로 확대된 종래의 구문 구조 분석을 제시한다. 구문 분석(syntactic analyses)은 텍스트 입력의 컨텐트 단어 사이에서 라벨 종속성(labeled dependency)을 설명하는 그래프 구조인 논리 형태를 도출하기 위해, 프로세싱을 더 수행한다. 논리 형태는 특정 구문 변경(예를 들어, 능동/수동)을 표준화하고, 문장내의 대용어(anaphora) 및 원거리 의존성 모두를 해결한다.

특히, 논리 관계는 방향성의 관계 타입에 의해 묶여진 2개의 단어로 이루어진다(예를 들면, Part, Time, Hypernym, LogicalSubject, Cause, Domain, Location, Manner, Material, Means, Modifier, Possessor, Purpose, Quasihypernym, Synonym, LogicalObject, 및 User). 논리 형태는 문장과 같은 단일 텍스트 입력을 나타내는 연결된 논리 관계들의 그래프이다. 그것은 최소한 하나의 논리 관계로 이루어진다. 논리 형태는 구조 관계(예를 들어, 문법적 및 의미 적 관계), 특히 입력 스트링의 중요한 단어들 사이의 독립 및/또는 종속 관계를 나타낸다.

기계 번역 아키텍쳐에 대한 하나의 예시적인 실시예에서, 구문 분석으로부터 논리 형태를 구축하는 특정한 코드는 기계 번역 시스템이 동작하는 다양한 소스 및 타겟 언어에 걸쳐 공유된다. 공유된 아키텍쳐는, 두가지 언어에서 표면적으로 별개의 구조가 유사 또는 동일한 논리 형태 표시에서 빈번히 붕괴되기 때문에, 상이한 언어로부터 논리 형태 세그먼트를 정렬하는 태스크를 매우 단순화시킨다.

도 2a는 본 발명을 위한 환경의 일 실시예를 정의하는 기계 번역 시스템(200)의 아키텍쳐를 나타낸 블록도이다. 시스템(200)은 구문해석(parsing) 컴포넌트(204 및 206), 통계적 단어 연관성 학습 컴포넌트(208), 논리 형태 정렬 컴포넌트(210), 어휘 지식 기반 구축 컴포넌트(lexical knowledge base building component;212), 2개국어(bilingual) 사전(214), 사전 병합 컴포넌트(216), 전송 매핑 데이타베이스(218) 및 갱신된 2개국어 사전(220)을 포함한다. 런타임(run time) 동안, 시스템은 분석 컴포넌트(222), 매칭 컴포넌트(224), 전송 컴포넌트(226) 및 생성 컴포넌트(228)를 이용한다.

하나의 예시적인 실시예에서, 2개국어 언어자료는 시스템을 트레인(train)하는데 사용된다. 2개국어 언어자료는 번역 관계가 학습되어질 소스 언어 구문이 식별되거나 또는 일부 표시되는 정렬된 번역 문장들(예를 들면 스페인어 또는 프랑스어 등의 다른 소스 또는 타겟 언어의 번역으로 정렬되는 영어 등의 소스 또는 타겟 언어의 문장들)을 포함한다. 트레이닝 시에, 문장들은 소스 언어 문장(230)(번역 되어질 문장)으로서, 그리고 타겟 언어 문장(232)(소스 언어 문장의 번역)으로서, 배열된 2개국어 언어자료로부터 시스템(200)으로 제공된다. 구문해석 컴포넌트(204 및 206)는 정렬된 2개국어 언어자료로부터의 문장을 분석하여 소스 논리 형태(234) 및 타겟 논리 형태(236)를 생성한다. 구문해석 동안에, 문장 내의 단어는 표준 단어 형태(표제어(lemmas))로 변환되어, 통계적 단어 연관성 학습 컴포넌트(208)로 제공된다. 단일 단어 및 다중 단어 연관성 모두는, 각각의 신뢰성 있는 세트가 얻어질 때까지, 학습 컴포넌트(208)에 의해 반복적으로 가정되고 스코어된다. 통계적 단어 연관성 학습 컴포넌트(208)는 다중 단어쌍(240) 뿐만 아니라 학습된 단일 단어 번역쌍(238)을 출력한다. 다중 단어쌍(240)은 2개국어 언어 사전(214)에 추가의 엔트리를 부가하는데 사용되는 사전 합병 컴포넌트(216)에 제공되어 갱신된 2개국어 사전(220)을 형성한다. 새로운 엔트리는 다중 단어쌍(240)을 나타낸다. 단일 단어쌍(238)은 소스 논리 형태(234) 및 타겟 논리 형태(236)와 함께, 논리 형태 정렬 컴포넌트(210)에 제공된다. 컴포넌트(210)는 우선 소스 및 타겟 논리 형태(230 및 236)의 노드들 사이의 시험적인 어휘 일치(tentative lexical correspondence)를 각각 확립한다. 이것은 통계적 단어 연관성 학습 컴포넌트(208)로부터의 단일 단어 번역쌍(238)과 함께 증가하는 2개국어 어휘집(또는 2개국어 사전)(214)으로부터의 번역쌍을 사용하여 행해진다. 사전(214)은 또한 도 2b에 대하여 기재된 구문 번역쌍과 함께 증가한다. 가능한 일치성을 확립한 후, 정렬 컴포넌트(210)는 어휘 및 구조적 특성 모두에 따라 논리 형태 노드를 정렬하고 논리 형태 전송 매핑(242)을 생성한다.

기본적으로 정렬 컴포넌트(210)는 후술하는 2개국어 사전 정보(214), 단일 단어쌍(238) 및 구문쌍을 이용하여 논리 형태 사이의 링크를 끌어낸다. 전송 매핑은 이들이 소스 및 타겟 논리 형태(234 및 236)에서 발견되는 빈도에 기초하여 필터링되어, 어휘 지식 기반 구축 컴포넌트(212)에 제공된다.

일례에서, 임의의 다른 원하는 빈도가 유사하게 필터로서 사용될 수도 있지만, 전송 매핑은 트레이닝 데이타에서 적어도 2번 나타나지 않으면, 전송 매핑 데이타베이스(218)를 구축하는데 사용되지 않는다. 도시된 빈도 이외에, 다른 필터링 기술도 사용될 수 있음을 이해해야 한다. 예를 들어 전송 매핑은 그들이 입력 문장의 완전한 구문해석으로부터 형성되어 있는지의 여부에 기초하여, 그리고 전송 매핑을 생성하는데 필요한 논리 형태가 완전하게 정렬되어 있는지의 여부에 기초하여 필터링될 수 있다.

컴포넌트(212)는 기본적으로 한 언어의 논리 형태, 또는 그 일부분을 제2 언어의 논리 형태, 또는 그 일부분으로 링크하는 전송 매핑을 포함하는 전송 매핑 데이타베이스(218)를 작성한다. 이와 같이 생성된 전송 매핑 데이타베이스(218)에 의해, 시스템(200)이 런타임 번역용으로 새로 구성된다.

런타임 동안, 번역되어질 소스 언어 문장(250)은 분석 컴포넌트(222)로 제공된다. 분석 컴포넌트(22)는 소스 언어 문장(250)을 수신하고, 후술하는 단일 언어 사전을 액세스하고 소스 언어 문장(250)을 구문해석하여 소스 언어 문장 입력에 기초한 소스 논리 형태(252)를 생성한다.

소스 논리 형태(252)는 매칭 컴포넌트(224)에 제공된다. 매칭 컴포넌트(224)는 링크된 논리 형태(254)를 얻기 위해, 소스 논리 형태(252)를 전송 매핑 데이타베이스(218)의 논리 형태에 매치시키려고 시도한다. 복수의 전송 매핑은 소스 논리 형태(252)의 일부분들을 매치시킨다. 매칭 컴포넌트(224)는 매칭 표제어, 스피치의 부분들, 및 다른 특징 정보를 갖는 데이타베이스(218)에서 매칭 전송 매핑의 최적의 세트를 탐색한다. 예시적으로 보다 많은(보다 특정한) 전송 매핑은 보다 적은(보다 일반적인) 전송 매핑보다 선호된다. 동일한 사이즈의 매핑 중에서, 매칭 컴포넌트(224)는 예시적으로 보다 높은 빈도수 매핑을 선호한다. 매핑은 또한 어떤 식으로든 대립되지 않는다면 소스 논리 형태(252)의 중첩 부분들을 매치시킬 수 있다.

전송 매핑을 매칭하는 최적의 세트를 찾은 후에, 매칭 컴포넌트(224)는 전송 매핑에 의해 수신된 대응 타겟 논리 형태 세그먼트의 카피에 소스 논리 형태(252)의 노드 상의 링크를 생성하여, 링크된 논리 형태(254)를 발생시킨다.

전송 컴포넌트(226)는 매칭 컴포넌트(224)로부터 링크된 논리 형태(254)를 수신하여 타겟 번역의 기초를 형성할 타겟 논리 형태(256)를 생성한다. 이는 소스 논리 형태(252) 노드 상의 링크에 의해 지적되는 타겟 논리 형태 세그먼트들이 결합되는 링크된 논리 형태(254)의 포괄적인 순회(top down traversal)를 행함으로써 이루어진다. 복잡한 다중 단어 매핑을 가능하게 하기 위해 논리 형태 세그먼트들을 함께 결합하는 경우, 개별적인 노드들 사이의 매칭 컴포넌트(224)에 의해 설정된 서브 링크는 변경자(modifier) 등에 대한 올바른 부착 포인트들(attachment points)을 결정하는데 사용된다. 필요하다면, 디폴트 부착 포인트들이 사용된다.

응용가능한 전송 매핑을 찾을 수 없는 경우에, 소스 논리 형태(252)의 노드들 및 그들의 관계는 단순히 타겟 논리 형태(256)로 복사된다. 디폴트 단일 단어 및 구문 번역은, 이 노드에 대한 전송 매핑 데이타베이스(218)에서 발견되고 타겟 논리 형태(256)로 삽입될 것이다. 그러나, 아무것도 발견되지 않으면, 번역은 정렬중에 사용되었던 갱신된 2개국어 사전(220)으로부터 예시적으로 얻어질 수 있다.

생성 컴포넌트(228)는 예시적으로, 타겟 논리 형태(256)로부터 타겟 스트링(또는 출력 타겟 언어 문장)(258)으로 매핑하는, 규칙-기반, 어플리케이션-독립적 생성 컴포넌트이다. 생성 컴포넌트(228)는 예시적으로 입력 논리 형태의 소스 언어에 대한 정보를 가지고 있지 않고 전송 컴포넌트(226)에 의해 통과된 정보와 배타적으로 동작한다. 또한, 생성 컴포넌트(228)는 예시적으로 타겟 언어 문장(258)을 생성하도록 (예를 들면, 타겟 언어에 대한) 단일언어 사전과 함께 이러한 정보를 사용한다. 따라서, 하나의 일반적인 생성 컴포넌트(228)가 각 언어에 대해 충분하다.

도 2b는 구문 번역을 학습하고 도 2a에 나타낸 시스템에 사용되는 단일언어 및 2개국어 사전을 증대시키기 위한 시스템(300)의 보다 상세한 블록도이다. 시스템(300)은 정렬된 2개국어 언어자료로부터 구문 번역을 학습하고 2개국어 사전(216)을 증대시켜 갱신된 2개국어 사전(220)을 획득하고, 단일언어 사전(302)을 증대하여 갱신된 단일언어 사전(304)을 획득하는데, 이는 트레이닝 타임에 (도 2a에 도시된) 구문해석(parsing) 컴포넌트(204, 및/또는 242) 및 런타임동안 (도 2a에도 도시된) 분석 컴포넌트(222)에 의해 사용된다. 다수의 아이템들은 도 2a에 기술된 것과 동일하고 유사하게 번호가 붙여진다.

소스 언어 문장(230) 및 타겟 언어 문장(232)들은, 도 2a에 대해 기술된 바와 같이, 정렬된 트레이닝 언어자료로부터의 정렬된 문장들이다. 문장(230, 232)들은 구문해석 컴포넌트(204, 242)에 제공된다. 구문해석 컴포넌트(204, 242)는 문장을 구문해석하고 다중단어(multiword) 구문들로 마킹(marking)함으로써 이러한 문장들을 토큰화(tokenize)한다. 토큰화된 문장들은 토큰화된 소스 언어 문장(310)에 의해 표시되고 타겟 언어 문장(312)을 토큰화한다. 구문해석기는 다양한 다중단어 구문들을 마킹할 수 있다.

토큰화된 문장(310, 312)은 구문 번역 학습 컴포넌트(400)로 입력된다. 구문 번역 학습 컴포넌트(400)는 토큰화된 소스 언어 문장(310)으로부터 관심있는 구문들을 선택한다. 그 후, 구문 번역 학습 컴포넌트(400)는 선택된, 마킹된 소스 언어 구문과, 정렬된 타겟 언어 문장들 내의 그들의 번역들 사이의 연관성을 학습하고, 블록(410)으로 나타낸 바와 같이, 번역 쌍 및 그들의 연관성 스코어를 출력한다.

구문 쌍 및 연관된 스코어(410)는, 구문 쌍 및 스코어를 2개국어 사전(216)에 병합하여 갱신된 2개국어 사전(220)을 생성하는 사전 병합 컴포넌트(216)에 제공된다. 또한, 사전 병합 컴포넌트(216)는, 선택된 소스 언어 구문들의 번역으로서 식별된 타겟 언어 구문으로 단일언어 타겟 언어 사전(302)을 증대시켜 갱신된 단일언어 타겟 언어 사전(304)을 획득한다. 새롭게 학습된 타겟 언어 구문들이 포함된, 갱신된 단일언어 사전은 도 2a에 대해 설명한 것과 같이 논리적 형태 구성에 대해 입력 문장을 구문해석하는데 보다 우수한 성능을 발휘할 수 있다. 또한, 갱신된 2개국어 사전 내의 학습된 번역 관계는 정렬의 성능 자체를 개선한다.

이상을 명심하면서, 본 설명은 구문 번역의 학습에 대해 보다 구체적으로 진행한다. 본 발명은 처리되지않은(raw) 입력 텍스트를 구문해석시 발생하는 문제를 해결하는데 사용될 수 있다. 기술 분야란에서 설명한 것과 같이, 매우 적은 작업으로 구문을 번역할 수 있다. 이 문제는, 많은 유형의 텍스트중에서, 기술적 텍스트중 특히 소정의 유형에서 구문들이 그들의 일반적인 방식으로 사용되지 않고 대신 특정 도메인 내의 소정의 이름으로 사용되기 때문에 보다 어렵게 된다. 예를 들면, "Click to remove the View As Web Page check mark"라는 문장은 부정형 동사 구문의 구문법 형태를 가지는 "View As Web Page" 용어를 포함한다. 그러나, 문장 내에서, 적절한 이름인 것처럼 사용된다. 구문해석기가 구문의 이러한 특별한 사용을 인식하지 못하면, 실질적으로 문장을 올바르게 구문해석하는 것은 불가능하다.

영어에서, 이러한 유형의 표현은, 간단한 방식으로 처리될 수 있다. 그 이유는, 주로 영어에서의 대문자사용 관습은 이러한 유형들의 구문들을 용이하게 인식하기 때문이다. 구문해석 이전에 입력 텍스트를 토큰화하는데 사용되는 토큰화 장치는 "View As Web Page"와 같은 대문자화가 사용된 단어의 시퀀스들이 사전화된(lexicalized) 다중단어 표현으로 처리되어야 한다고 가정한다. 다중단어의 서브클래스는 본원에서 "캡토이드(captoids)"로 나타낸다.

그러나, 이러한 캡토이드의 번역을 식별하는 것은 매우 어렵다. 이는 주로 다른 언어(예를 들면, 프랑스어 또는 스페인어)에서의 대문자사용 관습은 단지 그러한 표현의 제1 단어만 대문자화하기 때문이다. 그러므로, 영어에서는, 캡토이드가 시작되고 끝나는 위치를 비교적 간단하게 결정하는 반면, 다른 언어들에서는 매우 어렵다.

본 발명은 캡토이드의 번역을 식별하는데 사용될 수 있고, 구문해석기가 사용하는 단일언어 어휘집, 및 캡토이드가 정확하게 구분해석되고 번역될 수 있도록 기계 번역 시스템 내의 다양한 다른 장소들에 사용되는 2개국어 어휘집에 추가된다. 본 발명은, 영어에서, 이러한 캡토이드가 간단한 방식으로 식별될 수 있다는 사실을 이용하고, 또한 본 발명의 특징들이 합성어(compounds)를 식별하는데 사용될 수 있다는 사실을 이용한다. 도 3은 본 발명의 일실시예에 따라 구문 번역 학습 컴포넌트(400)를 보다 상세하게 나타낸다. 구문 번역 학습 컴포넌트(400)는 캡토이드를 포함하는 구문들 사이의 연관성을 학습하는데 적합하나, 실질적으로 임의의 다른 구문들에도 적합하다.

도 3은, 컴포넌트(400)가 토큰화된 문장(310, 312)을 수신하고 토큰화된 정렬된 문장들을 프로세싱을 위한 3개의 서로 다른 모델들에 제공하는 것을 나타낸다. 정렬된 문장들(310, 312)이, 먼저 개별 단어 연관성 스코어 모델(404)에 제공되고 그 후 크로스-문장 모델(406)에 제공되고 최종적으로 번역 쌍 및 연관된 스코어(410)를 출력하는 신뢰성 측정 변환 모델(confidence measure conversion model)(408)에 제공된다.

컴포넌트(400)는 정렬된, 토큰화된 문장들(310, 312)을 소스 언어 문장 내에 식별된 구문들로 수신하고 그 후, 타겟 언어 문장 내의 대응하는 구문들을 자동적으로 학습한다. 타겟 언어 문장들은 번역 쌍 및 연관된 스코어(410)로부터 추출될 수 있고 트레이닝 및 런타임동안 타겟 언어를 구문해석하는데 사용되는 어휘집에 추가된다. 또한, 번역 쌍은 2개국어 번역 사전(214)에 추가될 수 있다(도 2a 및 2b에 도시됨).

또한, 컴포넌트(400)는 토큰화된 문장들 대신에 논리적 형태으로 동작할 수 있다. 또한, 컴포넌트(400)는 기계 번역기의 외부에 사용될 수 있다. 예를 들면, 컴포넌트(400)는 사전을 형성하거나 또는 구문 번역 스코어 또는 관계를 간단히 생성하는데 사용될 수 있다.

도 4는 도 3에 나타낸 컴포넌트(400)의 전체 동작을 보다 잘 나타내는 흐름도이다. 컴포넌트(400)는 먼저 병렬 정렬된 문장들을 소스 언어에서 식별되고 번역될 구문들로 수신한다. 이는 블록(420)으로 나타낸다. 주의할 점은, 번역될 구문들이 타겟 언어 내의 단어들의 인접하는 시퀀스로서 타겟 언어로 번역되는 것으로 가정한다는 것이다. 또한, 번역될 구문들이 소스 언어 문장 내에서와 같이 타겟 언어 문장 내에서 정확하게 동일한 형태으로 발생하면, 그러한 문장 내의 대응하는 구문은 1.0의 확률을 가진 원하는 번역인 것으로 가정한다.

임의의 경우에, 정렬되고 구문해석되며 토큰화된 문장들이 시스템(400) 내의 개별 단어 연관성 스코어 모델(404)로 제공된다. 모델(400)은 예시적으로, 단어 연관성 스코어들이 계산되기 이전에 다중단어가 그들의 구성성분 단일 단어로 분해되는 것을 제외하고, 이전에 설명된 개별 단어 쌍 및 다중단어 쌍에 대해 단어 연 관성 스코어를 계산하는 통계적 단어 연관성 학습기(208)의 일부분에 대응할 수 있다. 즉, 소스 언어 문장 내의 단어(W_s)와 타겟 언어 문장 내의 단어(W_t) 사이의 연관도는, 언어자료의 정렬된 문장 내에 W_s와 W_t가 함께 발생하는 빈도와 비교하여, W_s가 언어자료의 소스 언어 (S) 부분의 문장 내에 발생하고 W_t가 언어자료의 타겟 언어 (T) 부분의 문장 내에 발생하는 빈도로 계산된다.

단어 연관성 메트릭은 트레이닝 언어자료 내의 단어 쌍들 사이의 통계적 단어 연관성을 나타내는 스코어를 제공하는데 사용되었다. 그러한 한가지 메트릭은 "Accurate Methods for the Statistics of Surprise and Coincidence, Computational Linguistics, 19(1): 61-74(1993)에서 더닝 인 더닝에 의해 설명된 로그 가능도 비율(log-likelihood ratio) 통계이다. 이러한 통계는, 언어 2(WL₂) 내의 단어 또는 표제어(lemma)가 주어지면 언어 1(WL₁) 내의 단어 또는 표제어의 빈도와 트레이닝 데이타의 언어 1(WL₁) 내의 단어 또는 표제어의 전체 빈도를 비교하는데 사용된다(즉, WL₂가 발생하는 L2의 문장들과 정렬되는 L1의 문장 내에 WL₁이 발생하는 빈도). 그러므로, 로그 가능도 비율 통계는 WL₁과 WL₂ 사이에서 관찰된 포지티브 연관성이 우연적이지 않다는 가능성의 척도를 제공한다.

연관성 스코어들이 계산되는 단어 쌍의 리스트가 간결하게 될 수 있다. 즉, 단어 연관성 스코어를 계산하는 과정은 큰 트레이닝 언어자료에 대한 아주 많은 단어(또는 표제어) 쌍에 대해 연관성 스코어를 생산한다. 따라서, 예시적인 일실시 예에서, 단어 쌍들의 세트가 간결하게 되어 번역 쌍으로서 고려될 적어도 소정의 기회를 갖는 그러한 쌍들로 더 처리되는 것을 제한한다. 한가지 예시적인 발견은. 하나의 동시발생성을 갖고 각각 하나의 다른 발생성을 더한, 단어 또는 표제어들의 쌍의 연관도로 임계값을 설정한다.

따라서, 모델(404)은 로그 가능도 비율 통계를 사용하여 정렬된 문장들 내의 단어 쌍에 대한 단어 연관성 스코어를 계산한다. 이는 도 4의 블록(422)으로 나타낸다.

이러한 스코어들에 기초하여, 개별 단어 연관성 스코어 모델(404)은 소스 언어 문장 내의 식별된 구문 각각에 대해 타겟 언어 문장 내의 후보 구문을 가정한다. 그 후, 모델(404)은 문장 쌍을, 식별된 소스 언어 구문 및 후보 구문 내에 놓인 문장 쌍의 일부분, 및 상기 식별된 소스 언어 구문 및 후보 구문 밖에 놓인 문장의 일부분으로 분할한다.

로그 가능도 비율 통계는 단일단어 번역 관계를 학습하는데 우수한 기초가 된다는 것이 증명되었기 때문에(스코어가 높을수록, 실제 번역 관계의 연관성이 높아짐), 개별 단어 쌍에 대한 스코어들을 구문 번역 후보들에 대한 복합 스코어로 결합하는 것이 어렵다.

그러므로, 모델(404)은 분할의 내부 및 외부에 대한 단어 연관성 스코어들로부터 (용이하게 결합될 수 있는) 확률을 생성한다. 이는 도 5a 및 5b에 대해 보다 상세하게 설명된다. 그러나, 간략하게, 모델(404)은, 소스 언어 구문 내의 단어와 후보 구문 번역 사이에서 발견될 수 있는 가장 강한 연관성에 대한 연관성 확률의 로그를 합산함으로써 타겟 언어 문장의 분할 내부에 대한 조인트 확률 스코어를 연산하고, 그 역도 가능하다. 이러한 조인트 확률은 내부 스코어로 나타낸다. 내부 스코어는, 후보 구문 번역 내에 있지 않는 타겟 언어 단어들에 대한 식별된 소스 언어 구문 내에 있지 않는 소스 언어 단어들에 대해 발견될 수 있는 가장 강한 연관성에 대한 연관성 확률의 로그의 합산으로 가산되고, 그 역도 가능하다. 이는 외부 스코어로 나타낸다. 따라서, 후보 번역 내에 있지 않은 타겟 언어 단어가, 식별된 소스 언어 구문 내의 소스 언어 단어와 매우 높은 확률로 연관되어 있다면, 그러한 후보 번역은 특정 타겟 언어 단어를 포함하는 다른 후보 번역보다 낮은 스코어를 가질 것이다.

그 후, 모델(404)은 내부 스코어로 가산된 대문자사용 확률 스코어를 계산하고 적용하며, 몇개의 대문자사용 패턴에 대해 추정된 로그 확률이다. 또한, 이는 도 5a 및 5b에 대해 보다 상세하게 다음에 설명된다. 모델(404)의 적용은 도 4의 블록(424)으로 나타낸다.

분할 스코어는 그 후 크로스-문장 모델(406)로 제공된다. 모델(406)은 정렬된 언어자료 내의 모든 문장들에 걸쳐 특정 구문들의 번역의 경향을 고려할 수 있다. 소정의 구문이 몇개의 문장들 내에서 명확하게 선호되는 번역을 가진다면, 개별 단어 연관성 확률이 명확하지 않는 구문의 번역을 남겨두는 문장 내의 구문에 대한 번역을 선택할 때 이러한 것이 고려될 수 있다.

모델(406)의 적용은 도 10에 대해 보다 상세하게 설명될 것이나, 명확히 하기 위해 여기에서 간략하게 설명한다. 모델(406)은, 소스 언어 구문이 제공되면 발생하는 후보 구문의 조건부 확률의 직접 추정과 후보 구문이 주어지면 발생하는 소스 언어 구문의 조건부 확률의 직접 추정의 곱의 로그에 의해 모델(404) 내에 발생된 내부 스코어를 교체한다. 그 후, 수정된 내부 스코어는 스케일되고(scale) 본래의 단어 연관성 기반 외부 스코어와 결합된다. 수정된 내부 스코어에 대한 초기값들이 모델(404)을 사용하여 추정되고 EM 알고리즘을 사용하여 반복적으로 재추정된다. 이는 예시적으로, 로그 확률인 것처럼 복합 스코어를 취급하고, 모델(404)의 추정으로부터 진척된 소스 언어 구문 각각에 대한 후보 번역 세트에 걸쳐 그들을 표준화함으로써 수행된다. 크로스-문장 모델(406)을 적용하는 것은 도 4의 블록(426)에 의해 나타낸다.

그 후, 수정된 스코어는, 이들 스코어들에 적용되는, 신뢰성 측정 변환 모델(408)로 제공된다. 이는 도 11에 대해 보다 상세하게 설명된다. 간략하게, 모델(408)은 소스 언어 내의 식별된 구문 및 타겟 언어 내의 그 후보 번역에 대한 조건부 확률의 결합을 전체 구문에 기초한 로그 가능도 비율 메트릭으로 교체하고 구문 및 후보 번역의 외부의 문맥이 제거된다. 모델 파라미터들은 비터비 재추정을 사용하여 반복적으로 재계산된다. 재추정이 수렴될 때, 구문 번역 스코어의 최종 세트가 전체 구문들에 대한 로그 가능도 비율 메트릭으로 얻어진다. 이는 로그 가능도 비율 스코어의 일관된 세트를 생성하여 구문 번역 쌍(410)에 대한 신뢰성 측정으로서 사용한다. 모델(408)의 적용은 도 4의 블록(428)에 의해 도시된다. 최종 구문 번역 쌍 및 관련된 스코어들은 도 4의 블록(430)에 의해 나타내는 바와 같이 출력된다.

본 발명의 구문 번역 측면이 보다 상세하게 설명될 것이다. 도 5a 및 5b는 본 발명의 일실시예에 따른 모델(404)의 동작을 보다 잘 설명하는 흐름도이다. 모델(404)을 적용하기 전에 모든 단일단어 연관성이 상술한 것과 같이 계산되었다는 것을 상기하자. 또한, 번역이 획득되는 소스 언어 문장 내의 모든 구문들이 식별되었다.

단어 연관성 스코어로부터 결합가능한 확률을 유도하기 위하여, 모델(404)은 먼저 문장 쌍(즉, 소스 언어 내의 하나의 문장과 타겟 언어 내의 그의 정렬된 문장)을 선택한다. 이는 도 5a의 블록(500)으로 나타낸다. 그 후, 소스 언어 문장 내의 각 단어(W_s)에 대해, 모델(404)은 이러한 가장 강한 연관성을 고려하면서, W_s와 가장 연관성이 강한 타겟 언어 문장 내의 단어(W_t)를 식별한다. 이는 도 5a의 블록(502)으로 나타낸다.

그 후, 타겟 언어 문장 내의 각 단어(W_t)에 대해, 모델(404)은 다시 가장 강한 연관성을 고려하면서, W_t와 가장 강하게 연관된 소스 언어 문장 내의 단어(W_s)를 식별한다. 이는 블록(504)으로 나타낸다. 블록(506)에 나타낸 바와 같이 정렬된 문장 각각에 대해 이것이 행해진다.

단어 연관성 스코어는 로그 가능도 비율로 표현되기 때문에, 구문 번역을 획득하기 위해 서로 결합하는 것은 어렵다. 그러므로, 모델(404)은 그 후 확률들이 용이하게 결합될 수 있기 때문에, 카운트로부터의 확률을 추정한다. 특히, 생성된 카운트로부터, 각 단어(W_s)에 대해, 모델(404)은, W_s의 발생이 대응하는 정렬된 문장 내의 가장 강하게 연관된 단어로서 소정의 단어 W_t를 가질 확률을 추정한다. 이는 블록(508)로 나타낸다.

유사하게, 카운터로부터, 각 단어 W_t에 대해, 모델(404)은 W_t의 발생이 대응하는 정렬된 문장 내의 가장 강하게 연관된 단어로서 소정의 단어 W_s를 가질 확률을 추정한다. 이는 블록(510)으로 나타낸다.

그 후, 추정된 확률들은, 기지의 Good-Turing Smoothing 방법과 같은 알려진 평활화 기술을 사용하여 평활화된다. 경험적으로 추정된 확률 분포를 평활화하는 목적은, 일반적으로 소정의 작은 확률을 트레이닝 데이타 내에 결코 관찰되지 않은 이벤트들에 할당하기 위한 것이다. 즉, 소정의 또는 모든 이벤트들의 경험적으로 관찰된 확률은 어느정도 감소되고, 가능하나 관찰되지 않는 이벤트의 세트에 걸쳐 분포된다. 이러한 유형의 평활화가 실행되지 않으면, 트레이닝 데이타 내의 관찰되지 않은 모든 이벤트들은 0의 확률을 할당받을 것이다.

0의 확률의 할당을 회피하는 것에 가장 관련된 유형의 이벤트들은 소스 언어 문장 또는 타겟 언어 문장 내의 단어가 다른 문장 내의 임의의 단어와 알려진 연관성을 가지지 않는 이벤트들이다. 이는 자유 번역에 의해 발생하고, 그 결과 소스 또는 타겟 언어 문장 중 어느 하나의 특정 단어는 정확하게 번역되지 않거나, 또는 하나의 언어 내의 기능어로 인해 다른 언어 내의 대응하는 단어를 가지지 않는다. 예를 들면, 한 언어 내의 전치사로 표현된 관계는, 관계를 표현하는 특정 단어없 이, 순수하게 다른 언어 내의 단어 순서에 의해서 표시될 수 있다.

한 언어 내의 단어가 다른 언어 내의 대응하는 단어와 연관되지 않는 상황을 모델링하기 위해, 모든 문장(또는 문장의 일부분)에서 발생하는 것으로 취급하는, "널(null)"이란 단어의 표현을 사용한다. 문제의 문장 내에서, 소정의 단어가 다른 언어의 임의의 단어와 알려진 연관성이 없다는 것을 알게되면, 가장 높게 연관된 단어는 "널"이란 단어인 경우로 분류한다. 현재 설명중인 확률에 대한 평활화의 응용시, 관찰된 이벤트들로부터 취해진 모든 확률은 소스 및 타겟 언어 단어를 "널" 단어에 연관시킨 이벤트로 할당된다. 관찰된 이벤트로부터 감산될 확률의 양은 예시적으로 잘 알려진 Good-Turing 방법을 사용하여 계산되고 트레이닝 데이타 내의 소정의 작은 횟수(예시적으로 10)보다 적게 발생하는 관찰된 이벤트들에 적용된다.

이렇게 평활화된 확률을 계산한 후, 모델(404)은 모든 문장 쌍을 다시 조사하고, 문장 쌍을 선택하고 대응하는 소스 언어 문장 내의 식별된 구문 각각에 대해 타겟 언어 문장 각각의 후보 구문의 리스트를 생성한다. 이는 블록(511, 512)로 나타내고, 도 8에 대해 응용시 나중에 보다 상세하세 설명될 것이다. 정렬된 문장 쌍 각각에서, 소스 언어 문장의 식별된 구문에 대해, 하나 이상의 후보 구문들이 (빈 구문을 포함할 수 있는) 타겟 언어 문장에서 가정된다라고만 말해두자. 그 후, 모델(404)은 각 후보 구문과 연관된 스코어를 계산하도록 진행한다.

각 문장 쌍 및 그 쌍의 소스 언어 문장 내의 식별된 구문 각각에 대해 모델(404)은 먼저 블록(514)으로 나타낸 것과 같이 후보 타겟 언어 구문을 선택한 다. 모델(404)은 소스 언어 문장 내의 식별된 구문 및 타겟 언어 문장 내의 후보 구문에 기초하여 소스 및 타겟 언어 문장들을 분할한다. 이는 도 6에 보다 잘 설명되어 있다.

예를 들면, 소스 언어 문장(516)은 도시한 바와 같이 단어(S1 - S8)을 가진다고 가정하자. 정렬된 타겟 언어 문장(518)은 도시한 바와 같이 단어(T1 - T7)을 가진다고 가정하자. 도 6은 소스 언어 문장(516)으로부터 번역될 구문이 용어 S3 - S6 주위의 괄호로 식별되고 참조번호 520으로 식별된다는 것을 더 나타낸다. 스코어가 현재 계산되고 있는 후보 구문은 참조번호 522에서 괄호로 식별된다. 따라서, 소스 언어 문장(516) 및 타겟 언어 문장(518) 모두는 구문(520, 522) 내의 일부분들과 구문(520, 522) 외부의 문장의 일부분들로 분할된다.

그 후, 모델(404)은 상술한 평활화된 연관성 확률에 기초하여 내부 스코어를 계산한다. 이는 도 5b의 블록(524)으로 나타낸다. 내부 스코어를 계산할 때, 모델(404)은 먼저 구문(520) 내의 소스 언어 문장(516)의 각 단어에 대해, 후보 구문(522) 내의, 타겟 언어 문장(518)의 어느 단어가 평활화된 연관성 확률에 따라 소스 언어 문장의 단어와 가장 강하게 연관될 가능성이 가장 큰 지를 결정한다. "널" 단어는 후보 구문(522)의 일부분으로 취급되고, 소스 언어 문장의 단어와 가장 강하게 연관될 가능성이 가장 큰 단어일 것이다.

따라서, 모델(404)는 먼저 구문(522) 내의 어느 단어가 구문(520) 내의 단어 S₃와 강하게 연관될 가능성이 있는지를 결정한다. 대응하는, 가장 강하게 연관된 단어가 T₂라는 것을 보여준다. 그 후, 구문(520) 내의 남아있는 단어 각각에 대해 이러한 것이 행해지고, 소스 언어 단어 S₄는, 소스 언어 단어 S₆에서와 같이, 타겟 T₃와 가장 강하게 연관되어 있는 것을 보여준다. 또한, 소스 언어 단어 S₅는 타겟 언어 단어 T₄와 가장 강하게 연관되어 있다.

이러한 동작은, 후보 구문(522) 내의 타겟 언어 단어 각각에 대해, 모델(404)이 소스 언어 구문(520) 내의 어느 단어가 그와 가장 강하게 연관되어 있을 가능성이 있는지를 결정하도록 양방향으로 실행된다. 이를 위해, "널" 단어는 또한 소스 언어 구문의 일부분으로 취급된다. 타겟 언어 단어 T₂가 소스 언어 단어 S₃와 가장 강하게 연관되어 있고, 타겟 언어 단어 T₃가 소스 언어 단어 S₄와 가장 강하게 연관되어 있고, 타겟 언어 단어 T₄가 소스 언어 단어 S₅와 가장 강하게 연관되어 있을 것이라는 것을 보여준다.

소스 언어 구문(520) 및 후보 구문(522) 내부의 최상의 단어 쌍이 식별되면, 이러한 단어 쌍의 확률은 그들의 곱의 로그를 취함으로써 결합된다. 예를 들면, 이는, 식별된 타겟 언어 단어와 가장 강하게 연관되어 있는 소스 언어 단어 각각과 식별된 소스 언어 단어와 가장 강하게 연관된 타겟 언어 단어 각각의 확률이 서로 결합되어 있는 식 1에 의해 표시된다.

이는 도 5b의 블록(524)으로 표시되는 것과 같이 계산된 내부 스코어이다.

다음으로, 모델(404)은 동일한 방식으로 문장(516, 518)에 대해 외부 스코어를 계산한다. 이는 블록(526)으로 나타낸다. 즉, 도 7에 나타낸 바와 같이, 모델(404)은, 구문(520)의 외부의 소스 언어 단어 각각에 대해, 후보 구문(522)의 외부의 어느 타겟 언어 단어가 그와 가장 강하게 연관되어 있는가를 결정한다. 유사하게, 후보 구문(522)의 외부의 타겟 언어 단어 각각에 대해, 식별된 구문(520)의 외부의 어느 소스 언어 단어가 그와 가장 강하게 연관되어 있는가를 결정한다. 이러한 가능성의 예시적인 한가지 결정은 도 7의 화살표로 나타낸다. 그 후, 식 2에 나타낸 바와 같이 확률들이 결합된다.

그 후, 내부 및 외부 스코어는 도 5b의 블록(528)으로 나타내는 바와 같이 함께 가산된다. 이는, 구문(520, 522) 사이의 번역 관계 분석시 모델(404)에 의해 계산된 기본 스코어로 보여질 수 있고 블록(527)으로 나타낸 바와 같이 각 문장 쌍에 대해 반복된다. 스코어를 (구문의 내부 및 외부)의 모든 분할에 대해 할당함으로써, 본 발명은, 종래 기술이 가지는 것보다 소스 언어 문장 내의 식별된 구문의 번역에 올바르게 속한 단어들을 식별하는데 보다 우수한 성능을 가진다.

문장 쌍 각각 및 식별된 소스 언어 구문 각각에 대해, 후보 타겟 언어 번역은 그들의 내부 및 외부 스코어들과 함께 저장되어, 추가 처리 단계에서 재계산될 필요는 없다. 후속 처리량을 최소화하고 필요한 저장을 최소화하기 위해, 문장 쌍 각각 및 식별된 소스 언어 구문 각각에 대해 저장된 후보 구문들의 수는 가장 높게 스코어된 후보 구문의 소정의 수(예시적으로 15)로 선택적으로 간결하게 될 수 있다.

전체 언어자료를 처리한 후 - 필요한 후속 처리량을 더 줄이기 위하여 - 식별된 소스 언어 구문 각각에 대한 후보 타겟 언어 번역의 전체 수는 전체 언어자료에 걸쳐 가장 유사한 후보 번역의 소정의 수(예시적으로, 15)로 선택적으로 더 간결하게 될 수 있다. 전체 언어자료에 걸쳐 식별된 소스 언어 구문 각각에 대한 가장 유사한 후보 번역은, 모델(406)을 참조하여 아래에 설명하는 것과 같이 EM 알고리즘의 E 단계를 사용하여 각 후보에 대한 가중화된 카운트를 획득함으로써 식별될 수 있다. 가중화된 카운트가 높을수록, 후보 번역이 보다 유사하다.

또한, 모델(404)은, 소스 언어 문장으로부터 번역될 구문이 캡토이드이면, 후보 구문의 대문자사용 패턴의 유사도를 반영하는 추가 확률을 적용할 수 있다. 물론, 이는 선택적이고 원하지 않는 경우 제거될 수 있다. 임의의 경우, 서로 다른 다수의 대문자사용 패턴은 예시적으로 모델(404)의 이러한 부분에서 고려된다. 예를 들면, 식별된 구문이 캡토이드이고, 후보 구문이 대문자화된 제1 단어를 가진다면, 이는 예시적으로 제1의 비교적 높은 확률과 연관된다. 후보 구문 내의 어떠 한 단어도 대문자화되지 않는다면, 이는 예시적으로 제2의 낮은 확률과 연관된다. 최종적으로, 후보 구문이 그의 제1 단어를 대문자화하지 않고 후보 구문 내의 다른 단어가 대문자화된다면, 이는 예시적으로 제3의 더욱 낮은 확률과 연관된다. 대문자사용 확률은 초기에, 각 문장 쌍 및 식별된 소스 언어 구문 각각에 대한 가장 높은 번역 확률(가장 높은 내부 스코어 더하기 외부 스코어)을 갖는 후보 구문으로부터 추정된다.

대문자사용 확률의 로그는 예시적으로 구문 번역에 대해 이전에 계산된 내부 스코어에 가산된다. 물론, 이는 식별된 소스 언어 구문에 대해 어느 후보 구문이 가장 높은 번역 확률을 가지는지를 변화시킨다. 따라서, 대문자사용 확률을 적용하고 번역 스코어 및 대문자사용 확률을 재계산하는 것은 가장 높은 번역 스코어를 갖는 후보 구문이 안정화될 때까지 반복적으로 수행된다. 대문자사용 확률의 적용은 도 5b의 블록(530)으로 나타낸다.

모델(406)에 대해 더욱 상세히 논하기 이전에, 본 발명은 도 8을 참조로 하여 진행되며, 도 8은 타겟 언어 문장에서 후보 구문들이 가정되고 생성되는 방법을 설명하는 흐름도이다. 광범위하게 다양한 다른 기술들이 후보 구문을 생성하기 위해 이용될 수 있다. 예를 들어, 각 타겟 언어 문장의 모든 가능한 서브 시퀀스들은 후보 구문으로써 가정될 수 있다. 그러나, 이것은 바람직하지 않은 양의 시간 및 계산 자원들을 소모할 수 있다. 따라서, 본 발명의 예시적인 일 실시예에 따라, 후보 구문들이 학습적으로 가정된다.

본 발명의 일 실시예에 따라, 타겟 언어 문장에서 후보 구문을 생성하기 위 하여, 모델(404)은 소스 언어 문장의 각 단어를 선택한다. 소스 언어 문장의 각 단어에 대해, 모델은 소스 언어 문장의 단어가 전체 타겟 언어 문장과 가장 강하게 연관되어 있는 타겟 언어 문장의 단어를 찾아낸다. 이것은 도 8의 블럭(600)에 도시되어 있다. 그 다음에, 타겟 언어 문장의 각 단어에 대하여, 모델(404)은, 타겟 언어 문장의 단어가 전체 소스 언어 문장에 걸쳐 가장 강하게 연관되어 있는 소스 언어 문장의 단어를 찾아낸다. 이것은 블럭(602)으로 표시되어 있다. 이들 가장 강하게 연관된 단어들을 식별하기 위한 목적으로, "널(null)" 단어들은 고려되지 않는다.

그 다음에 모델(404)은, 소스 언어 문장(520)의 단어(W_s)와 가장 강하게 연관된 각 단어(W_t)가 후보 구문을 시작할 수 있다고 가정한다. 이것은 도 9a에 더욱 잘 도시되어 있으며, 또한 도 8에 블럭(604)으로 도시되어 있다. 도 9a는 타겟 언어 문장의 단어 T₂가 소스 언어 문장의 식별된 소스 언어 구문(520)의 단어 S₃과 가장 강하게 연관되어 있음을 보여준다. 따라서, 모델(404)은 후보 구문이 단어 T₂로 시작한다고 가정한다.

모델(404)은 또한 그것과 가장 강하게 연관되어 있는 식별된 소스 구문(520)으로부터의 단어 W_s를 갖는 각 단어 W_t가 후보 구문을 시작할 수 있다는 가정을 세운다. 이것은 블럭(606)에 도시되며, 도 9b에 더 잘 도시되어 있다. 도 9b는 구문(520) 내에 있는 소스 언어 단어 S₄가 타겟 언어 단어 T₃과 가장 강하게 연관되어 있음을 나타낸다. 따라서, 모델(404)은 단어 T₃으로 시작하는 후보 구문을 가정한다.

모델(404)은 또한 후보 구문들이 마찬가지로 가장 강하게 연관된 단어들로 종료한다는 것을 가정한다. 따라서, 모델(404)은 소스 언어 구문(520)의 단어(W_s)와 가장 강하게 연관되어 있는 각 단어(W_t)가 후보 구문으로 종료할 수 있음을 가정한다. 이것은 블럭(608)으로 표시된다. 유사하게, 모델은, W_t와 가장 강하게 연관되어 있는 식별된 소스 언어 구문(520)으로부터의 단어(W_s)를 갖는 각 단어(W_t)가 후보 구문으로 종료된다는 것을 가정한다. 이것은 블럭(610)에 도시된다.

추가의 선택적인 단계로써, 모델(404)은 후보 구문의 가능한 시작 단어로서 타겟 언어 문장의 모든 대문자 단어들을 식별한다. 이것은 도 8의 블럭(612)으로 표시된다.

마지막으로, 식별된 가능한 시작 단어들 중의 하나로 시작하고, 선택된 시작 단어에 후속하며, 식별된 가능한 종료 단어들 중의 하나로 종료하는 모든 가능한 후보 구문들이 생성된다. 이것은 블럭(613)에 도시된다.

후보 구문들이, 식별된 소스 구문의 단어와 강하게 연관되어 있는 단어들로 시작하거나 종료할 수 있게 함으로써 번역에 있어서 원하지 않는 기능어(function words)들을 포함하는 확률을 감소시킨다는 것을 알아내었다. 기능어들은 문제점을 갖는데, 그 이유는 기능어들이 종종 임의의 것과 강하게 연관되어 있지 않기 때문 에, 그 확률들은 모델들이 포함하지 말아야만 하는 단어를 포함하는 것으로 인해 모델을 탓하지 않을 것이다.

모델(404)은 정렬된 문장들의 구문 분할의 내부 및 외부 모두의 정보를 고려하는 반면에, 식별된 구문들이 언어자료의 다른 문장 쌍들 전체에 대해 어떻게 식별되고 있는지에 대해서는 고려하지 않는다. 따라서, 모델(406)이 이 정보를 고려한다. 모델(406)에서, EM 알고리즘의 E 단계를 언어자료 및 모델(404)에서 계산된 번역 쌍에 대한 스코어에 적용시킨다. 이와 같이 모델(406)은, 각 소스 언어 구문이 타겟 언어 단어들의 선택된 시퀀스로써 번역되고, 모델(404)이 각각의 가능한 번역(위에서 설명한 바와 같이 선택적인 문장 간결화 후에)에 할당하는 정규화된 확률에 의해 가중되고, 모델(404) 스코어를 로그 가능도로써 취급하는 횟수를 카운트한다.

예를 들어, 특정한 문장쌍에서, 우리가 정확히 두개의 타겟 언어 시퀀스들을 특정 소스 언어 문장에 대한 후보 번역으로써 식별한다고 가정한다. 제1 후보의 모델(404) 스코어가 로그 0.0001과 동일하고, 제2 후보의 모델(404) 스코어가 로그 0.0009와 동일하다고 가정한다. EM 알고리즘의 E 단계에 따라, 두 후보의 정규화된 확률로써 각각 0.1 및 0.9를 주며, 결과 합산이 1로 되는 선택된 공통 팩터를 확률들에 곱함으로써 이 확률들을 정규화한다. 그 다음에, 소스 언어 구문의 번역 시에 제1 후보가 발생한 횟수의 가중 카운트(weighted count)에 0.1을 더하고, 소스 언어 구문의 번역 시에 제2 후보가 발생한 횟수의 가중 카운트에 0.9를 더한다. 정렬된 언어자료에 대해 알고리즘의 E 단계를 적용하는 것이 도 10의 블럭(700)에 도시되어 있다.

그 다음에 모델(406)은 가중 카운트로부터 직접적으로 새로운 내부 스코어를 추정한다. 이것은 블럭(702)에 나타나 있다. 예를 들어, 언어 자료의 특정 소스 언어 구문에 10회 발생이 있고, 특정 후보 타겟 언어 구문에 대한 EM 알고리즘의 E 단계에 의해 계산된 가중 카운트가 그의 번역을 7까지 추가하면, 모델(406)은 그 후보 구문의 타겟 언어 단어들의 시퀀스로서 번역되고 있는 소스 언어 구문의 0.7 확률(7/10)을 할당한다. 유사하게 소스 언어 구문의 번역인 후보 구문의 발생 확률을 계산한다. 이와 같이, 후보 구문이 총 20회 발생이 있으면, 모델(406)은 소스 언어 구문의 번역인 후보 구문의 0.35 확률(7/20)을 할당한다. 이 두 확률의 곱의 로그는 새로운 내부 스코어의 베이스를 형성한다. 그러므로, 모델(406)은 소스 언어의 식별된 구문이 전체 언어자료에 대해 번역되고 있는 방법에 관한 정보를 이용한다.

그러나, 이 기술은 스케일링 문제를 야기시킨다. 내부 및 외부 스코어가 결합되어지고 있기 때문에, 새로운 내부 스코어의 오직 두개의 확률에, 외부 스코어를 포함하는 많은 확률을 결합하는 것은 구문의 외부에 놓이는 너무 많은 가중을 야기시키며, 내부 스코어에 충분하지 않은 가중을 야기시킬 것이다. 이것이 발생하는 것을 방지하기 위하여, 새로운 내부 스코어를 스케일링하여 오래된(old) 내부 스코어 만큼 많은 변동을 나타내도록 할 필요가 있다. 오래된 내부 스코어(대문자사용 확률은 포함하지 않음)의 표준 편차 및 언어자료의 식별된 소스 언어 구문의 모든 발생의 가장 가능성있는 번역에 대한 새로운 내부 스코어 베이스의 표준 편차 를 계산함으로써 적절한 스케일 팩터를 계산한다. 이 표준 편차들은 오래된 내부 스코어 및 새로운 내부 스코어 베이스의 변동의 정도를 측정한 것이므로, 새로운 이들 두개의 표준 편차의 비를 포함하는 스케일 팩터를 내부 스코어 베이스에 곱함으로써 새로운 내부 스코어를 스케일링하여, 오래된 내부 스코어와 동일한 표준 편차를 갖는 새롭게 스케일링된 내부 스코어를 발생시킨다. 새로운 내부 스코어 베이스에 이 스케일 팩터를 적용하는 것은 도 10의 블럭(704)에 도시되어 있다.

그 다음에 모델(406) 스코어의 초기 추정은 새롭게 스케일링된 내부 스코어 및 오래된 외부 스코어의 합이다. 이들 스코어들을 합산하는 것은 블럭(707)에 도시되어 있다. 그러나, 대문자사용(capitalization) 확률의 도입과 함께, 이것은 각 문장 쌍의 경쟁하는 번역 후보들의 상대적 확률을 변경시킨다. 따라서, 각 문장 쌍의 각 식별된 소스 언어 구문에 대한 가장 가능성있는 번역이 더이상 변화하지 않을 때까지, 각 문장쌍에 대한 번역 확률, 가중된 카운트, 및 결과 구문 번역 확률을 반복적으로 재추정한다. 이것은 블럭(709)에 도시되어 있다. 따라서, 모델(406)은 전체 언어자료에 걸쳐 번역의 효과를 고려하는 가장 가능성있는 번역의 새로운 세트를 생성한다. 이것은 블럭(711)에 도시되어 있다. 이 가장 가능성있는 번역의 세트가 모델(408)에 제공된다.

도 11은 모델(408)의 동작을 더욱 상세히 설명하는 흐름도이다. 모델(408)은 블럭(749)에 도시되어 있는 바와 같이, 모델(406)로부터 가장 가능성있는 번역을 수신한다. 위에서 논의한 바와 같이, 로그 가능도 비율(log-likelihood-ratio) 스코어는 가정된 번역 관계에 얼마나 많은 신뢰성이 있는지에 대한 매우 좋은 표시자 이다. 따라서, 로그 가능도 비율 스코어로 다시 변환하는 것은 바람직할 수 있다.

각 문장 쌍에 대해 및 각 식별된 구문에 대해, 모델(408)은 모델(406)의 계산으로부터 식별된 구문의 가장 가능성있는 번역을 수신하고, 이 가장 가능성있는 번역에 카운트 1을 부여한다. 이것은 도 11의 블럭(711)에 도시되어 있다. 모델(408)은 그 다음에 언어자료로 돌아가 카운트에 기초한 모든 후보 구문에 대해 로그 가능도 비율을 재계산한다. 이것은 블럭(752)에 도시되어 있다.

각 문장 쌍에 대해 및 각 식별된 구문에 대해, 모델(408)은 지금 막 계산된 로그 가능도 비율 스코어의 조건일 때의 최상의 번역을 찾아내고 카운트한다. 이것은 블럭(754)에 도시되어 있다. 그 다음에 모델(408)은 새로운 카운트에 기초하여 새로운 로그 가능도 비율 스코어를 계산한다. 이것은 블럭(756)에 도시되어 있다. 새로운 로그 가능도 비율 스코어는 다양한 구문 번역들을 식별할 수 있다. 따라서, 모델(408)은 최상의 구문 번역이 동일하게 유지될 때까지 또는 안정될 때까지, 단계들(754 및 756)을 반복한다. 이것은 블럭(758)에 도시되어 있다.

일단 최상의 번역이 안정화되면, 모델(408)은 블럭(760)에 도시된 바와 같이, 랭크 순서화 번역 쌍 및 스코어를 출력한다.

본 발명은 캡토이드(captoid) 및 다른 타입의 구문들에 대한 번역 관계의 편차를 개선시킨다는 것을 알 수 있다.

본 발명에 따르면, 소스 언어에서 식별된 학습되어질 구문을 갖는 병렬 정렬된 언어자료를 수신함으로써 구문 번역 관계를 학습할 수 있다.

비록 본 발명이 특정 실시예를 참조로 하여 설명되었지만, 당업자라면 본 발명의 사상 및 범위를 벗어나지 않는 형태 및 세부사항으로 변경을 행할 수 있음을 인식할 것이다.

Claims

소스 언어의 구문과 타겟 언어의 구문 사이의 번역 관계를 식별하기 위한 방법에 있어서,

하나는 소스 언어의 소스 유닛이며 나머지는 타겟 언어의 타겟 유닛인 멀티플 단어 유닛의 정렬된 쌍(an aligned pair of multiple word units)에 대한 액세스를 수신하는 단계 - 상기 소스 언어 구문은 상기 소스 유닛에서 식별됨 -;

상기 타겟 유닛에서 적어도 하나의 후보 구문을 생성하는 단계 - 상기 후보 구문은 상기 소스 언어 구문의 가정된 번역임 -;

상기 소스 언어 구문과 후보 구문의 내부의 단어들 사이의 연관성에 기초한 내부 컴포넌트, 및 소스 유닛 내에 있지만 상기 소스 언어 구문 외부에 있는 단어들과 타겟 유닛 내에 있지만 후보 구문 외부에 있는 단어들 사이의 연관성에 기초한 외부 컴포넌트를 포함하는 각 후보 구문에 대한 스코어를 계산하는 단계; 및

상기 스코어에 기초하여 상기 소스 언어 구문과 후보 구문 사이의 번역 관계를 식별하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 쌍은 상기 소스 유닛의 단어 및 상기 타겟 유닛의 단어를 포함하며, 상기 소스 및 타겟 유닛의 단어 쌍들 사이의 연관도를 나타내는 개별적인 단어 연관 성 스코어를 갖는 방법.
제2항에 있어서,

상기 스코어를 계산하는 단계는,

상기 소스 언어 구문의 단어와 상기 후보 구문의 단어 사이의 연관도를 나타내는 내부 스코어를 계산하는 단계; 및

상기 소스 언어 구문의 외부의 소스 유닛의 단어와 상기 후보 구문의 외부의 타겟 유닛의 단어 사이의 연관도를 나타내는 외부 스코어를 계산하는 단계

를 포함하는 방법.
제3항에 있어서,

상기 스코어를 계산하는 단계는,

상기 내부 및 외부 스코어를 결합하여 조인트 스코어(joint score)를 획득하는 단계를 포함하는 방법.
제4항에 있어서,

상기 번역 관계를 식별하는 단계는,

상기 조인트 스코어에 기초하여 상기 후보 구문과 상기 소스 언어 구문 사이의 번역 관계를 식별하는 단계를 포함하는 방법.
제2항에 있어서,

상기 적어도 하나의 후보 구문을 생성하는 단계는,

상기 개별적인 단어 연관성 스코어에 기초하여 상기 후보 구문을 생성하는 단계를 포함하는 방법.
제5항에 있어서,

상기 소스 유닛의 각 단어는, 널(null) 단어를 포함하여 자신과 가장 강하게 연관되어 있는 상기 타겟 유닛의 단어를 나타내는 단어 연관성을 가지며, 상기 타겟 유닛의 각 단어는, 널 단어를 포함하여 자신과 가장 강하게 연관되어 있는 상기 소스 유닛의 단어를 나타내는 단어 연관성을 가지며,

상기 액세스를 수신하는 단계는,

가장 강하게 연관된 단어 쌍들의 발생 횟수의 카운트를 생성하는 단계를 포함하는 방법.
제5항에 있어서,

상기 후보 구문의 대문자사용(capitalization) 패턴을 검출하는 단계; 및

상기 대문자사용 패턴에 기초하여 상기 조인트 스코어를 조정하는 단계

를 더 포함하는 방법.
제8항에 있어서,

상기 대문자사용 패턴을 검출하는 단계는,

상기 후보 구문의 제1 단어가 대문자로 시작하는 제1 패턴;

상기 후보 구문의 상기 제1 단어는 대문자로 시작하지 않으나, 상기 후보 구문의 하나 이상의 후속 단어들이 대문자로 시작하는 제2 패턴; 및

상기 후보 구문의 단어들 중 어느 것도 대문자로 시작하지 않는 제3 패턴

중의 적어도 하나를 검출하는 단계를 포함하는 방법.
제9항에 있어서,

상기 대문자사용 패턴에 기초하여 상기 조인트 스코어를 조정하는 단계는,

상기 제1 패턴이 검출되었을 때, 제1 대문자사용 스코어를 적용하는 단계;

상기 제2 패턴이 검출되었을 때, 제2 대문자사용 스코어를 적용하는 단계; 및

상기 제3 패턴이 검출되었을 때, 제3 대문자사용 스코어를 적용하는 단계

를 포함하는 방법.
제3항에 있어서,

내부 스코어를 계산하는 단계는,

상기 소스 언어 구문의 각 단어에 대해서는, 상기 단어 연관성 스코어에 기초하여, 널 단어를 포함하여 그 단어와 가장 밀접하게 연관되어 있는 상기 후보 구문의 단어를 식별하고;

상기 후보 구문의 각 단어에 대해서는, 상기 단어 연관성 스코어에 기초하여, 널 단어를 포함하여 그 단어와 가장 밀접하게 연관되어 있는 상기 소스 언어 구문의 단어를 식별함으로써,

내부 단어 쌍들을 식별하는 단계를 포함하는 방법.
제11항에 있어서,

상기 내부 스코어를 계산하는 단계는,

각 내부 단어 쌍에 대해서는, 상기 내부 단어 쌍의 한 단어의 발생이 상기 내부 단어 쌍의 다른 단어를 가장 강하게 연관된 단어로서 가질 확률을 나타내는 내부 단어 쌍 확률을 생성하는 단계; 및

상기 내부 단어 쌍 확률들을 결합하는 단계

를 더 포함하는 방법.
제12항에 있어서,

상기 외부 스코어를 계산하는 단계는,

상기 소스 언어 구문의 외부의 상기 소스 유닛의 각 단어에 대해서는, 상기 단어 연관성 스코어에 기초하여, 널 단어를 포함하여 그 단어와 가장 밀접하게 연관되어 있는 상기 후보 구문 외부의 상기 타겟 유닛의 단어를 식별하고;

상기 후보 구문의 외부의 상기 타겟 유닛의 각 단어에 대해서는, 상기 단어 연관성 스코어에 기초하여, 널 단어를 포함하여 그 단어와 가장 밀접하게 연관되어 있는 상기 소스 언어 구문의 외부의 상기 소스 유닛의 단어를 식별함으로써,

외부 단어 쌍들을 식별하는 단계를 포함하는 방법.
제13항에 있어서,

상기 외부 스코어를 계산하는 단계는,

각 외부 단어 쌍에 대해, 상기 외부 단어 쌍의 한 단어의 발생이 상기 외부 단어 쌍의 다른 단어를 가장 강하게 연관된 단어로서 가질 확률을 나타내는 외부 단어 쌍 확률을 생성하는 단계; 및

상기 외부 단어 쌍 확률을 결합하는 단계

를 더 포함하는 방법.
제14항에 있어서,

상기 스코어를 계산하는 단계는,

상기 내부 및 외부 스코어를 결합하여 조인트 스코어를 획득하는 단계를 포함하고,

상기 조인트 스코어를 획득하는 단계는,

상기 내부 및 외부 단어 쌍 확률들을 결합하는 단계를 포함하는 방법.
제1항에 있어서,

상기 후보 구문을 생성하는 단계는,

상기 소스 언어 구문의 단어와 가장 강하게 연관되어 있는 상기 타겟 유닛의 타겟 언어 단어를 식별하는 단계; 및

상기 소스 언어 구문의 단어가 가장 강하게 연관되어 있는 상기 타겟 유닛의 타겟 언어 단어를 식별하는 단계

를 포함하는 방법.
제16항에 있어서,

상기 후보 구문을 생성하는 단계는,

식별된 타겟 언어 단어로 시작되고 종료되는 것으로 제한되는, 상기 타겟 유닛의 단어의 시퀀스로서 후보 구문을 생성하는 단계를 더 포함하는 방법.
제17항에 있어서,

상기 후보 구문을 생성하는 단계는,

대문자로 시작하는 타겟 언어 단어로 시작하고 식별된 타겟 언어 단어로 종료하는 후보 구문을 더 생성하는 단계를 더 포함하는 방법.
제5항에 있어서,

상기 구문 번역 관계를 식별하는 단계는,

새로운 조인트 스코어를 획득하기 위하여 상기 후보 구문에 대한 상기 조인트 스코어에 기초하여 상기 소스 언어 구문의 번역으로서 상기 후보 구문이 언어자료(corpus) 전체에 걸쳐 어느 정도(how often) 생성되는지에 기초하여, 각 후보 구문과 연관된 상기 조인트 스코어를 수정하는 단계를 포함하는 방법.
제19항에 있어서,

상기 조인트 스코어를 수정하는 단계는,

상기 언어자료의 각 소스 언어 구문이 상기 조인트 스코어에 기초하여 소정의 후보 구문으로서 번역되는 정도의 카운트를 생성하는 단계를 포함하는 방법.
제20항에 있어서,

상기 조인트 스코어를 수정하는 단계는,

상기 생성된 카운트로부터 각 후보 구문에 대한 새로운 내부 스코어를 추정하는 단계를 더 포함하는 방법.
제21항에 있어서,

상기 조인트 스코어를 수정하는 단계는,

상기 새로운 내부 스코어에 스케일 팩터를 적용하여 스케일링된 내부 스코어를 획득하는 단계를 더 포함하는 방법.
제22항에 있어서,

상기 조인트 스코어를 수정하는 단계는,

상기 스케일링된 내부 스코어에 상기 각 후보 구문에 대한 상기 외부 스코어를 결합하여, 각 후보 구문에 대한 새로운 조인트 스코어를 획득하는 단계를 더 포함하는 방법.
제19항에 있어서,

상기 구문 번역 관계를 식별하는 단계는,

각 쌍의 유닛과 각 소스 언어 구문에 대해, 상기 새로운 조인트 스코어에 기초하여 상기 소스 언어 구문의 가장 가능성있는 번역으로서 후보 구문을 식별하고, 상기 식별된 후보 구문에 카운트를 할당함으로써, 상기 새로운 조인트 스코어를 소망하는 형태로 변환하는 단계를 포함하는 방법.
제24항에 있어서,

상기 변환 단계는,

상기 새로운 조인트 스코어에 기초하여 로그 가능도 비율(log-likelihood-ratio) 스코어를 계산하는 단계를 포함하는 방법.
제25항에 있어서,

상기 변환 단계는,

각 소스 언어 구문과 각 유닛 쌍에 대해, 상기 로그 가능도 비율 스코어에 기초하여 최상의 후보 구문에 카운트를 할당하는 단계를 더 포함하는 방법.
제26항에 있어서,

상기 변환 단계는,

상기 할당된 카운트에 기초하여 새로운 로그 가능도 비율 스코어를 계산하는 단계를 더 포함하는 방법.
제27항에 있어서,

상기 변환 단계는,

상기 최상의 후보 구문이 안정될 때까지, 카운트를 할당하는 단계와 새로운 로그 가능도 비율 스코어를 계산하는 단계를 반복하는 것을 더 포함하는 방법.
삭제
삭제
삭제
삭제
삭제