KR101084786B1

KR101084786B1 - 트리 서열화 컴포넌트를 저장하는 컴퓨터 판독가능 기록매체

Info

Publication number: KR101084786B1
Application number: KR1020040020476A
Authority: KR
Inventors: 에릭 링거; 마이클 가몬; 마틴 스메츠; 시몬 코스톤-올리버; 로버트씨. 무어
Original assignee: 마이크로소프트 코포레이션
Priority date: 2003-03-25
Filing date: 2004-03-25
Publication date: 2011-11-21
Also published as: CN1542649B; KR20040084856A; CA2461777A1; US7346493B2; AU2004201089A1; MXPA04002816A; DE602004003513D1; EP1462948B1; ATE347711T1; EP1462948A1; JP2004295884A; BRPI0400778A; CA2461777C; AU2004201089B2; RU2336552C2; RU2004108775A; DE602004003513T2; CN1542649A; US20040193401A1

Abstract

본 발명은 서열화되지 않은 구문 트리(unordered syntax tree)를 수신하고, 서열화되지 않은 구문 트리로부터 대안적인 서열화된 구문 트리(ordered syntax tree)의 점수화되고 순위가 매겨진 리스트를 생성하는, 문장 실현 시스템(sentence realization system) 내의 트리 서열화 컴포넌트(tree ordering component)에 관한 것이다. 본 발명은 또한 대안적인 서열화된 트리들을 점수화함에 있어서 트리 서열화 컴포넌트가 사용한 구성 요소 구조(constituent structure)의 통계적 모델들(statistical models)을 포함한다.

구문 트리, 서열화, 문장 실현, 단어 서열

Description

트리 서열화 컴포넌트를 저장하는 컴퓨터 판독가능 기록매체{LINGUISTICALLY INFORMED STATISTICAL MODELS OF CONSTITUENT STRUCTURE FOR ORDERING IN SENTENCE REALIZATION FOR A NATURAL LANGUAGE GENERATION SYSTEM}

도 1은 본 발명이 수용되는 예시적인 환경의 블록도.

도 2는 서열화를 위한 박스를 포함하는 문장 실현 시스템의 일 실시예를 나타내며, 데이터 흐름을 나타내는 본 발명을 도시하는 블록도.

도 3은 특별한 서열화되지 않은 구문 트리가 주어질 때 서열화된 구문 트리를 식별하기 위하여, 본 발명에서 사용되는 유형의 서열화 컴포넌트를 나타내는 블록도.

도 4는 본 발명에 입력으로서 사용되는 문장의 예시적인 의미론적 표현을 나타내고, 논리적 형태(logical form)로 구현된 것을 나타내는 도면.

도 5는 도 4의 논리적 형태에 대응하는, 서열화되지 않은 구문 트리의 예로서, 서열화 컴포넌트에 대한 입력의 유형을 예시하는 도면.

도 6은 도 5의 서열화되지 않은 트리 대응하는, 서열화된 구문 트리의 예로서, 서열화 컴포넌트로부터의 출력을 예시하는 도면.

도 7은 구성 요소의 좌-우 신장(left-to-right expansion)을 나타내는 블록 도.

도 8은 구성 요소의 헤드-유도 신장(head-driven expansion)을 나타내는 블록도.

도 9는 2진 조건부 모델(binary-conditional model)을 사용하여 구성 요소의 좌-우 신장을 나타내는 블록도.

도 10은 독어 및 불어 모두에 대한 다양한 서열 모델들을 비교한 결과들의 표.

도 11은 동사 위치 특징들(verb position features)이 있는 경우 및 없는 경우의, 서열 모델들의 서브 세트를 비교한 결과들의 표.

<도면의 주요 부분에 대한 부호의 설명>

200: 문장 실현 컴포넌트

202: 예비 처리 컴포넌트

204: 플래쉬-아웃 컴포넌트

206: 기본 트리 전환 컴포넌트

208: 전체 이동 컴포넌트

210: 서열화 컴포넌트

본 발명은 자연 언어 생성{natural language generation}에 관한 것이다. 더 구체적으로는, 본 발명은 자연 언어 생성 시스템에서의 문장 실현에 관한 것이다.

자연 언어 생성 시스템은 문장(sentence)의 언어적 표현으로부터 텍스트(text)를 생성한다. 이러한 시스템들은 주로 텍스트 플래너(text planner) 또는 콘텐츠 선택 컴포넌트(content selection component), 문장 플래너 컴포넌트(sentence planner component) 및 문장 실현 컴포넌트(sentence realization component)를 포함한다.

텍스트 플래너 또는 콘텐츠 선택 컴포넌트는 입력으로서, 실현된 텍스트의 기초를 형성할 콘텐츠를 얻는다. 문장 플래닝 부분(sentence-planning portion)은 어떻게 콘텐츠를 문장들로 조직할 것인지를 결정하고, 문장 실현 컴포넌트는 어떻게 실제 출력 문장을 형식화(formulating)할 것인지를 결정한다.

예컨대, 텍스트 플래너가 "Little Red Riding Hood", "walking", 및 "grandmother's house" 등의 콘텐츠 단어들을 제공한다고 가정하자. 문장 플래너는 "Little Red Riding Hood"가 동작주(agent)이고, 행위(action)는 "walking"이며, 목적지(destination)는 "grandmother's house"임을 결정한다. 문장 플래너는 입력으로서 이러한 추상적 언어적 표현을 문장 실현 컴포넌트로 제공한다. 문장 실현 컴포넌트는 상기 추상적 언어 표현으로부터 상기 추상적 언어적 표현에 대응하는 단어들 및 구두점의 실제적인 연속으로 맵핑하는 복잡한 작업을 수행한다. 단어들 및 구두점의 실제적인 연속은 상기 시스템에 의해 출력되는 실제의 문장(또는 "표면 스트링(surface string)"으로 칭한다)이다.

종래의 문장 실현 시스템들은 두 개의 다른 카테고리들로 분류되었다. 그 시스템의 제1 유형은 표면 스트링을 간단히 판독할 수 있는 표현들을 생성하기 위하여 상기 언어적 표현을 연속적으로 조작하는 핸드-코딩의, 룰-기반 시스템(hand-coded, rule-based system)이다. 이러한 시스템에서, 컴퓨터 언어학자들(computational linguists)은 텍스트를 플래닝하고 콘텐츠를 단일 문장으로 집합하는 것으로부터, 표현들을 참조하는 적절한 형태들을 선택하고 형태학적 굴절(morphological inflection)을 수행하여 출력을 포매팅(formatting)하는 것까지의 단계들에 대한 전략들(strategies)을 명확하게 코딩한다. 또한, 이러한 핸드-코딩 시스템들은 새로운 영역에 적용하는 데는 큰 어려움이 있고, 다른 언어들에 적용하는 데는 더 큰 어려움이 있다.

종래에 사용된 문장 실현 시스템의 제2 유형은 입력 언어적 표현으로부터 직접 후보 문장들(candidate sentences)을 생성하는 것이다. 예컨대, 이러한 시스템들은 템플리트들(templates)의 수가 유한하고, 콘텐츠 단어들이 템플리트들 내의 여러 슬롯들에 간단히 할당되는 고도의 도메인-특정 애플리케이션들(domain-specific applications)(예컨대, 항공 예약들(flight reservations))에서 사용되었다.

문장 실현 시스템의 또 다른 유형은 문장의 추상 언어적 표현으로부터 생성될 수 있는 모든 가능한 후보 문장들을 열거한다. 이들 경우에서, 단어들의 조합들이 실제의 텍스트에서 관찰된 조합과 가장 근접하게 부합하는 문장들을 선호하는 통계적 기술들(statistical techniques)을 사용하여 후보 문장들이 평가된다. 그 러나, 주어진 언어적 표현에 있어서, 검사될 후보 문장들의 수는 매우 클 수 있다. 이것에 의해 계산 시간이 느려진다. 또한, 후보 문장들을 평가하는 데 사용되는 기술들은 종종 장거리 언어적 현상(long distance linguistic phenomena)에서는 성능이 떨어진다. 따라서, 장거리 현상이 흔한 장르들(genres) 및 언어들(languages)에 있어서는 이러한 시스템들이 부적합하다.

이러한 제3의 카테고리에 있는 시스템의 예는 "Nitrogen" 시스템으로, 1998년, 캐나다, 나이아가라-온-더-레이크(Niagara-on-the-Lake)에서 개최된, 자연 언어 생성에 관한 제9회 국제 워크숍(Proceedings of the 9th International Workshop on Natural Language Generation)에서 "Langkilde, I." 및 "K. Knight"에 의한 "The Practical Value of N-Grams in Generation"의 248쪽 내지 255쪽과, 1998년, 캐나다, 퀘벡(Quebec)에서 개최된, 컴퓨터 언어학 협회의 제36회 연회 및 컴퓨터 언어학에 관한 제17차 국제 회의(Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics(Coling-ACL 1998))에서 "Langkilde, I." 및 "K.Knight"에 의한 "Generation that Exploits Corpus-Based Statistical Knowledge"의 704쪽 내지 710쪽에 개시되어 있다.

3개의 시스템들 중 제1 시스템에서, 대안적인 출력 문장들 중에서 결정하기 위하여 깊은 언어적 지식(deep linguistic knowledge) 대신에 단어 "bi-gram"이 사용되었다. 후보 출력 문장들을 생성하기 위하여, 2 세트의 지식-가공 룰(knowledge-engineered rules)이 입력 명세(input specification)에서 작용한다. 1 세트의 룰은 비특정 의미론(under-specified semantics)으로부터 가능한 구문론적 공식들(syntactic formulations)으로의 1 대 다의 맵핑(mapping)과, 일본-영어 기계 번역 시스템들(Japanese-to-English machine translation systems) 등의 실제적 생성 문맥들에서 누락될 수 있는 한정성(definiteness) 및 수 등의 정보를 플래쉬-아웃(flesh-out)을 수행한다. 타겟 도메인(target domain)에 대한 민감도(sensitivity)를 포함하는 제2 세트의 룰은 제1 모듈에 의해 생성된 표현들을 변형하여, 단어 격자(word lattice)로서 표현되는 더 많은 후보 문장들을 산출한다. 단순한 표 참조(table look-up)에 의해 수행되는 형태학적 굴절(morphological inflection)은 격자를 더 신장시킨다. 단어 "bi-gram"을 사용하여 격자의 최적의 순회(traversal)를 찾아서, 최고 순위의 출력 문장을 산출한다. 이러한 시스템은 점수화되고 순위가 매겨질 엄청난 수의 후보 문장들을 생성한다. 예컨대, "Langkilde, I." 및 "K. Knight"에 의해 주어진 예들 중 하나에서는, 입력 구문론적 형태는 "동작주(AGENT)", "목적지(DESTINATION)", "수동자(PATIENT)"와 같은 관계들에서 5개의 사전적 노드들(lexical nodes)을 포함한다. 이러한 의미론적 입력으로부터의 얻어지는 단어 격자는 1천 1백만 가능 경로들(possible paths)을 포함할 것이며, 최고 순위의 후보는 "Visitors who came in Japan admire Mount Fuji."일 것이다. 다른 예(의미론적 입력 표현이 주어지지 않은 경우)는 155,000 경로 이상의 격자로 변형되는 단지 2개의 콘텐츠 단어들을 포함하는 것으로 나타날 것이며, 이 때 최고 순위의 후보는 "I can not betray their trust."이다

본 시스템에서 사용되는 단어 "bi-gram" 언어 모델은 비접촉 단어들(non-contiguous words) 중의 종속성을 포착할 수 없는 단점이 있다. 언어 모델을 "tri-gram" 또는 더 고차수의 "n-gram"으로 상승시킬지라도, 그 모델들은 여전히 대표적인 장거리 종속성들을 포착할 수 없을 것이다. 또한, 차수가 증가하면, 데이터 희소(data sparseness)가 문제가 될 것이다.

아래에 서열 모델(order model)로서 언급되는 본 명세서의 부분들과 관련되는 다른 종래의 작업들에 대해서도 유의하여야 한다. 하나의 관련된 영역은 "생성적인" 파싱 모델들("generative" parsing models)을 포함한다. 그러한 모델들은 파싱(즉, 구문론적 해석)에서 사용되어, 대안적인 구문 트리들에 확률들을 할당한다. "생성적인"이라는 말은 상기 모델이 랜덤하게 샘플링되어 모델 내에서의 분포들에 따라 문장 구조를 생성할 수 있다는 것을 의미한다. 파싱 처리에 있어서, 생성 처리 중에 관련 특징들이 주어진다면, 그러한 모델은 가능한 구성 요소 구조들에 대해 확률을 할당할 수 있다.

이러한 파싱 모델들의 예는 다음 문헌들에 개시되어 있다. 미국 와싱턴주, 시애틀(Seattle)에서 개최된 "The Proceedings of NAACL-2000"에서, "Eugene Charniak"이 저술한 "A Maximum-Entropy-Inspired Parser"의 132쪽 내지 139쪽 참조. 또한, 프랑스 토울로스(Toulouse)에서 개최된 컴퓨터 언어학 협회의 제39회 연회(Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics(2001))에서, "Eugene Charniak"이 저술한 "Immediate- Head Parsing for Language Models"의 116쪽 내지 123쪽 참조. 이들 문헌들에서 설명된 작업에서, 구성 요소 확률의 평가들은 구성 요소의 헤드 등의 문맥상의 정보에 의해 조절된다. "Charniak"의 모델들 및 종래의 생성적인 모델들과, 여기에 개시된 본 발명에서의 서열 모델들의 차이점 중 하나는, 의미론적 관계와 생성 작업(파싱 중은 아님)에 이용 가능한 다른 특징들을 사용하는 것이다.

또 다른 참조 사항은 "David Magerman"의 파싱 작업으로, 여기에서는 파싱을 위한 관심 대상의 분포들을 평가하기 위하여 결정 트리들을 사용하였다. 1995년, 컴퓨터 언어학 협회에서 "Magerman M."이 저술한 "Statistical Decision-Tree Models for Parsing"의 276쪽 내지 286쪽 참조. 이 문헌과 본 발명의 주된 차이점은 파싱 대 생성(parsing versus generation)의 사용과, 각 모델에 이용 가능한 특징들의 차이에 있다. 또한, "Magerman"의 모델들은 생성적이지 않다.

단어 및 구성 요소 서열은 문장의 유창(fluency) 및 양해도(intelligibility)를 확립하는데 결정적 역할을 한다. 자연 언어 생성의 문장 실현 단계(sentence realization stage)에서의 서열을 확립하는 것은 과거의 수공업적인 생성 문법들(handcrafted generation grammars)에 의해 일반적으로 성취되었다. 예컨대, 2001년 프랑스 토울로스(Toulouse)에서 개최된 자연 언어 생성에 관한 제8회 유럽 워크숍(Proceedings of the 8th European Workshop on Natural Language Generation)에서, "Aikawa T." 등이 저술한 "Multilingual sentence generation"의 57쪽 내지 63쪽과, 2000년 "Cambridge University Press"가 발행하고, "Reiter E." 등이 저술한 "Building natural language generation systems"의 57쪽 내지 63쪽을 참조하기 바람. 최근에 통계적 방식들이 개발되었다. 상술한 "Nitrogen" 시스템과 "Fergus" 시스템(독일 사아부룩켄(Saarbr

cken)에서의 "Proceedings of COLING 2000"에서, "Bangaloer S." 및 "Rambow O." 등이 저술한 "Exploiting a probabilistic hierarchical model for generation"의 42쪽 내지 48쪽 참조)은 단어 연속 후보들(word sequence candidates)의 큰 세트 중에서 선택하기 위하여 단어 "n-gram" 언어 모델들을 사용하였으며, 그 단어 연속 후보들은 구성 요소 서열, 단어 서열, 사전적 선택, 및 형태학적 굴절에서 변화한다. "Nitrogen" 및 "Fergus" 시스템들에서, 구성 요소 서열은 표면 스트링들 상의 단어 "n-gram"을 통해 간접적으로만 모델링된다. 즉, 서열은 적절한 형태학적 변형들(morphological variants)의 선택과 비특정 입력들의 결정(resolution of underspecified inputs)과 별개의 현상으로 고립된 것은 아니다. 또한, 실현(realization) 중에 이용 가능한 중요한 언어학적 특징들에 영향을 주는 것도 아니다.

"Halogen" 시스템(2000년, "Proceedings of NAACL 2000"에서 "Langkilde I."이 저술한 "Forest-Based Statistical Sentence generation"의 170쪽 내지 177쪽과, 2002년, 미국 뉴욕에서 개최된 국제 언어 생성 회의(Proceedings of the International Language Generation Conference 2002)에서, "An Empirical Verification of Coverage and Correctness for a General-Purpose Sentence Generator"의 17쪽 내지 24쪽 참조)은 "Nitrogen" 시스템과 마찬가지로, 단어 n-gram 모델을 사용하지만, 각각의 구성 요소의 범위 내에서 탐색을 먼저 억제함으로 써, (격자보다는) 숲(forest)으로부터 효과적으로 가장 점수가 높은 표면 실현(surface realization)을 추출한다.

"Amalgam" 시스템(2002년, 미국 뉴욕에서 개최된 국제 언어 생성 회의(Proceedings of the International Language Generation Conference 2002)에서, "Corston-Oliver" 등이 저술한 "An overview of Amalgam: a machine-learned generation module"의 33쪽 내지 40쪽 참조)은 단어들을 직접 처리하지 않고, 구성 요소들과 그 도터들의 서열을 결정하는 명백한 서열화 단계를 갖는다. "Amalgam"은 구성 요소 구조와 그 구성 요소들의 특징들에 영향을 미친다. 구성 요소들 내의 서열을 확립함으로써, "Amalgam"은 단어 레벨에서의 가능한 문장 실현을 억제한다. 그러나, 자연 언어 생성에서의 구성 요소 서열을 확립하기 위하여 사용된 구성 요소 구조의 "Amalgam" 모델들에서의 개선에 의해, 개선된 결과를 얻을 수 있으며, 이러한 개선이 본 명세서에서의 초점이 된다.

본 발명은 구문 트리에서의 구성 요소들을 서열화함으로써 문장 실현에서 정확한 단어 서열이 확립되도록 하는 컴포넌트에 관한 것이다. 이러한 제품은 서열화된 구문 트리, 또는 점수화되고 순서가 매겨진 대안적인 서열화된 구문 트리들의 리스트이다. 이러한 시스템의 트리 서열화 컴포넌트(또는 컴포넌트들의 그룹)는 서열화되지 않은 구문 트리를 수신하고, 구성 요소 구조(결정 트리 모델들(decision tree models)을 포함함)의 통계적 모델들에 기초하여, 구문 트리의 대안적인 서열화들의 확률(probability)을 평가한다. 확률 분포(probability distributions)를 평가하기 위하여 결정 트리 모델들을 사용하는 것도 본 발명의 일 특징이다. 이러한 기술에 의해, 자동 특징 선택(automatic feature selection)으로 큰 특징 공간(feature space)이 부여된다.

다른 실시예서는, 구성 요소 구조의 모델(여기서, "서열 모델(order model)"이라고도 한다)의 파라미터들을 평가하기 위하여, 결정 트리 학습 외에, 최대 엔트로피 트레이닝(maximum entropy training) 및 언어 모델링(language modeling) 등의 기술들도 사용될 수 있다.

일부 실시예에서는, 트리 서열화 컴포넌트는 조건부 구성 요소 서열 모델(conditional constituent order model)을 사용하는데, 이 모델은 서열화되지 않은 구문 트리가 주어질 때, 복수의 대안적인 서열화된 구문 트리들 중 어느 것이 최고의 조건부 확률을 가지는지에 대해 식별한다. 더 구체적인 실시예에서는, 조건부 구성 요소 서열 모델은 2진 조건부 구성 요소 서열 모델(binary conditional constituent order model)이다.

서열 모델이 조건부 구성 요소 서열 모델인 일부 실시예에서, 이 모델은 마코프 문법(Markov grammar)이다. 더 구체적인 실시예에서는, 마코프 문법이 좌-우 마코프 문법(left-to-right Markov grammar) 또는 헤드-유도 마코프 문법(head-driven Markov grammar)이다. 이러한 정의는 상기 방위들에 제한되는 것은 아니며, 우-좌(right-to-left) 또는 교호 좌 및 우(alternating left and right) 등의 다른 방위들을 포함할 수 있다.

일부 실시예에서, 트리 서열화 컴포넌트는 주어진 서열화되지 않은 구문 트 리와 함께 복수의 대안적인 서열화된 구문 트리들의 각각에 점수를 할당하는 조인트 구성 요소 서열 모델(joint constituent order model)을 사용한다. 이들의 조인트 모델들은 마코프 문법들이다. 조인트 모델들에 있어서는, 마찬가지로, 좌-우, 헤드-유도 등의 방위를 갖는 더 구체적인 실시예들이 있다.

일부 실시예에서는, 서열 모델이 구성 요소의 도터들(daughters)의 특징들(features)에 대한 조절(conditioning)에 의해 구성 요소의 서열화의 확률을 평가한다. 예컨대, 상기 모델은 헤드 도터와 논의 중인 도터 간의 의미론적 관계(semantic relation)에 대해 조절할 수 있다. 또 다른 실시예에서는, 문맥상의 특징(contextual feature)은 이미 서열화된 구성 요소의 도터들의 수, 또는 서열화될 구성 요소의 도터들의 수이다. 또 다른 실시예에서는, 특징은 특정한 구성 요소 라벨을 갖는 이미 서열화된(또는 서열화될) 구성 요소의 도터들의 수이다.

일부 실시예에서는, 서열 모델은 적어도 하나의 사전적 특징(lexical feature)에 대한 서열화된 문구 트리들의 확률들을 조절한다. 가능한 사전적 특징들은 예컨대, 절의 보어들(clausal complements)과의 타동성(transitivity) 및 양립성(compatibility)을 포함한다.

다른 실시예에서는, 서열 모델이 의미론적 관계 또는 수치화 작용어들(quantificational operators)의 존재 등의 적어도 하나의 의미론적 특징에 대한 서열화된 구문 트리들의 확률들을 조절한다. 다른 실시예에서는 또 다른 특징들이 사용될 수 있다. 본 발명은 전체 문장 실현 시스템의 트리 서열화 컴포넌트와, 그 컴포넌트와 관련된 방법에 관한 것이다.

본 발명은 결정 트리들을 이용하여 구성 요소 구조의 모델들에서의 확률 분포들을 평가함으로써, 자연 언어 생성에서의 구성 요소 서열을 확립한다. 이러한 방식은 수동적인 특징 선택(manual feature selection) 없이 큰 특징 공간(large feature space)을 취급할 수 있다. 이러한 기술은 불어 및 독어에서 광범한 문장 실현에 적용됨으로써, 이들 언어들에서 단어 순서 일반화(word order generalization)를 어떻게 취급하는지에 대해 설명한다. 이러한 기술은 다른 언어에도 적용될 수 있음은 물론이다.

도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합에 관하여 임의의 종속성(dependency) 또는 요구사항(requirement)을 갖는 것으로 해석되어서는 안된다.

본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성들과 함께 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드 헬드(hand-held) 또는 랩탑 장치, 멀티 프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램 가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인 프레임 컴퓨터, 상기의 시스템 또는 장치 중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있 지만, 이에 한정되지 않는다.

본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령과 일반적으로 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산형 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 메모리 저장 장치를 포함하는 국부 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.

도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇 가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 (메자닌(Mezzanine) 버스로도 알려진) 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.

컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨 터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있으며, 휘발성 및 비휘발성 매체, 분리형(removable) 및 비분리형(non-removable) 매체를 둘다 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 둘다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에 컴퓨터(110) 내의 구성 요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.

컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD, 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접 속된다.

앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.

사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드라 불리우는 포인팅 장치(161), 마이크로폰(163), 및 키보드(162)와 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그 외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB)와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또 한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드 헬드 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성 요소 중 다수 또는 모든 구성 요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(181)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.

도 2는 본 발명이 사용되는 문장 실현 컴포넌트(200)의 블록도(데이터 흐름에 대해서도 나타냄)이다. 문장 실현 컴포넌트(200)는 예비 처리 컴포넌트(preprocessing component; 202), 플래쉬-아웃 컴포넌트(flesh-out component; 204), 기본 트리 전환 컴포넌트(206), 전체 이동 컴포넌트(208), 내부-구성 요소 서열화 컴포넌트(210), 표면 세정 컴포넌트(surface cleanup component; 212), 구두점 삽입 컴포넌트(214), 굴절 생성 컴포넌트(inflectional generation component; 216), 및 트리 리더 컴포넌트(218)를 포함한다. 이하에서는, 시스템(200)의 전체 동작에 대하여 설명한다.

시스템(200)은 입력 문장의 추상 언어적 표현(abstract linguistic representation)을 입력으로서 수신한다. 여기서 설명한 실시예에서, 입력은 논리적 형태이다. 그러나, 문장의 실질상 임의의 다른 구문론적 표현(syntactic representation) 또는 의미론적 표현(semantic representation)도 입력으로서 수신될 수 있음을 이해하여야 할 것이다. 논리적 형태 구조는 "Heidorn" 등이 발명한 "METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES"라는 제목의, 1999년 10월 12일에 발행된 미국 특허 제 5,966,686 호에 자세히 개시되어 있다.

예비 처리 컴포넌트(202)는 입력을 디그래핑(degraphing)함으로써 추상 언어적 표현을 처리한다. 예컨대, 입력이 논리적 형태인 경우, 입력은 트리 구조보다는 그래프 구조일 것이다. 따라서, 입력 구조는 디그래핑되고 더 트리 형태의 구 조로 변환된다. 예비 처리 컴포넌트(202)는 또한 예컨대, 사전적 룩업 작용을 통하여 입력 구조에 사전적 정보를 부가한다. 예비 처리 컴포넌트(202)의 출력은 부가적인 정보가 부가된 디그래핑된 구조(220)이다.

플래쉬-아웃 컴포넌트(204)는 데이터 구조(220)를 수신하여 데이터 구조에 구문론적 정보를 부가한다. 플래쉬-아웃 컴포넌트(204)는 또한 한정사들, 보조사들, 구문론적으로 빈 전치사들(semantically empty prepositions), 관계 대명사들 등의 기능 단어들을 삽입한다. 플래쉬-아웃 컴포넌트(204)는 또한 주어 또는 목적어 위치들 내의 명사 구들을 철자하기 위한 확률들 뿐만 아니라 케이스 특징들(case features) 및 동사 위치 특징들을 할당한다. 플래쉬-아웃 컴포넌트(204)는 입력으로서, 구문론적 정보 및 다른 정보가 부가된 디그래핑된 구조인 구조(222)를 제공한다.

기본 트리 전환 컴포넌트(206)는 데이터 구조(222)를 수신하고, 그 데이터 구조를 기본 구문 트리로 전환한다. 기본 트리 전환 컴포넌트(206)는 디그래핑된 데이터로부터 구문론적 트리 구조를 판독하여, 어간들(stems)로부터 분리 가능한 접두사들(prefixes)을 분리한다. 컴포넌트(206)는 또한 코디네이션(coordination)의 구문론적 표현을 삽입하고, 특정한 구문론적 우열 관계들(syntactic dominance relations)을 역전시킬 수 있다.

전체 이동 컴포넌트(208)는 구조(224)를 수신하고, 전체적 이동 또는 전체적 서열(global ordering)을 수행한다. 전체적 이동은 언어적 이론으로 알려진 처리, 의문 단어들(question words; "Wh" 단어들), 및 관계 대명사들의 이동을 포함한다. 컴포넌트(208)는 또한 외치 변형 처리(extraposition processing)를 수행한다. 컴포넌트(208)는 출력으로서, 각 구성 요소가 정확한 부모(parent)를 가지는 구조(226)를 제공하며, 구조(229) 내의 구성 요소들은 서열화되어 있지 않다.

내부-구성 요소 서열화 컴포넌트(210)는 입력으로서 구조(226)를 수신하고, 구문 트리 내의 노드들을 완전히 서열화함으로써, 그 출력에서 완전히 서열화된 구문 트리(228)를 제공한다.

표면 세정 컴포넌트(212)는 구조(228)를 수신하고, 관계 대명사들, 재귀 대명사들, 및 한정사들의 표면 실현 등의 표면 세정 동작들을 수행한다. 컴포넌트(212)는 또한 코디네이션에서의 중복된 성분을 제거한다. 컴포넌트(212)는 출력으로서, 깨끗하고, 완전히 서열화된 구문 트리(230)를 제공한다.

구두점 컴포넌트(214)는 구조(230)를 수신하여, 구문 트리 내로 구두점 마크들을 삽입한다. 컴포넌트(214)는 출력으로서, 도면 번호(232)로 나타낸 바와 같이 구두점이 삽입된, 깨끗하고, 완전히 서열화된 구문 트리를 제공한다.

굴절 생성 컴포넌트(216)는 구조(232)를 수신하고, 최종적인 굴절을 생성하여, 최종적인 굴절 트리(234)를 출력한다. 트리 판독 컴포넌트(218)는 단순히 트리(234)를 판독하고, 최종적인 굴절 트리(234)의 잎들(leaves)에서의 단어들을 방출함으로써 표면 스트링(236)(또는 현실화된 문장(236))을 제공한다. 이것은 도 2에 나타낸 마지막 단계이다.

상술한 시스템을 사용하면, 특별한 언어적 동작들의 애플리케이션에 대한 문맥들을 결정하는 다양한 기계-학습 모듈들(machine-learned modules)을 사용하여, 의미론적 종속 그래프들(semantic dependency graphs)로부터 문장 스트링들이 생성된다. 이러한 동작들은 의미론적 표현을 구문론적 트리 및 플루언트 스트링(fluent string)으로 변환한다.

일단 모든 구문 노드들이 생성되고, 모든 계층적 관계들이 확립되면, 서열화되지 않은 구문 트리의 구성 요소들 사이에서 서열이 결정되어, 서열화된 구문 트리를 생성하게 된다.

이는 주로 도 3에 도시된 바와 같으며, 여기서 주로 서열화되지 않은 구문 트리가 서열화 컴포넌트(210)에 의해 서열화되어, 서열화된 구문 트리(또는 서열화된 트리들의 리스트)를 얻게 된다. 서열화되지 않은 구문 트리는 예컨대, 도 2에서의 "226"으로 나타낸 바와 같이 될 수 있으며, 서열화된 구문 트리는 도 2에서의 "228"에서 나타낸 바와 같다. 예컨대, 도 5에 나타낸 예에 있어서의 서열화되지 않은 구문 트리를 고려해 보자. 이러한 서열화되지 않은 구문 트리는 독어 문장, "In der folgenden Tabelle werden die Optionen sowie deren Funktionen aufgelistet."에 대하여 도 4에 나타낸 의미론적 종속 그래프로부터 유도된다. 이 문장에 해당하는 영어는 "The options and their functions are listed in the following table."이다. 도 5에서, 수식자(modifier)와 헤드(head) 간의 의미론적 관계들은 잎들에서 괄호로 나타내었다. 이러한 서열화되지 않은 구문론적 트리에 대한 서열화된 구문 트리는 도 6에 나타낸 트리일 수 있다.

본 발명은 일 실시예에서, 구성요소 구조의 모델에서의 확률 분포(probability distributions)를 평가하기 위하여 결정 트리들(decision trees) 을 이용함으로써 문장 실현 처리(sentence realization process)를 더 개선하여, 구성 요소 서열을 확립한다. 이러한 접근법은 수동적으로 특징을 선택하는 일이 없이 큰 특징 공간을 취급할 수 있다. 다른 실시예에서는 확률 분포를 평가하기 위하여 다른 기법들(예컨대, 로그-선형 모델들(log-linear modes)의 최대 엔트로피 트레이닝(maximum entropy training) 등)을 사용한다.

문장 실현 중의 구성 요소 서열을 결정하는 문제에 대한 가장 앞선 연구는 상당히 엄격한 단어와 구성 요소 서열을 갖는 언어인 영어에 초점을 두고 있다. 여기에서는, 새로운 도전이라 할 수 있는 불어 및 독어에 초점을 두기로 한다. 본 발명의 목적은 활자적으로 다양한 언어들에 걸쳐서 통일화되고 우아한 방식으로 모든 서열화 현상을 취급하는 모델을 제시하는 것이다. 본 명세서에서, 가능한 모델들의 공간을 설명하고, 이들의 일부에 대해서 자세히 조사하기로 한다. 모델들에 대해 자세히 설명하기 전에, 불어 및 독어에서의 단어와 구성 요소 서열을 결정하는 문제들에 관한 개관을 알아보기로 한다.

단어 및 구성 요소 서열

구성 요소 서열의 임의의 모델에 대해 요구되는 것은, 플루언트 문장들을 생성하기 위하여, 구성 요소 유형과 문맥에 따라서, 바람직한 서열화 제한들(ordering constraints)을 인식하는 것이다.

독어 문장 실현에서 요구되는 것은, 엄격한 동사 위치와, 다른 구성 요소들의 상당히 자유로운 위치의 조합이다. 선언적인 주된 절들(declarative main clauses) 내와, 하위 절들의 적은 서브 세트 내에서, 임의 유형의 구성 요소 후에 정동사가 반드시 제2 위치에 나타나야 한다("동사가 2번째인" 절들("verb-second" clauses)). 대부분의 하위 절들과 모든 하위 절들과 모든 부정 동사들은 절의 마지막에 위치한다(도 6에서와 같이, "동사가 마지막"인 절들("verb-final" clauses)). 동사들의 위치에서의 실수들로 인해, 텍스트들의 양해도(intelligibility)가 낮아지게 된다.

동사와 부가적인 수식자들의 인자들(arguments)은 이러한 엄격한 동사 프레임에 의해 정의되는 템플리트 내의 여러 위치에 배치될 수 있다. 이들 유동성 구성 요소들의 배치를 결정하는 구조적, 실용적 및 의미론적 제한들(structural, pragmatic and semantic constraints)은 완전히 이해되지 않는다.

불어는 표면 구문 및 문법적 관계들 간의 관계가 다소 직접적인 면에서는 영어와 유사하다. 불어는 서열화 작업의 복잡성 면에서는 영어와 독어의 중간쯤이다. 불어는, 영어와 마찬가지로, 구성 요소들의 서열화는 상당히 엄격하지만, 단어 서열은 영어에서 보다는 불어에서 덜 엄격하다. 영어와 마찬가지로, 불어는 "SVO" 언어이지만, 보어들의 서열은 상당히 자유롭다. "PP" 보어들은 종종, 단일 단어보다 큰 목적 보어들보다 선행하며, 문장의 시작 부분에 나타난다. 관계절들에서, 비접어 주어들(non-clitic subjects)이 역전되는 경우가 많다. 형용사 위치는 영어보다는 덜 엄격하다. 많은 형용사들은 그들이 수식하는 명사를 선행하거나 후행하며, 다른 형용사들은 단지 명사를 선행하거나 후행할 뿐이다.

한편, 주어와 동사 간의 구성 요소들의 서열화는 상당히 엄격하다. 접어 대명사들(clitic pronouns)과 접어 부정자(clitic negator)는 모두 독립된 단어들로 서 불어에서 정자법으로(orthographically) 표현되며, 이들은 접어의 합의 특징들(agreement features)과, 접어의 유형(목적어(object), 여격(dative), 또는 위치(location))에 의해 결정되는 엄격한 서열에서의 주어와 동사 간에서 발생한다.

구성 요소 서열의 모델들

중요한 서열 현상을 포착하는 구성 요소 구조의 모델을 설명하기 위하여, 가능한 조인트 모델(joint model)과 조건부 모델(conditional model)의 공간을 고려한다. 모델들 내의 독립성 가정, 모델들에서 사용되는 특징들 세트, 및 자동 특징 선택의 모두가 유용한 모델들을 생성하는데 중요한 역할을 한다. 여러 조합들이 가능하며, 본 발명은 유용하다고 발견한 조합들을 포함한다.

이러한 모델들은 입력 특징들 범위 내에서의 이전의 통계적 접근법들과는 다르다. 지식 가공 접근법들(knowledge-engineered approaches)과 마찬가지로, 여기서 제시된 모델들은 사전적 특징들, 음성의 일부(part-of-speech), 구성 요소 타입(constituent-type), 구성 요소 경계들(constituent boundaries), 장거리 종속부들(long-distance dependencies), 및 헤드들과 그들의 수식자들 간의 의미론적 관계들을 포함한다.

설명한 모델들이 가능한 모델들의 전체 공간을 망라하지 못하지만, 이 공간 내의 중요한 점들을 선택하였다.

조인트 모델들

먼저, 서열화된 구문 트리들 π와 서열화되지 않은 구문 트리들 ρ에 대한 형태 P(π, ρ)의 구성 요소 구조의 조인트 모델들을 고려하기로 한다. 서열화된 트리 π는 비말단 구성 요소들 C을 포함하며, 비말단 구성 요소들 C의 각각은 도터들(D₁, ..., D_n)의 부모이며, 비말단 구성 요소들 C 중 하나는 헤드 구성 요소 H이다. (모든 대문자 라틴 문자들(Latin letters)은 구성 요소들을 나타내고, 대응하는 아래 첨자들은 그들의 라벨들(labels), 즉 구문론적 카테고리들을 나타낸다.) 서열화된 트리 π가 주어지면, 함수 unordered_tree(π)의 값은 π 내의 각각의 C에 대한 구성 요소 B를 포함하는 π에 대응하는 서열화되지 않은 트리 ρ이며, 따라서 B=unordered_set(C)={D₁, ..., D_n}이며, (1..n)에서의 일부 i에 대해 H=D_i이다. ρ의 계층적 구조는 π와 일치한다.

대안적인 서열화된 트리들을 얻기 위한 조인트 모델들을 사용한다. 서열화되지 않은 구문 트리 ρ가 주어지면, 조인트 확률을 최대화하는 서열화된 구문 트리

가 요망된다. 즉, 다음이 구해진다.

(식 1)

식 1이 나타낸 바와 같이, 주어진 트리 ρ의 대안적인 서열화인 트리들 π에 제한해서 탐색할 수 있다.

고려하고 있는 가능한 모델 유형들을 억제하기 위하여, 임의의 구성 요소의 서열화는 도터들을 포함하여 트리의 다른 구성 요소들 내의 서열화와 무관하다고 가정한다. 따라서, 각각의 구성 요소는 독립적으로 서열화될 수 있다. 그 결과 다음이 얻어진다.

(식 2)

구체적으로,

에 대해, 다음이 얻어진다.

(식 3)

결국, 각각의 B∈constits(ρ)이다.

(식 4)

따라서, 서열화되지 않은 트리의 각각의 구성 요소의 최상의 서열화를 찾는 것에만 집중하면 된다.

사실상, C의 헤드는 반드시 B의 헤드에 부합되므로, B의 헤드에 따라 탐색을 더 제한할 수 있다.

(식 5)

유일하게 가능한 서열화되지 않은 트리들은 상기 술어(predicate)를 만족시키는 구성 요소들로 제작된 트리들이다. P(C)를 표준화함으로써 P(π)가 이것을 반영하도록 할 필요가 있다. Z가 표준화 상수라 하자.

(식 6)

그러면, 다음이 얻어진다.

(식 7)

물론, 주어진 B에 대해, Z가 상수이며, 그러므로 "argmax"의 값에 영향이 없으며, 따라서 사실상 그 값을 계산할 필요가 없다.

만약 일부 특징 x=f(ρ)에 대해 조절하고자 한다면, 먼저 그것을 예측하여야 한다.

(식 8)

만약, x가 진실로 ρ의 특징이고, 고려되고 있는 ρ와 일치되는 C에 의존하지 않으면, P(x)는 상수이며, 사실상 그것을 계산할 필요가 없다. 따라서, 조인트 모델 P(C)에 대해서도, 도 9에 나타낸 바와 같이, 주어진 서열화되지 않은 트리에서 고정된 조건 특징들(conditioning features)을 예측함이 없이도 부가할 수 있다.

(식 9)

여기서 설명한 조인트 모델들은 이러한 형태이다.

이러한 이유 때문에, 분포 P(C|x)를 설명하면, 다른 방법으로 명백하게 진술할 수 없다면, 관심 대상인 조인트 모델의 부분을 실질상 설명하는 것이다. 상술한 바와 같이, P(x)를 계산할 필요는 없고, 단순히 P(C|x)의 대안적인 형태를 제시하면 될 것이다.

체인 룰(chain rule)을 사용하여 다수의 다른 방법으로 분포 P(C)(또는 P(C|x))에 인수를 부여할 수 있다. 개시 시점에서 "마코프 문법(Markov grammar)"으로 불리는 모델들의 클래스를 채용한다. 마코프 문법은 트래의 루트에서 개시하고, 전체 제작물이 아니라 한번에 비단말의 1 도터의 신장(expansion)에 대한 확률을 할당하는 구성 요소 구조의 모델이다(1997년 발행된 "AI Magazine(1997)"에서의 "Charniak, E."의 "Statistical Techniques for Natural Language Parsing"과, 2000년 발행된 "Processing of ACL 2000", 132쪽 내지 139쪽에서의 "Charniak, E."의 "A Maximum-Entropy-Inspired Parser"를 참조하라)

좌-우(Left-to-right)

조인트 모델들에 더 초점을 맞추어 보면, 먼저 식 11에서의 분포에 따라서, 도 7에 나타낸 바와 같이, 한번에 하나씩, 좌측으로부터 우측으로 도터들 D₁, ..., D_n을 예측함으로써 C를 신장하는 서열 j의 좌-우 마코프 문법을 고려한다.

(식 11)

헤드 구성 요소 H에 대한 의미론적 관계 ψ_i 등의, 각각의 도터 D_i의 또 다 른 특징을 조절하기 위해서는, 체인 룰에 따라서 그것을 예측하여야 한다. 그 결과는 식 12와 같다.

(식 12)

따라서, 모델은 의미론적 관계 ψ_i를 예측하고, 그 후 그 의미론적 관계의 문맥에서 라벨 d_i를 예측한다.

상기 모델에 대한 확장으로서, 이미 서열화된 C의 도터들의 세트 α_i 에 대한 다음의 기능들에 의해 계산된 특징들을 포함한다.

* 이미 서열화된 도터들의 수(α_i의 크기)

* 가능한 구성 요소 라벨들{NP, AUXP, VP 등}의 각각에 대한 특별한 라벨을 갖는 α_i에서의 도터들의 수(독어에서는 24, 불어에서는 23)

이런 방식으로, 마코프 서열 j의 모델은 잠정적으로 j보다 큰 진정한 서열이다. 이러한 점에서, 마코프 문법이라는 용어는 구에 대한 종래의 해석과는 다르다. 특징들의 세트를 f(α_i)로서 짧게 나타낸다.

(식 13)

헤드-유도(Head driven)

좌-우 신장에 대한 대안으로서, 도 8에 나타낸 바와 같이, 헤드 도터 H로서의 서열화된 트리 π, (H의) 서열화된 전위 수식자들(pre-modifiers; L₁, ..., L_m), 및 서열화된 후위 수식자들(post-modifiers; R₁, ..., R_n)의 각각의 구성 요소 C를 특징화한다. 이것을 "헤드-유도 마코프 문법"이라 한다. 문맥의 조절이 헤드에서 끝나면, 보편성(generality)을 상실함이 없이, 먼저 전위 수식자들로 신장이 개시되고, 그 후 후위 수식자들이 후속한다. 그 분포는 2부분이며, 첫 번째 부분은 전위 수식자들의 신장에 대한 것이고, 두 번째 부분은 후위 수식자들의 신장에 대한 것이다.

(식 14)

좌-우 경우와 마찬가지로, 헤드 구성 요소 H에 대한 도터의 의미론적 관계에 대하여 조절한다. 더 우수한 모델을 위해서는, 이미 서열화된 도터들의 완전한 세트 α_i에 대해 조절한다(따라서, 헤드 전반의 특징들에 대해 조절함).

C의 헤드 H, C에 대응하는 서열화되지 않은 구성 요소 B, 그 부모 P_B, 및 그 조부모 G_B와 같은, 부가적인 특징들을 사용하는 더 복잡한 모델들에 대해 고려한다. 식 13의 경우와 마찬가지로, B, P_B, 및 G_B는 각각 각각의 구성 요소들에 대한 언어적 특징들의 세트를 나타낸다.

(식 15)

그 결과, 좌-우 방위(left-to-right orientation)를 갖는 복잡한 모델은 다음과 같이 구조화된다.

(식 16)

여기서, P(C|h,B,P_B,G_B)의 각 모델은 B의 임의의 특징들을 고려할 수 있다. 또한, 이미 서열화된 C의 도터들의 세트 α_i에 대한 기능들인 특징들을 포함한다.

결국, 조인트 모델들의 영역을 벗어나서, 서열화되어야 할 C의 도터들의 세트 β_i에 대한 기능들인 특징들을 포함함으로써 진실로 조건부적인 모델들(conditional models)을 도입한다. 예를 들면 다음과 같다.

* 서열화되어야 하는 도터들의 수(β_i의 크기)

* 특별한 라벨을 갖는 β_i 내의 도터들의 수

이들 특징 세트들을 f(α_i) 및 f(β_i)로 약칭한다.

(식 17)

단순한 모델들과 마찬가지로, 동일한 형태의 복잡한 헤드-유도 마코프 문법들도 고려하여야 한다.

2진 조건부 모델(Binary conditional model)

2진 조건부 모델이라고 하는 제3 유형의 모델을 도입하기로 한다. {예, 아니오}에서의 값을 가지는 "소트-넥스트(sort-next)"라고 하는 2진 변수 б에 걸친 분포를 평가한다. 이는 아직 서열화되지 않은 β_i의 요소 D(상술한 바와 같이, 부모 C의 아직 서열화되지 않은 도터들의 세트)가 도 9에 나타낸 바와 같이 "소트"되어야 하는 상황을 나타낸다. 조건부 특징들은, D와 ψ(헤드 H를 갖는 D의 의미론적 관계)가 조건부 문맥에서 나타나는 것이 전혀 예측되지 않는다는 점을 제외하고는, 상술한 좌-우 조건부 모델들에서 사용된 것과 동일하다. 단순한 형태에서는, 모델은 다음과 같은 분포를 평가한다.

(식 18)

이후의 탐색에 관한 부분에서 좌-우 "소팅" 탐색("sorting" search)에서 어떻게 이 모델을 직접 적용하는가에 대해 설명하기로 한다.

평가

다수의 기술을 사용하여 모델의 분포들을 평가할 수 있다. 본 명세서에서, 삽입된 언어 모델링 기술들(language modeling techniques; 이하, LM으로 약칭한다)과 확률적 결정 트리(probabilistic decision trees; 이하 DT로 약칭한다)를 사용한다. 본 명세서에서는 자세히 설명되지는 않았지만, 당업자라면 특징 선택(feature selection) 및 분포 평가(distribution estimation)에 대한 다른 방법도 사용할 수 있음을 인식할 수 있을 것이다.

본 실험들에서 사용된 두 유형의 모델들에 대해 설명하기로 한다. 본 명세서에서의 모든 모델들은 상기에서 정의된 부가적인 특징 함수들 f(α_i) 및 f(β_i)를 제외하고는 "마코프 서열 2"이다.

언어 모델링(Language Modeling)

LM 모델들은 스무딩 기술(smoothing technique)로서 삽입된 "Kneser-Ney"를 사용한다. 1995년 음향학, 음성, 및 신호 처리에 대한 IEEE 국제 회의(Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing)에서 발행된 제1권, 181쪽 내지 184쪽에, "Kneser R."과 "Ney H."에 의한 "Improved backing-off for m-gram language modeling"과, 2001년 발행된 마이크로소트프(사)의 기술 보고서(Technical Report) "MSR-TR-2001-72"의 "Goodman J. T."에 의한 "A Bit of Progress in Language Modeling: Extended Version"을 참조하기 바란다. 이러한 방식(여기서 사용하는 도구들)의 이점 중 하 나는 수동적인 특징 선택과 수동적으로 특정화된 백-오프 서열(back-off order)에 대한 필요성이고, 그 실질적인 효과는 상대적으로 적은 수의 특징들만이 효과적으로 사용될 수 있다는 것이다. 본 실험들에서는 이러한 유형의 단일 조인트 헤드-유도 모델(joint head-driven model)을 사용한다.

결정 트리들(Decision Trees)

"WinMine" 툴킷을 사용하여 결정 트리들을 제작한다(2002년 발행된 마이크로소프트(사)의 기술 보고서 "2002-103"에서의, "Chickering D. M."에 의한 "The WinMine Toolkit"을 참조하기 바람). WinMine 학습 결정 트리들(WinMine-learned decision trees)은 단지 분류기들(classifiers)은 아니며, 모든 특징들이 훈련(training)에서 이용 가능할 때, 각각의 잎은 타겟 특징(target feature)의 값들에 대하여 조건부 확률 분포(conditional probability distribution)이며, 따라서, 트리 자체가 그러한 조건부 분포의 평가이다. 결정 트리(DT)들, 특히 확률 DT들을 사용하는 주된 이점은 많은 특징들로부터 특징을 자동으로 선택하는 것이다. 풍부한 특징들 세트를 갖는 이러한 유형의 6개의 모델을 사용한다. 2개의 모델은 조인트이고, 2개의 모델은 이미 서열화된 도터들의 세트(f(α_i)로 표시함)에 대한 특징들과 조인트이며, 2개의 모델은 조건부이다. 각 유형 중 하나는 헤드-유도(head-driven)이며, 각 유형 중 하나는 좌-우(left-to-right)이다. 또한, 하나의 좌-우 2진 조건부 DT 모델을 사용하는데, 표준화(normalization)가 있는 것과 없는 것이 있다.

특징들 및 특징 선택

서로 다른 결정 트리 모델들에 대해 광범위한 언어 특징들이 추출된다. 독어에 대해 선택된 특징들의 수는 조인트 모델에 대해서는 (8 중에서) 6 내지 8이며, f(α_i)와의 조인트 모델들에 대해서는 (33 중에서) 7 내지 16이며, 조건부 모델들에 대해서는 (487 중에서(헤드-유도), 또는 494 중에서(좌-우)) 21 내지 107이며, 2진 조건부 모델에서는 (651 중에서) 280에 이른다. 불어에 있어서, 선택된 특징들의 수는 조인트 모델들에 대해서는 (8 중에서) 6 내지 8이며, f(α_i)와의 조인트 모델들에 대해서는 (32 중에서) 7 내지 11이며, 조건부 모델들에 대해서는 (404 중에서(헤드-유도), 또는 429 중에서(좌-우)) 22 내지 91이며, 2진 조건부 모델에서는 (550 중에서) 218에 이르며, 모두 독어 모델들과 상당히 유사하다. 이용 가능한 특징들의 완전한 스펙트럼으로부터 복합 및 2진 조건부 모델들을 도출해 낼 수 있다.

* 절의 보어들(clausal complements)과의 타동성(transitivity) 및 양립성(compatibility) 등의 사전적 부-분류 특징들(lexical subcategorization features)

* 표제어들(lemmas)(또는 어간들(word-stems))

* 의미론적 관계 및 수치화 작용어들(quantificational operators)의 존재 등의 의미론적 특징들

* 단어들 내의 구성 요소의 길이

* 라벨 및 구문론적 수식자들(syntactic modifiers)의 존재 등의 구문론적 정보

언어적 관점으로부터, 독어 및 불어 문법의 상세에 대한 상세한 언어적 지식을 가지더라도 이러한 특징 선택을 수동으로 수행하는 것은 불가능할 것이라는 것이 특히 흥미롭다. 생명체 명사(animacy), 한정성(definiteness) 등의, 몇몇 현저한 기본적 의미론적 특징들은 서열화와 분명히 관련이 있다. 그러나, 이들 특징들의 상호 작용들은 서열화에서의 그들의 역할의 선언적 명세(declarative specification)를 가능하게 하기 위해서는 현재 잘 이해가 되고 있지 않다.

탐색 - 전역 탐색(Exhaustive search)

서열화되지 않은 트리 ρ와, 구성 요소 구조의 모델 O가 주어질 때, P_O(π|ρ)를 최대화하는 최상의 서열화 트리 π에 대해 탐색하며, 여기서 문맥은 모델의 복잡성에 따라 변화한다. 모델들(2진 조건부 모델은 제외)의 각각은, π의 다른 구성 요소들 내의 서열화와 무관하게, π의 임의의 주어진 구성 요소 C의 서열화의 확률을 평가한다. 완전한 탐색은 다이나믹 프로그래밍 알고리즘(dynamic programming algorithm)이며, 모델에 따라서 헤드-유도 또는 C의 도터들 내의 좌-우이다. 탐색은 하나의 비-통계적 제한(non-statistical constraint)을 유지하며, 조정된 구성 요소들(coordinated constituents)이 "서열화되지 않은" 트리 내에 나타날 때 그들의 서열을 방해하지 않는다.

탐색 - 2진 조건부 모델에 대한 탐욕 탐색(Greedy search for binary conditional model)

2진 조건부 모델은 좌-우 "소팅" 모드에 적용된다. 처리의 개요를 위해서 도 9를 참조하기로 한다. β_i 내에서의 각각의 서열화되지 않은 도터 D_j에 대해서, б_j = 예의 확률에 대해 모델을 참고한다. 최고의 확률을 갖는 β_i 내의 도터가 β_i로부터 제거되고 α_i를 우측으로 확장시킨다. 서열화되지 않은 구성 요소들의 리스트 내의 모든 구성 요소들이 이러한 탐욕 방식으로 서열화될 때까지, 나머지 서열화되지 않은 구성 요소들에 대해 탐색이 진행된다.

전역 DP 탐색에서의 이러한 모델에 적용하기 위해서는, 탐색의 모든 단계에서 모델을 표준화함으로써, 그것을 β_i 내의 나머지 도터들에 대하여 확률 분포 내로 강제한다. 식 18을 단순히 P(б|d,ψ,Г_i)로서 약칭할 수 있으며, 여기서 Г_i는 탐색 단계 i에서 주어진 탐색 가설(search hypothesis)에 대한 문맥상 특징들(contextual features)을 나타낸다. 따라서, 단계 i에 대한 표준화된 분포는 식 19로 주어진다. 자유 변수 j는 β_i 내의 서열화되지 않은 도터들에 대한 지수(index)를 나타내며, k도 그러하다.

(식 19)

실험들 - 트레이닝(Training)

여기서 제시된 다양한 모델들을 비교하고 대조하기 위한 한 세트의 실험들에 대해 설명하기로 한다. 트레이닝을 위하여, 20,000 문장의 트레이닝 세트가 사용되었고, 이는 불어와 독어 모두에 대해서 그렇게 하였다. 데이터는 컴퓨터 분야의 기술적 매뉴얼로부터 가져왔다. 트레이닝 세트 내의 주어진 문장에 대해서, "NLPWin" 시스템("METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES"의 명칭으로 "Heidorn" 등이 발명하여, 1999년 10월 12일 미국 특허 번호 제 5,966,686 호로 발행됨)을 사용하여, 먼저 구문 트리와 구문론적 종속성 그래프로 문장을 분석하였다. 의미론적 종속성 그래프와 구문 트리를 참조함으로써, 생성 런-타임(generation run-time)에서 "Amalgam" 서열화 단계로 나타나는 트리들의 모든 특징들로 트리가 생성되며 한 가지 예외가 있다. 이들 트레이닝 트리들은 적절히 서열화된다. 이 트리는 헤드와 그 수식자들 중의 의미론적 관계들을 포함하여, 관심 대상인 모든 특징들을 포함한다. 사용된 서열 모델들은 이들 트리들의 구성 요소들로부터 트레이닝된다.

실험들 - 평가

모델들을 평가하기 위하여, "Amalgam" 문장 실현 처리의 나머지와 독립적으로, 분리하여 서열화 처리를 평가한다. 1,000 문장들의 테스트 세트들이 사용되고, 또한, 각 언어에 대한 기술적 매뉴얼로부터 가져왔다. 주어진 테스트 문장에 대하여 서열화를 분리하기 위하여, 서열화된 트리 π를 생성하도록 트레이닝에서와 같이 문장을 처리하고, 그것으로부터 서열화되지 않은 트리 ρ를 얻었다. ρ가 얻어지면, 논의 중인 모델을 사용하여 최상으로 서열화된 트리 가설

에 대해 탐 색이 이루어진다. 그 후, π와

의 비교가 행하여진다. 단지 구성 요소 서열화만이 행해지므로, 그들의 대응 구성 요소들의 서열을 비교함으로써 π와

가 비교될 수 있다. 이 경우에서의 두 구성 요소를 비교하는 데 사용된 기준은 이동에 관여하는 총 도터들의 퍼센트로서 측정한 편집 거리(edit distance)이다. 가설 트리

에 대한 총계는 구성 요소 당 편집 거리의 가중치가 부여된 평균이다.

또한, 평균적인 구성 요소 당 편집 거리 크기는 에러 분석 목적으로 그리고 관심이 있는 언어적 문맥들 상의 주어진 모델에의 영향을 확립하기 위해 각각의 비-말단 유형에 대해 계산된다.

각 모델에 대해, 주어진 언어데 대해 설정된 테스트에 대한 평균 점수는 도 10의 표에 기록되어 있다. 독어 및 불어 모두에 있어서, (탐욕 탐색에 적용된) 좌-우 2진 조건부 DT 모델이 다른 모델들보다 우수했다. 2진 조건부 모델을 표준화하고 그것을 전역 탐색에 적용하는 것은 도움이 되지 않았으며, 실제로 라벨 바이어스 문제(label bias problem)로 인해 정확성이 떨어질 것이다. 2001년 "Proc. Of 18th ICML"에서의 "Lafferty" 등에 의한 "Conditional Random Fields: Probabilistic models for segmenting and labeling sequence data"를 참조하라.

삽입된 언어 모델은 불어 및 독어 모두에 대해 두 번째로 적합하게 수행한다. 이 모델은 가장 단순한 구조를 가지지만, 최고로 세련된 스무딩을 사용한다.

좌-우 모델들(f(α_i) 특징들이 없음)이 독어 및 불어 모두에 있어서 헤드-유 도 조인트 모델들보다 우수하다는 것을 인식할 필요가 있다. 좌-우 및 헤드-유도에 대해 f(α_i) 특징들을 포함시키는 것은 불어에 있어서는 상황을 전환시키지만, 독어에 대해서는 그러하지 아니하다.

다시 독어에 대해 살펴보면, 좌-우 조건부 모델들이 헤드-유도 조건부 모델들보다 우수하다. 불어에 있어서는 거의 같다. 조건부 모델과 조인트 모델에 관해서는, (f(α_i) 특징들을 갖는) 단순한 모델들이 일관성 있게 복잡한 모델들보다 우수하다. 이는 아마도 충분한 트레이닝 데이터가 부족한데서 비롯된 것이라 할 수 있다. 이 때, 복잡한 모델들의 트레이닝 시간은 제한 요인(limiting factor)이다.

독어 모델들의 성능과 불어 모델들의 성능 사이에는 분명한 차이가 있다. 최상의 독어 모델은 최상의 불어 모델보다 2배 나쁘다.

개별적인 구문론적 카테고리들에 관해서는, 2진 조건부 모델의 길이가 언어 구성 요소들(verbal constituents) 내의 구성 요소 서열의 정확한 설정에 주로 관여하게 된다. 독어에 있어서, 2진 조건부 모델은 언어 구성 요소들에 대해 9.892%를 기록한다. 다른 모델들이 기록하는 값의 최고는 13.61%(f(α_i)가 있는 좌-우 조인트)이다. 불어에 있어서, 2진 조건부 모델은 언어 구성 요소들에 대해 3.602%를 기록한다. 다른 모델들이 기록하는 값의 최고는 5.891%(LM 헤드-유도 조인트)이다.

독어에서 언어 구성 요소들에서의 서열을 설정하는 데의 특별한 어려움은 언 어 문맥에서의 수식자들의 더욱 완만한 서열과 동사 위치에 관련하여 유발된다. 동사 서열 문제와 관련하여, 실험을 위한 서열화되지 않은 트리 내에 부가적인 특징을 포함시켰다. 동사의 위치는 모든 관련된 구성 요소들에 대해 주석 처리되었다. 조건부 모델들에 대해 이러한 특징을 부가함으로써, 모델 정확도에서의 상당한 도약이 관측되었고, 이는 도 11의 표에 나타낸 바와 같다.

다시 말하면, 최고의 모델은 2진 조건부 모델이다. 이전과 마찬가지로, 표준화는 도움이 되지 못한다. 동사 위치 오류의 이용 가능성으로 인해 개선된 것은 전체 서열화 에러 비율에서 13%의 상대적 감소이다. 언어 구성 요소들에 있어서는, 동사 위치 특징들로 8.468% 개선되었다. 동사 위치에 관하여 2번째로 우수한 것은 좌-우 조건부 모델로, 12.59%였다.

본 발명에 대해 특별한 실시예들과 관련하여 설명하였지만, 당업자라면 본 발명의 정신과 범위를 벗어남이 없이 형태와 세부 사항에 있어서 변형이 이루어질 수 있음을 알 수 있을 것이다.

본 발명에 의하면, 구문 트리에서의 구성 요소들을 서열화함으로써 문장 실현에서 정확한 단어 서열이 확립되도록 하는 컴포넌트를 제공할 수 있다.

Claims

서열화되지 않은 구문 트리(unordered syntax tree)를 수신하여, 상기 서열화되지 않은 구문 트리로부터 대안적인 서열화된 구문 트리(ordered syntax tree)들의 점수화되고 순위가 매겨진 리스트를 생성하도록 구성된 수단을 포함하는, 문장 실현 시스템(sentence realization system)을 위한 트리 서열화 컴포넌트(tree ordering component)를 저장하는 컴퓨터 판독가능 기록매체로서,

상기 트리 서열화 컴포넌트는,

형식적 구조(formal structure)를 갖는, 특징들에 대해 조건부적인 구성 요소 구조의 통계적 모델 - 상기 통계적 모델의 파라미터들은 통계적 평가 기술(statistical estimation technique)을 사용하여 평가됨 - 과,

상기 서열화되지 않은 구문 트리를 수신하고, 가능성이 있는 대안적인 서열화된 구문 트리들의 세트를 고려하고, 상기 구성 요소 구조의 통계적 모델에 따라 상기 대안적인 서열화된 구문 트리들 중 어느 것이 가장 높은 확률을 갖는지를 식별하는 탐색 컴포넌트(search component)를 더 포함하는 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 특징들은 자동적인 특징 선택 기술에 의해 선택된 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 파라미터들은 언어 모델링 기술들(language modeling techniques)에 의해 평가되는 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 파라미터들은 최대 엔트로피 기술들(maximum entropy techniques)에 의해 평가되는 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 파라미터들은 결정 트리 학습 기술들(decision tree learning techniques)에 의해 평가되는 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 형식적 구조는 특정한 방위(orientation)를 갖는 마코프 문법(Markov grammar)인 컴퓨터 판독가능 기록매체.
제6항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 마코프 문법의 구조를 갖는 모델은 구성 요소 구조의 조인트 모델(joint model)인 컴퓨터 판독가능 기록매체.
제6항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 마코프 문법의 구조를 갖는 모델은 구성 요소 구조의 조건부 모델(conditional model)인 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 형식적 구조는 2진 조건부 모델(binary conditional model)인 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 특징 세트는 상기 서열화되지 않은 구문 트리 내에서의 구성 요소들의 1 이상의 사전적 특징들(lexical features)을 포함하는 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 특징 세트는 상기 서열화되지 않은 구문 트리 내의 구성 요소들의 1 이상의 구문론적 특징들(syntactic features)을 포함하는 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 특징 세트는 상기 서열화되지 않은 구문 트리 내의 구성 요소들의 1 이상의 의미론적 특징들(semantic features)을 포함하는 컴퓨터 판독가능 기록매체.
제12항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 특징 세트는 상기 서열화되지 않은 구문 트리 내에 주어진 구성 요소의 헤드(head)와 그 구성 요소의 도터들(daughters) 간의 의미론적 관계를 포함하는 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 특징 세트는 상기 서열화되지 않은 구문 트리의 특정 구성 요소의 단어들의 길이를 포함하는 컴퓨터 판독가능 기록매체.
제1항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 특징 세트는, 상기 서열화되지 않은 구문 트리의 특정 구성 요소에 대하여, 서열화 탐색 중에 하나의 서열화 가설과 관련하여 상기 구성 요소의 도터들이 이미 서열화되도록 정의된 구성 요소 세트의 특징들을 포함하는 컴퓨터 판독가능 기록매체.
제15항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 관심 대상인 상기 구성 요소 세트의 특징들은 그 세트의 크기를 포함하는 컴퓨터 판독가능 기록매체.
제15항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 관심 대상인 상기 구성 요소 세트의 특징들은 그 세트에서의 각각의 의미론적 카테고리의 발생의 총수를 포함하는 컴퓨터 판독가능 기록매체.
제8항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 특징 세트는, 상기 서열화되지 않은 구문 트리의 특정 구성 요소에 대하여, 서열화 탐색 중에 하나의 서열화 가설과 관련하여 상기 구성 요소의 도터들이 서열화되도록 정의된 구성 요소 세트의 특징들을 포함하는 컴퓨터 판독가능 기록매체.
제18항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 관심 대상인 상기 구성 요소 세트의 특징들은 그 세트의 크기를 포함하는 컴퓨터 판독가능 기록매체.
제18항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 관심 대상인 상기 구성 요소 세트의 특징들은 그 세트에서의 각각의 구문론적 카테고리의 발생의 총수를 포함하는 컴퓨터 판독가능 기록매체.
제9항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 상기 모델의 특징 세트는, 상기 서열화되지 않은 구문 트리의 특정 구성 요소에 대하여, 서열화 탐색 중에 하나의 서열화 가설과 관련하여 상기 구성 요소의 도터들이 서열화되도록 정의된 구성 요소 세트의 특징들을 포함하는 컴퓨터 판독가능 기록매체.
제21항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 관심 대상인 상기 구성 요소 세트의 특징들은 그 세트의 크기를 포함하는 컴퓨터 판독가능 기록매체.
제21항에 있어서,

상기 구성 요소 구조의 통계적 모델에서, 관심 대상인 상기 구성 요소 세트의 특징들은 그 세트에서의 각각의 구문론적 카테고리의 발생의 총수를 포함하는 컴퓨터 판독가능 기록매체.