KR20110066467A - 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치 - Google Patents

요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치 Download PDF

Info

Publication number
KR20110066467A
KR20110066467A KR1020090123136A KR20090123136A KR20110066467A KR 20110066467 A KR20110066467 A KR 20110066467A KR 1020090123136 A KR1020090123136 A KR 1020090123136A KR 20090123136 A KR20090123136 A KR 20090123136A KR 20110066467 A KR20110066467 A KR 20110066467A
Authority
KR
South Korea
Prior art keywords
word
error
language model
translation
post
Prior art date
Application number
KR1020090123136A
Other languages
English (en)
Other versions
KR101626386B1 (ko
Inventor
서영애
김창현
양성일
황금하
권오욱
김운
오영순
최승권
이기영
노윤형
박은진
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090123136A priority Critical patent/KR101626386B1/ko
Publication of KR20110066467A publication Critical patent/KR20110066467A/ko
Application granted granted Critical
Publication of KR101626386B1 publication Critical patent/KR101626386B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자동번역 시스템에서 번역한 번역 문장내에 나타나는 번역 오류를 후처리 보정 장치를 이용하여 자동으로 보정하여 번역문장내의 번역 오류를 수정함으로써 번역 품질을 향상시키는 번역 오류 후처리 보정 장치에 관한 것으로서, 특히 목적언어 코퍼스로부터 번역 오류 보정을 위한 요소화 언어 모델을 구축하고, 이에 기반하여 번역 오류를 탐색 및 수정하는 오류 보정 방법에 관한 것이다. 본 발명은 번역 오류에 대해 후처리 보정을 함에 있어서 오류 추정 및 오류 보정을 위한 기본 지식으로 사용되는 요소화 언어 모델을 구축하고 이에 기반하여 단어 신뢰도값을 계산하고, 올바른 오류 보정 성능을 높임으로써, 오류가 있는 자동 번역 시스템의 번역 오류를 수정하여 보다 높은 품질의 번역을 수행할 수 있다.
자동 번역, 번역 오류 후처리 보정, 요소화 언어모델

Description

요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치{METHOD AND APPARATUS FOR AUTOMATIC POST-EDITING BASED ON FACTORED LANGUAGE MODEL}
본 발명은 요소화 언어 모델에 기반하여 자동번역 시스템의 번역 오류를 후처리로 보정하는 장치에 관한 것으로서, 목적언어 코퍼스로부터 형태소 분석 및 구문 분석을 수행한 결과로부터 요소화 언어 모델을 구축하고, 이에 기반하여 번역문장내 단어의 신뢰도값을 계산함으로써 번역 오류를 추정 및 수정함으로써 번역 품질을 향상시키는데 적합한 번역 오류 후처리 보정 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[2009-S-034-01, 한중영 대화체 및 기업문서 자동번역 기술 개발].
일반적인 자동 번역 시스템은 완벽한 번역 환경을 제공하지 못하기 때문에, 번역 오류가 발생될 수 있다.
후처리 보정은 오류가 있는 자동 번역 시스템의 번역 완료된 문장에서 오류를 편집하여 더 좋은 품질의 번역문으로 만드는 과정으로서, 전문번역사 등을 통한 사람에 의해 수동으로 이루어질 수도 있고 후처리 보정용 프로그램에 의해 자동으로 이루어 질 수도 있다. 사람에 의한 보정과 구별하기 위해, 시스템에 의해 자동으로 이루어지는 후처리 보정을 자동 후처리 보정(Automatic Post-Editing, APE)이라고 한다.
번역 오류는 원문 구조가 단순한 경우에도 종종 발생하는데, 이는 대역문(target sentence)으로의 변환 및 생성 과정에서도 오류가 자주 발생하기 때문이다. 특히, 한영 번역시스템처럼 번역 대상이 되는 두 언어간의 언어적 특성이 이질적일수록 변환 및 생성 과정에서 번역 오류가 발생할 가능성이 높아진다.
번역 시스템의 번역 결과를 자동으로 후처리 보정하는 기존 방법들은 크게 3가지 방향으로 나누어 볼 수 있다.
첫 번째 방법은 사람이 오류를 보정한 결과로부터 보정 규칙을 학습하여 오류를 보정하고자 하는 것으로 사람이 오류를 보정한 결과를 모두 구축해야 한다는 단점이 있다.
두 번째 연구 방법으로는 오류 보정을 위한 정보를 대역어 코퍼스에 기반하여 추출하는 방법들이 있다. 이는 언어모델이나 정보 검색 엔진의 검색 결과에서 해당 표현이 얼마나 빈번히 나타났는지에 대한 빈도 정보를 기반으로 오류를 추정 및 보정하는 방법이다.
또 다른 방법은 최근 활발히 연구되고 있는 통계기반 번역시스템을 후처리 보정 엔진으로 사용하는 기법으로, 주로 규칙기반 번역 시스템의 번역 오류를 보정하는 연구가 이루어졌다. 이 방법은 규칙 기반 번역 시스템이 만들어낸, 오류를 포함한 번역문을 통계기반 번역 시스템의 입력으로 하여 오류를 보정한 번역문을 출력으로 내도록 하는 것이다.
일반적으로 전통적인 n-gram 모델에 기반한 처리에서는 n이 커질수록, 커버리지(coverage)는 떨어지더라도, 원거리 의존관계 처리가 가능해지기 때문에 처리 정확률이 높아진다. 그러나, 후처리 오류 보정에서는 전통적인 n-gram 언어모델에 기반하여 단어 wi에 대한 오류를 보정할 때, 고려해야 할 주변 문맥 단어의 수가 많을수록, 즉 n이 클수록, 오류 보정의 정확도도 높아지는 것은 아니다.
첫 번째 이유는 앞에서 언급한 n-gram 언어모델의 특성인 자료부족 현상 때문이며, 두 번째는 주변 문맥 단어가 번역 오류를 내포하고 있을 가능성 때문이다.
본 발명에서는, 규칙기반 한영 자동번역 시스템의 번역 결과에 유창성을 부여하는 데 주안점을 두었다. 따라서, 원문 분석 오류 등으로 인한 번역 오류는 다루지 않으며, 원문 분석은 올바르게 되었음에도 불구하고 생성 오류로 인해 부적절한 번역이 이루어진 경우에 대한 오류 보정을 중점적으로 다루고자 한다. 이는 원문의 분석 오류로부터 번역 오류가 발생한 경우는 일부 단어의 수정이나 어순 변경을 통한 후처리로는 만족할 만한 번역 결과를 얻기가 어렵기 때문이다.
본 발명은 두 번째 방법인 오류 보정을 위한 정보를 대역어 코퍼스에 기반하여 추출하는 방법의 일종으로, 언어 모델을 구축하고 이에 기반하여 오류를 보정하 는 방법에 속한다.
본 발명에서는 요소화 언어모델에 기반한 번역오류 후처리 보정 방법을 제안하여 이러한 문제점을 해결하고자 하였다.
본 발명에서는, 자동번역 시스템이 번역한 최종 번역문의 오류를 자동으로 인식하고 이를 올바른 번역으로 수정해 가는 방법을 제공함으로써, 높은 품질의 번역을 수행할 수 있는 번역 오류 후처리 보정 방법을 제공하고자 한다.
본 발명의 과제를 해결하기 위한 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법에 따르면, 오류 유형별로 단어의 요소값을 별도로 정의하고, 정의된 상기 요소값에 따라 요소화 언어모델을 구축하는 과정과, 구축되는 상기 요소화 언어모델에 기반하여 단어의 신뢰도값을 계산하는 과정과, 계산되는 상기 단어의 신뢰도값이 임계치 이하인 경우 오류로 인식하는 과정과, 인식된 상기 오류에 대해 오류 보정어 후보를 생성하는 과정과, 생성된 상기 오류 보정어 후보에 대해 상기 단어의 신뢰도값을 계산하여 상기 단어의 신뢰도값이 최고인 단어를 보정어로 선택하는 과정을 포함할 수 있다.
여기서, 상기 요소화 언어모델은, 형태소 및 구문 분석이 이루어진 목적어 코퍼스로부터 구축될 수 있다.
또한, 상기 단어의 신뢰도값은, 번역문에 나타난 단어들을 대상으로 보정하고자 하는 오류 유형에 대한 상기 요소화 언어모델에 기반할 수 있다.
본 발명에 의하면, 비문이나 자연스럽지 못한 표현 등과 같은 자동 번역 시스템의 번역 오류를 실시간으로 보정함으로써 자동 번역 시스템의 번역 성능을 향상시킬 수 있다.
한영 자동번역 시스템의 자동 오류 보정에 대해 다음과 같이 예시적으로 설명하기로 한다.
한국어 원문: 이 프로그램은 소음을 줄이는 데 유용하다.
이에 대해 번역시스템이 아래와 같은 번역문을 생성하였다고 가정한다.
영어 번역문 : This program is useful at shrinking the noises .
번역된 영어 문장은 “shrinking"이란 단어에 대한 단어 선택 오류와 "the noises"라는 단어의 단복수 활용오류 어순 오류를 동시에 가지고 있다.
이 경우, 단순 n-gram 언어 모델에 기반하여 오류 보정을 하게 되면, 2개의 오류가 복합적으로 발생한 "shrinking the noises"에 대해 올바른 오류 보정이 어렵다. 그러나, 내용어 대역어 선택 오류 수정을 위한 요소화 언어 모델은 내용어의 원형정보만을 단어의 요소로 정의하므로 이에 기반하여 단어 신뢰도를 계산할 경우, P(shrink | noise) 의 값이 임계치 이하로 떨어져 오류 발생을 인지할 수 있다.
이후 ‘줄이다’의 대역어로 사용된 ‘shrink’ 대신 다른 보정 후보어에 대해 단어 신뢰도를 계산할 경우, P(reduce | noise)의 단어 신뢰도값이 임계치 이상의 최대 신뢰도값을 보여 ‘shrink'의 대역어를 'reduce'로 올바로 수정할 수 있게 된다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
요소화 언어모델에 기반한 후처리 보정은 번역문 내의 단어 w에 대해 오류의 추정 및 보정을 위한 단어 신뢰도를 계산함에 있어서, 단어 신뢰도 계산의 조건 정보로 사용되는 문맥 단어들의 번역에서 일부 요소들이 잘못 번역된 것이 단어 신뢰도 계산에 반영되지 않도록 해줌으로써 단어 신뢰도 계산의 정확도를 높이는 효과가 있어, 이로 인해 번역 후처리 보정 정확률이 높아진다.
또한, 요소화 언어모델의 큰 장점인 백오프 그래프(backoff graph)를 사용한 강건한 확률 추정이 가능해짐으로써 정확률 향상에 기여할 수 있다.
요소화 언어모델(Factored Language Model, FLM)에서는 단어를 하나 이상의 요소들의 모임으로 간주한다. Kirchholff et al. (2003)은 단어 w를 다음 [수학식 1]과 같이 K개의 요소(factor)들의 모임으로 간주할 수 있다.
w ≡ { f1,f2,……fK} = f1 :K
따라서, T개의 단어로 이루어진 문장에 대한 요소화 언어모델은 다음 [수학식 2]와 같이 예시될 수 있다.
P(w1 ,w2 ,……,wT) = P(f1 1 :K,f2 1 :K,……, fT 1 :K ) = P(f1 : T 1 :K )
요소화 언어모델에 기반한 후처리 오류 보정에서는 문제 해결을 위해 얼마나 적절한 요소(factor)들로 단어를 표현하는가와 어떤 백오프 기법을 사용하는가가 성능 향상에 중요한 요인이 된다.
일반적으로 단어의 요소(factor)는 단어의 클래스 정보, 형태소 클래스 정보, 어근 정보, 원형 정보, 기타 언어학적 자질값, 또는 단어의 표층 정보 등 어떤 것이든 가능하다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 구체적으로 설명하기로 한다.
도 1은 본 실시예에 따른 요소화 언어모델을 이용한 번역 오류 후처리 보정 장치에 대한 개략적인 블록 구성도로서, 후처리용 언어모델 구축부(100), 후처리용 언어모델(102), 후처리 보정부(104) 등을 포함할 수 있다.
도 1에 도시한 바와 같이, 후처리용 언어모델 구축부(100)는 오류 유형별로 정의되는 단어의 요소값에 따라 요소화 언어모델을 구축하고, 구축되는 요소화 언어모델을 후처리용 언어 모델(102)에 저장하는 역할을 수행할 수 있다.
이때, 후처리용 언어모델 구축부(100)는, 입력되는 목적어 코퍼스에 대해 형태소 및 구문 분석을 행하는 목적언어 분석부(10)와, 목적언어 분석부(10)에 의해 분석되는 코퍼스 분석 결과를 요소화 언어모델로 구축하는 요소화 언어모델 구축 부(12)로 구체화될 수 있다.
후처리 보정부(104)는 자동번역 결과 문장에 대해 후처리 보정을 행하여 오류 보정 문장을 최종 출력하는 역할을 수행할 수 있다.
구체적으로, 후처리 보정부(104)는, 후처리용 언어 모델(102)에 구축되는 요소화 언어모델, 예컨대 번역문에 나타나는 단어들을 대상으로 보정하고자 하는 오류 유형에 대한 요소화 언어모델에 기반하여 단어의 신뢰도값을 계산하는 것을 특징으로 한다.
또한, 후처리 보정부(104)는, 계산되는 단어의 신뢰도값이 임계치 이하인 경우, 해당 단어를 오류로 인식하고, 인식된 오류에 대해 오류 보정어 후보를 생성하는 것을 특징으로 한다.
또한, 후처리 보정부(104)는, 이렇게 생성된 오류 보정어 후보에 대해 단어의 신뢰도값을 계산하여 단어의 신뢰도값이 최대치인 단어를 보정어로 선택하는 것을 특징으로 한다.
도 2는 본 실시예에 따른 요소화 언어모델을 이용한 번역 오류 후처리 보정 과정을 예시적으로 설명하는 흐름도이다.
도 2에 예시한 바와 같이, 먼저, 오류 유형별로 단어의 요소값을 별도로 정의하고(S200), 정의된 상기 요소값에 따라 요소화 언어모델을 구축할 수 있다(S202). 이때, 요소화 언어모델은, 형태소 및 구문 분석이 이루어진 목적어 코퍼스로부터 구축될 수 있다.
이후, 구축되는 요소화 언어모델에 기반하여 단어의 신뢰도값을 계산할 수 있다(S204). 이러한 신뢰도값은, 번역문에 나타난 단어들을 대상으로 보정하고자 하는 오류 유형에 대한 요소화 언어모델에 기반하는 것을 특징으로 한다.
이후, 상술한 단어의 신뢰도값이 임계치 이하인 경우(S206), 해당 단어를 오류로 인식하고, 인식된 오류에 대해 오류 보정어 후보를 생성할 수 있다(S208).
이렇게 생성된 상기 오류 보정어 후보에 대해 단어의 신뢰도값을 계산하여 단어의 신뢰도값이 최고인 단어를 보정어로 선택할 수 있다(S210).
이하에서는, 상술한 구성과 함께, 본 실시예에서의 번역 오류 후처리 보정 기술이 적용될 수 있는 구체적인 적용 예에 대해 설명하기로 한다.
본 실시예에서는 후처리 오류 보정을 위해서 단어를 다음의 요소들의 집합으로 간주할 수 있다.
w ≡ {단어표제어정보, 단어원형정보, 단어품사정보, 관사정보, 전치사정보, 시제양상정보...}
본 실시예에서는 번역문에서 관사, 전치사, 시제, 양상 정보등과 관련된 조동사 등의 기능어 정보를 내용어의 요소 정보의 하나로 간주하였는데, 이로 인해 번역문이 청킹되는 효과가 발생하여, 언어모델의 커버지리(coverage) 개선과 함께, 원거리 의존관계 상의 단어들간의 오류 보정이 용이해지는 장점이 있다.
본 실시예에서는, 보정하고자 하는 오류 유형에 따라 별도의 요소화 언어모델을 구축하게 된다.
오류 유형 e의 보정을 위해 단어를 K개의 요소로 정의한 경우, 단어w는 다음 [수학식 3]과 같다.
w ≡ {f1,f2,……fK} = f1 :K
구축된 요소화 언어모델에 기반한 단어 w의 신뢰도 계산식은 다음 [수학식 4]와 같다.
Pe(w|w1,……,wL) = Pemax(w|w1,……,wn -1) = Pemax(f1 :K|f1 1 :K,f2 1 :K,……, fn -1 1:K)
입력문을 구성하는 단어에 대해, 계산된 단어 신뢰도값이 임계치 이하의 확률을 보일 경우 오류로 간주하며, 오류 보정 후보어들 중에서 최대 단어 신뢰도값을 가지는 단어가 보정어가 된다.
보정하고자 하는 오류 유형에 따라 별도의 요소화 언어모델을 구축하는 이유는 보정하고자 하는 오류 유형별로 오류 보정과 관련된 단어의 요소들의 값이 다르기 때문이다.
명사 w의 대역어 선택 오류의 추정 및 보정은 w 주변에 위치한 내용어들의 원형 정보만으로 처리 가능하다. 반면에 동사의 성수 일치 활용 오류는 동사의 시제 정보와 주어의 수, 인칭 정보를 필요로 한다.
따라서, 내용어 선택 오류를 추정하고 보정하기 위해서는, 주변 단어들의 단어원형정보만을 고려하면 된다. 따라서, 이 경우 단어 w = {단어표제어정보}로 정 의하고, 내용어 선택 오류를 위해서는 주변 단어들의 원형정보를 기반으로 언어모델을 구축한다. 내용어 선택 오류 보정을 위한 언어모델은 다음 [수학식 5]와 같다.
w ≡ {f1=fr=root of word}
Pcw(w|w1,……,wL) = Pcw(fi r|(f1 r,f2 r,……, fn -1 r))
기능어 선택 오류 중 전치사 선택 오류 보정을 위한 언어모델에서는 주변 문맥 단어들의 원형정보를 조건정보로 하여, 단어의 클래스 정보, 단어 원형 정보, 단어의 전치사 자질값들을 요소들로 취한 아래의 [수학식 6]과 같은 확률값을 추정할 수 있다.
w ≡ {f1= fc =class of word, f2= fr =root of word, f3= fp =preposition of word}
Pp(w|w1,……,wL) = Pp(fi p|(f1 c,f1 r,……,fn -1 c,fn -1 r))
요소화 언어모델에서는 백오프시에 먼저 백오프 되어야 할 요소값들을 지정할 수 있다. 3-gram LM에서는 아래 [수학식 7]과 같은 백오프 체인(backoff chain)을 고려해 볼 수 있다.
Pp(wi|c n -1) = Pp(wi|(c1 ,c2)) = Pp(fi p|(f1 c,f1 r,f2 c,f2 r))
Pp(wi|c n -1) = Pp(wi|(c1 ,c2)) = Pp(fi p|(f1 r,f2 r))
Pp(wi|c n -1) = Pp(wi|(c1 ,c2)) = Pp(fi p|(f1 r,f2 c))
Pp(wi|c n -1) = Pp(wi|(c1 ,c2)) = Pp(fi p|(f1 c,f2 r))
Pp(wi|c n -1) = Pp(wi|(c1 ,c2)) = Pp(fi p|(f1 c,f2 c))
논항 순서 오류 보정에서는 wi의 품사는 용언이고, 의존문맥 단어들의 품사는 체언이므로 위의 확률값은 다음 [수학식 8]과 같다.
Pao(fi c,fi r|(f1 c,f1 r,f1 p,……,fn -1 c,fn -1 r,fn -1 p))= Pao(fi c,fi r|(f1 r,f1 p,……,fn -1 r,fn -1 p))
논항 순서 오류 보정을 위한 언어모델에서는 주변 문맥 단어들의 원형정보와 전치사 정보를 조건정보로 하여, 단어의 클래스 정보, 단어 원형 정보, 단어의 전치사 자질값들을 다음 [수학식 9]와 같은 요소들로 취할 수 있다.
w ≡ {f1= fc =class of word,
f2= fr =root of word,
f3= fp =preposition of word}
Pcw(wi|c n -1) = Pao(wi|(c1 ,c2 ,……cn -1)) = Pao(fi c,fi r|(f1 c,f1 r,f1 p,……,fn -1 c,fn -1 r,fn -1 p))
논항 순서 오류 보정에서는 w의 품사는 용언이고, 의존문맥 단어들의 품사는 체언이므로 위의 확률값은 다음 [수학식 10]과 같다.
Pao(fi c,fi r|(f1 c,f1 r,f1 p,……,fn -1 c,fn -1 r,fn -1 p))= Pao(fi c,fi r|(f1 r,f1 p,……,fn -1 r,fn -1 p))
이와 같이, 오류 유형별로 조건정보로 사용될 유용자질의 종류와 백오프 체인이 달라질 수 있다.
이상 설명한 바와 같이, 본 발명의 실시예에서는 보정하고자 하는 오류 유형별로 별도의 단어에 대한 요소값들을 정의하고, 이에 기반하여 요소화 언어모델을 구축하였으며, 이에 기반한 단어 신뢰값을 계산하여 후처리 오류 보정에 사용한 것을 특징으로 한다.
도 1은 본 발명의 실시예에 따른 요소화 언어모델을 이용한 번역 오류 후처리 보정 장치에 대한 개략적인 구성 블록도,
도 2는 본 발명의 실시예에 따른 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법을 설명하는 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 후처리용 언어모델 구축부
10 : 목적언어 분석부
12 : 요소화 언어모델 구축부
102 : 후처리용 언어 모델
104 : 후처리 보정부

Claims (1)

  1. 오류 유형별로 단어의 요소값을 별도로 정의하고, 정의된 상기 단어의 요소값에 따라 형태소 및 구문 분석이 이루어진 목적어 코퍼스로부터 요소화 언어모델을 구축하는 과정과,
    번역문에 나타난 단어들을 대상으로 보정하고자 하는 오류 유형에 대한 상기 요소화 언어모델에 기반하여 단어의 신뢰도값을 계산하는 과정과,
    계산되는 상기 단어의 신뢰도값이 임계치 이하인 경우 오류로 인식하는 과정과,
    인식된 상기 오류에 대해 오류 보정어 후보를 생성하는 과정과,
    생성된 상기 오류 보정어 후보에 대해 상기 단어의 신뢰도값을 계산하여 상기 단어의 신뢰도값이 최대치인 단어를 보정어로 선택하는 과정
    을 포함하는 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법.
KR1020090123136A 2009-12-11 2009-12-11 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치 KR101626386B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090123136A KR101626386B1 (ko) 2009-12-11 2009-12-11 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090123136A KR101626386B1 (ko) 2009-12-11 2009-12-11 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110066467A true KR20110066467A (ko) 2011-06-17
KR101626386B1 KR101626386B1 (ko) 2016-06-02

Family

ID=44399296

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090123136A KR101626386B1 (ko) 2009-12-11 2009-12-11 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101626386B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220382A (zh) * 2020-01-21 2021-08-06 杭州萤石软件有限公司 一种应用语言包的异常检测方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102458244B1 (ko) 2017-11-23 2022-10-24 삼성전자주식회사 기계 번역 방법 및 장치
KR102569264B1 (ko) * 2023-01-17 2023-08-23 주식회사 코딧 캐시모듈을 이용한 인공지능 기반의 고속 번역방법 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040085A (ja) * 1998-07-22 2000-02-08 Hitachi Ltd 日本語形態素解析処理の後処理方法および装置
JP2001344256A (ja) * 2000-06-01 2001-12-14 Matsushita Electric Ind Co Ltd 単語クラス自動決定装置、用例文検索装置、媒体及び情報集合体
KR20080052318A (ko) * 2006-12-06 2008-06-11 한국전자통신연구원 기계 번역에서의 대역어 선택 방법 및 장치
KR20090061158A (ko) * 2007-12-11 2009-06-16 한국전자통신연구원 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040085A (ja) * 1998-07-22 2000-02-08 Hitachi Ltd 日本語形態素解析処理の後処理方法および装置
JP2001344256A (ja) * 2000-06-01 2001-12-14 Matsushita Electric Ind Co Ltd 単語クラス自動決定装置、用例文検索装置、媒体及び情報集合体
KR20080052318A (ko) * 2006-12-06 2008-06-11 한국전자통신연구원 기계 번역에서의 대역어 선택 방법 및 장치
KR20090061158A (ko) * 2007-12-11 2009-06-16 한국전자통신연구원 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220382A (zh) * 2020-01-21 2021-08-06 杭州萤石软件有限公司 一种应用语言包的异常检测方法及装置
CN113220382B (zh) * 2020-01-21 2023-08-29 杭州萤石软件有限公司 一种应用语言包的异常检测方法及装置

Also Published As

Publication number Publication date
KR101626386B1 (ko) 2016-06-02

Similar Documents

Publication Publication Date Title
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
JP6334354B2 (ja) 機械翻訳装置、方法およびプログラム
KR102516364B1 (ko) 기계 번역 방법 및 장치
US8494835B2 (en) Post-editing apparatus and method for correcting translation errors
US8145473B2 (en) Deep model statistics method for machine translation
US20140350913A1 (en) Translation device and method
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
De Novais et al. Portuguese text generation using factored language models
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
KR20120048140A (ko) 자동 번역 장치 및 그 방법
Espinosa et al. Hypertagging: Supertagging for surface realization with CCG
KR20110066467A (ko) 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치
KR101064950B1 (ko) 번역 오류 후처리 보정 장치 및 방법
KR101735314B1 (ko) 하이브리드 번역 장치 및 그 방법
JP2007323476A (ja) 機械翻訳装置及びコンピュータプログラム
US20230028376A1 (en) Abstract learning method, abstract learning apparatus and program
JP2007133905A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2009146447A (ja) テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2757731B2 (ja) 文書解析装置
JP2008293302A (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2008065469A (ja) 電子機器、その制御方法、および、翻訳文出力用プログラム
JP2007102530A (ja) 特定言語の文法を生成する装置
JP2926745B2 (ja) 機械翻訳装置
JP2004199519A (ja) 機械翻訳方法、機械翻訳装置、および機械翻訳プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee