KR20090041897A - 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 - Google Patents

이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 Download PDF

Info

Publication number
KR20090041897A
KR20090041897A KR1020070107661A KR20070107661A KR20090041897A KR 20090041897 A KR20090041897 A KR 20090041897A KR 1020070107661 A KR1020070107661 A KR 1020070107661A KR 20070107661 A KR20070107661 A KR 20070107661A KR 20090041897 A KR20090041897 A KR 20090041897A
Authority
KR
South Korea
Prior art keywords
tuning fork
document
notation
monolingual
bilingual
Prior art date
Application number
KR1020070107661A
Other languages
English (en)
Other versions
KR100910275B1 (ko
Inventor
방정민
진청궈
남상협
김성일
Original Assignee
방정민
남상협
진청궈
김성일
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 방정민, 남상협, 진청궈, 김성일 filed Critical 방정민
Priority to KR1020070107661A priority Critical patent/KR100910275B1/ko
Publication of KR20090041897A publication Critical patent/KR20090041897A/ko
Application granted granted Critical
Publication of KR100910275B1 publication Critical patent/KR100910275B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치에 관한 것으로, 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하기 위한 이중언어 문서 추출모듈과, 상기 이중언어 문서 추출모듈로부터 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하기 위한 음차표기 후보단어 추출모듈과, 상기 음차표기 후보단어 추출모듈로부터 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 동적 윈도우 기법 또는 토크나이저(Tokenizer) 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하기 위한 음차표기 대역쌍 추출모듈을 포함함으로써, 웹(Web) 상에 있는 대량의 이중언어 문서를 이용하여 음차표기 대역쌍을 자동으로 추출하여 대용량의 미등록어 사전을 구축하고, 이를 교차언어 검색 또는 기계 언어번역 서비스 등에 적용하여 효과적으로 성능향상을 도모할 수 있다.
Figure P1020070107661
음차표기, 통계기반 음차표기 모델, 동적 윈도우 기법, 토크나이저 기법, 이중언어 문서, 음차표기 대역쌍, 영어, 중국어

Description

이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치{METHOD AND APPARATUS FOR AUTOMATIC EXTRACTION OF TRANSLITERATION PAIRS IN DUAL LANGUAGE DOCUMENTS}
본 발명은 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치에 관한 것으로, 보다 상세하게는 웹(Web) 상에 있는 대량의 이중언어 문서를 이용하여 음차표기 대역쌍을 자동으로 추출하여 대용량의 미등록어 사전DB를 구축하고, 이를 교차언어 검색 또는 기계 언어번역 서비스 등에 적용하여 성능 향상을 도모할 수 있는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치에 관한 것이다.
요즘 인터넷이 발달하고 각 나라간의 문화 교류가 많아짐에 따라 많은 외래어가 새로 생성되고 있다. 이런 외래어들은 대부분 음차표기(Transliteration)된 것으로서 언어처리에 있어서 큰 문제를 일으키고 있다. 기존에 이런 음차표기들을 해결하기 위하여 다양한 방법들이 제안되었다. 이러한 방법들은 크게 아래와 같은 두 가지로 나눌 수 있다.
첫 번째는 음차표기를 자동으로 생성하는 방법이다{참고문헌: J.-H. Oh, K.-S. Choi, "An English Korean transliteration model using pronunciation and contextual rules", in: Proceedings of the 19th International Conference on Computational Linguistics(COLING), Taipei, Taiwan, pp. 758-764, (2002)}.
상기 음차표기 자동 생성이란 한 외국어 단어가 주어졌을 때 그에 대응되는 음차표기를 자동으로 생성해주는 것을 말한다. 예를 들면, "Cliton"이란 영어단어가 있을 때 "클린턴"이란 한국어 음차표기를 자동으로 생성해주는 것을 말한다.
한편, 이러한 기존의 방법은 음차표기의 다양성과 사람들의 음차표기를 만드는 여러 가지 습관 때문에 높은 성능을 내지 못하고 있다. 예를 들면, "Scofield"란 영어단어가 있을 때, 원래는 이것을 "스코필드" 혹은 "스커우필드"라고 음차표기 하는 것이 옳을 것이다.
그러나, 사람들은 이렇게 번역하지 않고 "석호필"이라고 번역한다. 이런 경우에 기존의 음차표기 생성 방법으로 "석호필"을 생성해주는 것은 거의 불가능한 일이다. 왜냐하면 지금의 컴퓨터 기술이 아직까지 사람의 습관까지 감지할 수 있는 인공지능을 갖추지 못했기 때문이다.
특히, 중국어와 같은 언어에서는 음차표기를 할 때 뜻만 고려하는 것이 아니라 그 한자의 의미도 고려하기 때문에 이런 문제가 더 심각함에 따라 음차표기 자동 생성은 아주 낮은 성능을 보이고 있다.
두 번째는 음차표기 대역쌍을 이중언어 문서에서 자동으로 추출하는 방법이 다{참고문헌: Richard Sproat, Tao Tao, ChengXiang Zhai, "Named Entity Tranliteration with Comparable Corpora", in: Proceddings of the 21st International Conference on Computational Linguistics.(2006)}.
상기 음차표기 대역쌍 자동추출은 전반적으로 음차표기 자동 생성에 비하여 높은 성능을 보이고 있다. 그러나, 아직까지 우리가 만족할만한 성능은 내지 못하고 있다.
즉, 기존의 음차표기 대역쌍 자동추출 방법은 대부분 두 언어에서 먼저 각각 음차표기 후보를 추출한 후, 그 후보들 사이의 음성적 유사도를 계산하여 음차표기 대역쌍을 추출한다.
한편, 이러한 기존의 방식에서 음차표기 후보는 추출결과에 크게 영향을 받는다. 음차표기 후보 추출이 가장 잘되는 언어는 영어인데 이는 영어에서 고유명사의 첫 자모를 대문자로 표시하고 단어와 단어 사이에 띄어쓰기가 있기 때문이다.
그러나, 중국어와 같은 경우에는 띄어쓰기도 없고, 대문자도 없기 때문에 음차표기 후보 추출은 아직까지 어려운 주제로 남아 있으며 높은 성능을 내지 못하고 있다. 그러므로, 음차표기 후보 추출이 어려운 언어에서 후보를 추출하면 추출된 후보에 많은 오류를 포함하기 때문에 이러한 기존의 방법으로 음차표기 대역쌍 추출의 좋은 성능을 기대할 수 없다.
이러한 문제점을 해결하기 위하여 영어 문서에서만 음차표기 후보를 추출하고, 그 후보를 기준으로 통계기반 음차표기 모델을 사용하여 중국어 문서에서 대응되는 음차표기를 추출하는 방법을 제안하였다{참고문헌: C.-J. Lee, J.S. Chang, J.-S.R. Jang, "Extraction of transliteration pairs from parallel corpora using a statistical transliteration model", in: Information Sciences 176, 67-90 (2006)}.
그러나, 이러한 방법은 전술한 기존의 방법에 비하여 성능을 크게 향상시켰으나, 중국어 문장 길이가 길어질수록 성능이 떨어지고, 또한 규칙에 기반한 후처리 기법은 특정 상황에 대해서만 처리할 수밖에 없는 한계점을 지니고 있다.
본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 웹(Web) 상에 있는 대량의 이중언어 문서를 이용하여 음차표기 대역쌍을 자동으로 추출하여 대용량의 미등록어 사전DB를 구축하고, 이를 교차언어 검색 또는 기계 언어번역 서비스 등에 적용하여 성능 향상을 도모할 수 있도록 한 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치를 제공하는데 있다.
전술한 목적을 달성하기 위하여 본 발명의 제1 측면은, (a) 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하는 단계; (b) 상기 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하는 단계; 및 (c) 상기 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 상기 선택된 음차표기 후보단어를 기준으로 동적 윈도우 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 단계를 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법을 제공하는 것이다.
본 발명의 제2 측면은, (a') 인터넷 상에 존재하는 이중언어로 표현된 이중 언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하는 단계; (b') 상기 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하는 단계; 및 (c') 상기 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 어절 분리를 이용한 토크나이저(Tokenizer) 기법을 적용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 단계를 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법을 제공하는 것이다.
바람직하게, 상기 토크나이저 기법은, 나머지 다른 단일언어 문서내의 각 문장을 음차표기에 사용되지 않는 문자들을 기준으로 여러 부분으로 분할한 후, 각 분할된 부분에 대해 통계기반 음차표기 모델을 사용하여 점수를 계산하고, 최고값을 갖는 문자열을 역추적하여 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출할 수 있다.
본 발명의 제3 측면은, (a") 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하는 단계; (b") 상기 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하는 단계; (c") 상기 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 나머지 다른 단일언어 문서내의 각 문장을 음차표기에 사용되지 않는 문자들을 기준으로 여러 부분으로 분할하는 단계; 및 (d") 각 분할된 부분에 대해 동적 윈도우 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 단계를 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법을 제공하는 것이다.
바람직하게, 상기 동적 윈도우 기법은, 상기 선택된 음차표기 후보단어의 길이에 근거하여 나머지 다른 단일언어의 음차표기 가능한 윈도우 길이범위를 설정하는 단계; 상기 설정된 윈도우 길이범위 내의 각 윈도우를 앞으로 이동하면서 상기 선택된 음차표기 후보단어와 현재 윈도우가 포함된 문자열에 대하여 최대 음성적 유사 확률값들을 구하는 단계; 및 각 윈도우에서의 최대 음성적 유사 확률값들 중에서 가장 큰 값에 대응되는 문자열을 역추적하여 음차표기 대역쌍을 자동으로 추출하는 단계를 포함할 수 있다.
바람직하게, 상기 선택된 음차표기 후보단어가 영어 단어이고, 나머지 다른 단일언어가 중국어이며, 상기 영어 단어의 길이가 L일 경우, 상기 윈도우 길이범위는 L/3부터 L 사이로 설정될 수 있다.
바람직하게, 상기 음차표기에 사용되지 않는 문자들은 문장부호, 숫자, 띄어쓰기 또는 영어 자모 중 적어도 어느 하나로 이루어질 수 있다.
바람직하게, 상기 나머지 다른 단일언어 문서가 중국어일 경우, 상기 음차표기에 사용되지 않는 문자들은 조사들로 이루어질 수 있다.
바람직하게, 상기 음차표기 후보단어들을 추출하는 단일언어 문서는 영어 문서이며, 나머지 다른 단일언어 문서는 중국어 문서이다.
바람직하게, 상기 음차표기 후보단어들은 고유명사이다.
바람직하게, 상기 이중언어 문서는 중국어 및 영어로 이루어진 언어쌍을 비롯한 모든 언어쌍에서의 병렬 말뭉치 또는 비교 가능한 말뭉치를 포함할 수 있다.
바람직하게, 상기 추출된 음차표기 대역쌍은 미리 구축된 미등록어 사전DB에 등록하는 단계를 더 포함할 수 있다.
바람직하게, 상기 미등록어 사전DB에 등록된 음차표기 대역쌍을 이용하여 교차언어 검색 서비스를 수행하는 단계를 더 포함할 수 있다.
바람직하게, 상기 미등록어 사전DB에 등록된 음차표기 대역쌍을 이용하여 기계 언어번역 서비스를 수행하는 단계를 더 포함할 수 있다.
본 발명의 제4 측면은 상술한 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것이다.
본 발명의 제5 측면은, 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하기 위한 이중언어 문서 추출모듈; 상기 이중언어 문서 추출모듈로부터 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하기 위한 음차표기 후보단어 추출모듈; 및 상기 음차표기 후보단어 추출모듈로부터 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 동적 윈도우 기법 또는 토크나이저(Tokenizer) 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차 표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하기 위한 음차표기 대역쌍 추출모듈을 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치를 제공하는 것이다.
본 발명의 제6 측면은, 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하기 위한 이중언어 문서 추출모듈; 상기 이중언어 문서 추출모듈로부터 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하기 위한 음차표기 후보단어 추출모듈; 및 상기 음차표기 후보단어 추출모듈로부터 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 나머지 다른 단일언어 문서내의 각 문장을 음차표기에 사용되지 않는 문자들을 기준으로 여러 부분으로 분할하고, 각 분할된 부분에 대해 동적 윈도우 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하기 위한 음차표기 대역쌍 추출모듈을 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치를 제공하는 것이다.
바람직하게, 상기 음차표기 대역쌍 추출모듈로부터 추출된 음차표기 대역쌍을 저장하기 위한 미등록어 사전DB이 더 포함될 수 있다.
바람직하게, 상기 미등록어 사전DB은 인터넷을 통해 입력된 교차언어에 대한 검색 서비스에 이용될 수 있다.
바람직하게, 상기 미등록어 사전DB은 기계 언어번역 서비스 작업 수행에 이 용될 수 있다.
이상에서 설명한 바와 같은 본 발명의 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치에 따르면, 웹(Web) 상에 있는 대량의 이중언어 문서를 이용하여 음차표기 대역쌍을 자동으로 추출하여 대용량의 미등록어 사전DB를 구축하고, 이를 교차언어 검색 또는 기계 언어번역 서비스 등에 적용하여 성능 향상을 도모할 수 있는 이점이 있다.
이하, 첨부 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되어지는 것이다.
도 1은 본 발명의 일 실시예에 따른 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치를 설명하기 위한 전체적인 블록 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치는, 크게 이중언어 문서 추출모듈(100), 음차표기 후보단어 추출모듈(200), 및 음차표기 대역쌍 추출모듈(300)을 포함하여 이루어진다.
여기서, 이중언어 문서 추출모듈(100)은 인터넷(Internet)을 통해 배포된 다량의 웹(Web) 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들(예컨대, 영어 문서, 중국어 문서 등)로 분리하는 기능을 수행한다.
상기 이중언어 문서는 예컨대, 중국어 및 영어로 이루어진 언어쌍을 비롯한 모든 언어쌍에서의 병렬 말뭉치 또는 비교 가능한 말뭉치 등을 포함할 수 있다.
음차표기 후보단어 추출모듈(200)은 이중언어 문서 추출모듈(100)로부터 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서(예컨대, 영어 문서)에서 음차표기 후보단어들(예컨대, 고유명사)을 추출하는 기능을 수행한다.
음차표기 대역쌍 추출모듈(300)은 음차표기 후보단어 추출모듈(200)로부터 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 후술하는 동적 윈도우 기법 또는 토크나이저(Tokenizer) 기법을 이용하여 나머지 다른 단일언어 문서(예컨대, 중국어 문서)에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 기능을 수행한다.
또한, 음차표기 대역쌍 추출모듈(300)은 음차표기 후보단어 추출모듈(200)로부터 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 나머지 다른 단일언어 문서(예컨대, 중국어 문서)내의 각 문장을 음차표기에 사용되지 않는 문자들(예컨대, 문장부호, 숫자, 띄어쓰기, 영어 자모, 조사 등)을 기준으로 여러 부분으로 분할하고, 각 분할된 부분에 대해 동적 윈도우 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역 쌍을 자동으로 추출할 수도 있다.
추가적으로, 음차표기 대역쌍 추출모듈(300)로부터 추출된 음차표기 대역쌍을 저장하기 위한 대용량의 미등록어 사전DB(400)가 더 구비될 수 있다.
이러한 미등록어 사전DB(400)은 인터넷을 통해 접속된 사용자 단말(PC)로부터 입력된 교차언어에 대한 검색(예컨대, 중국어 질의) 서비스에 이용될 수 있다.
또한, 미등록어 사전DB(400)은 예컨대, 웹(Web) 상에서의 실시간 번역을 위한 기계 언어번역 서비스의 작업 수행에 이용될 수도 있다.
이와 같이 전술한 목적을 달성하기 위하여 약 100%에 가까운 완벽한 음차표기 대역쌍 추출이 필요한데, 본 발명의 음차표기 대역쌍 추출모듈(300)은 음차표기 후보단어 추출이 잘 되는 한 언어(예컨대, 영어 문서)에서만 음차표기 후보단어를 추출하고, 그 음차표기 후보단어를 기준으로 음차표기 후보단어 추출이 잘 않되는 다른 언어 문서(예컨대, 중국어 문서)에서 대응되는 음차표기 대역쌍을 추출하는 기법(예컨대, 동적 윈도우 기법 또는 토크나이저 기법)을 이용하여 기존의 약 90%미만의 성능을 약 99%까지 끌어올림으로써, 기존의 수동적인 미등록어 사전DB 구축 작업을 완전히 자동화시켜 대량의 미등록어 사전DB 구축이 가능해졌고, 이를 이용하여 교차언어 검색 도는 기계 언어번역 서비스 등의 큰 성능향상을 도모할 수 있는 효과가 있다.
이하에는 중국어와 영어를 일 예로 어떻게 이중언어 문서에서 음차표기 대역쌍을 추출하는지에 대하여 상세하게 설명한다.
본 발명의 이중언어(영어-중국어) 문서에서의 음차표기 대역쌍 자동 추출 방법은, 먼저, 영어-중국어 병렬 말뭉치의 영어 문장에 음차표기 후보단어 추출모듈(200)을 적용하여 음차표기 후보단어 즉, 고유명사를 추출한 후, 그 중에서 음차표기될 영어 단어만 선택하여 대응되는 중국어 문장에서 음차표기 대역쌍을 추출한다.
이후에, 중국어 음차표기 대역쌍 추출에서는 일반적으로 중국어 한자의 로마표기법 즉, 병음을 사용하여 영어 단어와 비교한다. 예를 들면, "
Figure 112007076424868-PAT00001
"(클린턴)이란 중국어 단어는 먼저 "KeLinDun"이란 병음으로 변환한 후, 영어 단어인 "Clinton"과 중국어 병음인 "KeLinDun"의 음성적 유사도를 계산하여 비교한다.
본 발명에서 E는 영어, C는 중국어, TU(Transliteration Unit)는 음차표기 단위로 가정한다. 그러면, 조건확률 P(C|E)는 P(
Figure 112007076424868-PAT00002
|Clinton)로 치환되어 P(KeLinDun|Clinton)확률을 구하는 문제로 전환할 수 있다.
또한, 본 발명에서 영어는 유니그램(Unigram), 바이그램(Bigram), 트라이그램(Trigram)을 사용하며, 중국어는 병음의 첫 음절, 마지막 음절 혹은 병음 전체를 TU로 사용할 수 있다. 그러면, TU의 정의에 근거하여 P(
Figure 112007076424868-PAT00003
|Clinton)는 하기의 수학식 1과 같이 여러 개의 TU로 분할하여 그 근사치를 구할 수 있다.
Figure 112007076424868-PAT00004
도 2는 본 발명의 일 실시예에 적용된 음차표기 정렬 모델을 설명하기 위한 도면으로서, 영어 단어와 중국어 병음이 어떻게 정렬되는가를 보여주고 있다.
도 2를 참조하면, 본 발명에서는 상기의 수학식 1에 매치타입(M)이라는 정보를 더 추가한다. 상기 매치타입(M)은 영어 TU의 크기와 중국어 TU의 크기에 의하여 정의될 수 있다.
예를 들면, 상기의 수학식 1에서 P(ke|C)의 매치타입은 영어 TU "C"의 크기가 1, 중국어 TU "ke"의 크기가 2이므로 "2-1"이다. 이러한 매치타입(M)은 파라미터의 추정과정에서 학습이 안된 새로운 파라미터에 대하여 보완 작용을 하므로, 전술한 종래의 기술에서와 같이 발음사전 없이 "통계기반 음차표기 모델"을 적용할 때 더 좋은 성능을 기대할 수 있다.
본 발명의 일 실시예에서는 발음사전 없이 통상의 통계기반 음차표기 모델을 적용하여 파라미터를 자동으로 추정하는 방법을 사용하며, 상기 통계기반 음차표기 모델에 매치타입(M) 정보를 추가한다.
즉, 상기의 수학식 1에 매치타입(M) 정보를 추가하면, 하기의 수학식 2 및 수학식 3과 같이 표현될 수 있다.
Figure 112007076424868-PAT00005
Figure 112007076424868-PAT00006
여기서, u, v는 각각 영어 TU와 중국어 TU를 의미하며, m은 u와 v의 매치타입을 의미한다.
도 3은 본 발명의 일 실시예에 적용된 통계기반 음차표기 모델을 이용하여 문장에서 음차표기 대역쌍을 추출하는 과정을 설명하기 위한 도면으로서, 영어 단어 "Clinton"에 대하여 대응되는 중국어 문장에서 정확한 음차표기인 "
Figure 112007076424868-PAT00007
"(KeLinDun)을 찾아주는 일 예이다.
도 3을 참조하면, 통상의 통계기반 음차표기 모델을 적용하여 음차표기 대역쌍을 추출할 때, 만약 한 문장에 주어진 영어 단어와 발음상 비슷한 중국어 문자열이 여러 개 존재할 경우 오류가 자주 발생한다. 본 발명의 일 실시예에서는 이러한 오류를 해결하고자 동적 윈도우 기법과 토크나이저(Tokenizer) 기법을 이용한다.
도 4는 본 발명의 일 실시예에 적용된 동적 윈도우 기법의 이론적 근거를 설명하기 위한 도면이고, 도 5는 본 발명의 일 실시예에 적용된 동적 윈도우 기법을 이용하여 정확한 음차표기를 추출하는 과정을 설명하기 위한 도면이다.
도 4 및 도 5를 참조하면, 본 발명의 일 실시예에 적용된 동적 윈도우 기법은 중국어 문장에 대하여 한번에 최적화된 경로를 찾는 것이 아니라, 주어진 영어 단어에 근거하여 가능한 중국어 음차표기 단어크기의 윈도우 길이범위를 설정하고, 그 윈도우 길이범위 내의 윈도우를 각각 앞으로 이동하면서 음차표기 대역쌍을 찾는 기법이다.
만약, 중국어 음차표기 단어의 실제 길이를 알 수 있고 그것을 윈도우 크기로 설정하여 음차표기를 찾으면 아주 높은 성능을 낼 수 있다. 예를 들면, 도 4에 도시된 바와 같이 영어 단어 "Clinton"과 정확한 음차표기인 "
Figure 112007076424868-PAT00008
"(KeLinDun), 정확한 음차표기에 한 글자가 더 들어간 "
Figure 112007076424868-PAT00009
"(KeLinYiDun), 정확한 음차표기에 한 글자가 빠진 "
Figure 112007076424868-PAT00010
"(LinDun)과 각각 정렬해 본 결과 정확한 음차표기와 정렬했을 때 점수가 가장 높았다.
이는 정확한 음차표기일수록 영어 TU와 중국어 TU사이의 정렬이 더 잘 되기 때문이다. 이러한 특성은 중국어뿐만 아니라 다른 언어에도 공통적으로 나타나는 특성이다.
그러나, 정확한 중국어 음차표기의 크기를 예측하기 어려우므로 본 발명의 일 실시예에서는 학습데이터에서 영어 단어 길이와 중국어 단어 길이 사이의 분포에 대한 분석을 통하여 음차표기 단어 크기의 가능한 범위를 예측한다.
즉, 동적 윈도우를 적용하는 과정은 다음과 같다. 먼저, 주어진 영어 단어에 근거하여 윈도우 길이범위를 예측한 후, 상기 예측한 윈도우 길이범위 내의 윈도우를 각각 앞으로 이동하면서 주어진 영어 단어와 현재 윈도우가 포함하는 중국어 문자열에 대하여 상기의 수학식 3을 이용하여 음성적 유사 확률값을 구한다.
이때, 상기 영어 단어 길이가 L일 경우, 상기 윈도우 길이범위는 L/3부터 L 사이로 설정됨이 바람직하다.
이러한 방식으로 윈도우 크기를 점차적으로 증가시키면서 가장 높은 확률값을 갖는 중국어 문자열을 찾고, 그 문자열을 역추적하여 음차표기 대역쌍을 추출한다. 그리고, 도 5에 도시된 바와 같이, 각 윈도우 사이의 점수를 비교할 때에는 윈도우 크기가 커짐에 따라 전반적으로 점수가 낮아지므로 윈도우 크기로 정규화하여 비교한다. 이와 같이 동적 윈도우 기법을 적용하면, 통계기반 음차표기 모델을 적용했을 때 생기는 대부분 오류들을 효과적으로 해결할 수 있다.
도 6은 본 발명의 일 실시예에 적용된 토크나이저(Tokenizer) 기법을 이용하여 정확한 음차표기를 추출하는 과정을 설명하기 위한 도면이다.
도 6을 참조하면, 본 발명의 일 실시예에 적용된 어절 분리를 이용한 토크나이저 기법은 중국어 음차표기에 전혀 사용되지 않는 문자를 기준으로 중국어 문장을 먼저 여러 부분으로 나누고, 각 부분에 대하여 통계기반 음차표기 모델을 적용하여 음차표기 대역쌍을 추출하는 기법이다.
이를 구체적으로 설명하면, 중국어에는 예컨대, "施(shi),德(de),勒(le),赫(he),…"와 같은 음차표기에 자주 사용하는 문자 집합이 있는 반면에 발음은 비슷하나, 예컨대, "是(shi), 的(de),了(le),和(he),…" 등 음차표기에는 전혀 사용하지 않는 문자 집합이 있다.
이러한 문자들은 보통 조사로서 고유명사 주위에 자주 나타나므로 이러한 조사와 같은 문자들과 정확한 음차표기가 결합하여 오류를 낼 때가 많다. 예를 들면, "David"의 음차표기는 마지막 "d"발음을 생략하여 "
Figure 112007076424868-PAT00011
"(DaWei)로 음차표기한다.
여기서, 만약 이런 명사 뒤에 생략한 문자 "d"와 비슷한 발음을 내는 "的"(De)과 같은 조사가 붙으면, "
Figure 112007076424868-PAT00012
"(DaWeiDe)로 잘못 인식될 수 있다. 전술한 종래의 기술에서는 규칙에 기반한 후처리 과정을 거쳐 추출한 음차표기의 양끝에 자주 사용하지 않는 문자가 있으면 제거해주는 방식으로 어느 정도 이런 문제를 해결하였다.
그러나, 이러한 후처리를 통한 기법은 도 6과 같은 오류에 대해서는 여전히 해결할 수 없다. 왜냐하면, 조사 "是"(Shi)가 다른 문자와 결합하여 음성적으로 영어 단어 "Jacey"와 비슷한 "者是"(ZheShi)가 정확한 음차표기 "杰西"(JieXi) 대신 인식되었기 때문이다.
이때, 후처리 기법을 통하여 "是"를 제거한다 하더라도 나머지 부분 "者"는 정확한 음차표기가 아니다. 본 발명의 토크나이저 기법에서는 "是"(Shi)와 같은 문자는 음차표기에 전혀 사용하지 않는 문자 집합에 속하기 때문에 이러한 문자들을 사전에 제거한다.
그러면, 남은 문자 "者"(Zhe)와 "Jacey"의 음성적 유사도는 "杰西"(JieXi)와 "Jacey"의 음성적 유사도보다 훨씬 낮아짐으로 정확한 음차표기 대역쌍을 추출할 수 있다. 뿐만 아니라 토크나이저 기법을 적용하여 전체 문장을 여러 부분으로 나누면 시간 복잡도도 크게 줄어들게 된다.
한편, 상기 음차표기에 전혀 사용되지 않는 문자라고 함은 한국어를 예로 들면, 문장부호, 숫자, 띄어쓰기, 영어 자모 등을 의미하며, 중국어를 예로 들면, 조 사 등을 의미한다.
전술한 바와 같이 동적 윈도우 기법과 토크나이저 기법은 서로 다른 문제를 해결하므로 두 가지 방법을 함께 적용하면 더 높은 성능을 낼 수 있을 뿐만 아니라 시간 복잡도도 크게 줄여줄 수 있다.
즉, 전술한 동적 윈도우 기법과 토크나이저 기법을 함께 적용하는 방법은, 음차표기 대역쌍 추출모듈(300, 도 1 참조)을 통해 음차표기 후보단어 추출모듈(200, 도 1 참조)로부터 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 나머지 다른 단일언어 문서(예컨대, 중국어 문서)내의 각 문장을 음차표기에 사용되지 않는 문자들(예컨대, 조사)을 기준으로 여러 부분으로 분할하고, 각 분할된 부분에 대해 동적 윈도우 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 것으로 이루어질 수 있다.
한편, 본 발명의 일 실시예에서는 중국어와 영어를 일 예로 적용하였지만, 이에 국한하지 않으며, 모든 언어쌍에도 적용할 수 있다.
이하에는 실제로 실험을 통하여 본 발명의 일 실시예에 적용된 동적 윈도우 기법과 토크나이저 기법의 효율성을 검증하였다.
먼저, 실험을 위하여 영-중 병렬 말뭉치에서 예컨대, 지명, 인명, 제품명 등 각종 음차표기 대역쌍을 포함한 300개 문장을 선택하였다. 학습 데이터는 860개 영-중 음차표기 단어쌍을 사용하였다.
하기의 표 1에 나타낸 바와 같이, 동적 윈도우와 토크나이저 기법을 적용한 결과 기존의 방법에 비하여 약 12%정도의 성능향상을 가져올 수 있었으며 이는 약 99%의 높은 성능이다.
방법 단어 정확률 문자 정확률 문자 재현율
통계기반 음차표기 모델(STM) 75.33% 86.65% 91.11%
통계기반 음차표기 모델(STM) +동적 윈도우(DW)+토크나이저(TOK) 99.00% 99.78% 99.72%
통계기반 음차표기 모델(STM) +기존 방법 87.99% 90.17% 91.11%
전술한 바와 같이, 본 발명의 일 실시예에 따른 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치를 이용하면, 대량의 미등록어 사전DB를 자동으로 구축할 수 있으며 이는 교차언어 검색 및 기계 언어번역 시스템 등의 성능을 높이는데 큰 역할을 할 것이다.
예를 들면, 현재 구글에서 한국어와 영어사이 교차언어 검색서비스를 하고 있다. 구글에 한국어로 "구글"이라고 검색하면, "구글"이란 단어가 "nine writing"이란 영어 단어로 번역되어서 검색된다.
이런 경우에 사용자 원래 의도했던 검색 결과는 전혀 다른 검색 결과가 나올 것이다. 만약, 본 발명의 방법 및 장치로 구축한 미등록어 사전DB를 이용하면, "구글"은 정확하게 "Google"로 번역할 수 있음으로 정확한 검색 결과를 얻을 수 있다.
또 다른 예로 구글의 기계 언어번역 서비스를 이용하여 "나는 구글을 좋아한다"라는 한국어 문장을 영어로 번역하면, "I like nine writings"라는 의미 없는 번역 결과가 나온다.
만약, 여기에 본 발명을 적용하면 위의 문장을 "I like Google"로 정확하게 번역할 수 있다. 기존에는 이런 미등록어 사전DB를 수동으로 대량의 인력과 시간을 투자하여 구축하였으나, 본 발명은 이런 수동적인 방식을 완전히 자동화함으로써 실용가치가 있는 대량의 미등록어 사전DB를 구축할 수 있다. 이는 교차언어 검색과 기계 언어번역 등 분야에 큰 역할을 할 것이다.
한편, 본 발명의 실시예에 따른 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다.
또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
전술한 본 발명에 따른 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.
도 1은 본 발명의 일 실시예에 따른 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치를 설명하기 위한 전체적인 블록 구성도.
도 2는 본 발명의 일 실시예에 적용된 음차표기 정렬 모델을 설명하기 위한 도면.
도 3은 본 발명의 일 실시예에 적용된 통계기반 음차표기 모델을 이용하여 문장에서 음차표기 대역쌍을 추출하는 과정을 설명하기 위한 도면.
도 4는 본 발명의 일 실시예에 적용된 동적 윈도우 기법의 이론적 근거를 설명하기 위한 도면.
도 5는 본 발명의 일 실시예에 적용된 동적 윈도우 기법을 이용하여 정확한 음차표기를 추출하는 과정을 설명하기 위한 도면.
도 6은 본 발명의 일 실시예에 적용된 토크나이저(Tokenizer) 기법을 이용하여 정확한 음차표기를 추출하는 과정을 설명하기 위한 도면.

Claims (30)

  1. (a) 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하는 단계;
    (b) 상기 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하는 단계; 및
    (c) 상기 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 상기 선택된 음차표기 후보단어를 기준으로 동적 윈도우 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 단계를 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  2. (a') 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하는 단계;
    (b') 상기 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하는 단계; 및
    (c') 상기 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 어절 분리를 이용한 토크나이저(Tokenizer) 기법을 적용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동 으로 추출하는 단계를 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  3. 제 2 항에 있어서,
    상기 토크나이저 기법은,
    나머지 다른 단일언어 문서내의 각 문장을 음차표기에 사용되지 않는 문자들을 기준으로 여러 부분으로 분할한 후, 각 분할된 부분에 대해 통계기반 음차표기 모델을 사용하여 점수를 계산하고, 최고값을 갖는 문자열을 역추적하여 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  4. (a") 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하는 단계;
    (b") 상기 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하는 단계;
    (c") 상기 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 나머지 다른 단일언어 문서내의 각 문장을 음차표기에 사용되지 않는 문자들을 기준으로 여러 부분으로 분할하는 단계; 및
    (d") 각 분할된 부분에 대해 동적 윈도우 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 단계를 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  5. 제 1 항 또는 제 4 항에 있어서,
    상기 동적 윈도우 기법은,
    상기 선택된 음차표기 후보단어의 길이에 근거하여 나머지 다른 단일언어의 음차표기 가능한 윈도우 길이범위를 설정하는 단계;
    상기 설정된 윈도우 길이범위 내의 각 윈도우를 앞으로 이동하면서 상기 선택된 음차표기 후보단어와 현재 윈도우가 포함된 문자열에 대하여 최대 음성적 유사 확률값들을 구하는 단계; 및
    각 윈도우에서의 최대 음성적 유사 확률값들 중에서 가장 큰 값에 대응되는 문자열을 역추적하여 음차표기 대역쌍을 자동으로 추출하는 단계를 포함하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  6. 제 5 항에 있어서,
    상기 선택된 음차표기 후보단어가 영어 단어이고, 나머지 다른 단일언어가 중국어이며, 상기 영어 단어의 길이가 L일 경우, 상기 윈도우 길이범위는 L/3부터 L 사이로 설정되는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  7. 제 5 항에 있어서,
    상기 음성적 유사 확률값은 하기의 수학식 4에 의해 구하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
    Figure 112007076424868-PAT00013
    여기서, C는 현재 윈도우가 포함된 문자열이고, E는 선택된 음차표기 후보단어이며, u, v는 각각 선택된 음차표기 후보단어와 현재 윈도우가 포함된 문자열의 음차표기 단위(Transliteration Unit, TU)이며, m은 u와 v의 매치타입을 의미한다.
  8. 제 2 항 또는 제 4 항에 있어서,
    상기 음차표기에 사용되지 않는 문자들은 문장부호, 숫자, 띄어쓰기 또는 영어 자모 중 적어도 어느 하나로 이루어진 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  9. 제 2 항 또는 제 4 항에 있어서,
    상기 나머지 다른 단일언어 문서가 중국어일 경우, 상기 음차표기에 사용되지 않는 문자들은 조사들로 이루어진 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  10. 제 1 항, 제 2 항 또는 제 4 항 중 어느 한 항에 있어서,
    상기 음차표기 후보단어들을 추출하는 단일언어 문서는 영어 문서이며, 나머지 다른 단일언어 문서는 중국어 문서인 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  11. 제 1 항, 제 2 항 또는 제 4 항 중 어느 한 항에 있어서,
    상기 음차표기 후보단어들은 고유명사인 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  12. 제 1 항, 제 2 항 또는 제 4 항 중 어느 한 항에 있어서,
    상기 이중언어 문서는 중국어 및 영어로 이루어진 언어쌍을 비롯한 모든 언어쌍에서의 병렬 말뭉치 또는 비교 가능한 말뭉치를 포함하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  13. 제 1 항, 제 2 항 또는 제 4 항 중 어느 한 항에 있어서,
    상기 추출된 음차표기 대역쌍은 미리 구축된 미등록어 사전DB에 등록하는 단계를 더 포함하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  14. 제 13 항에 있어서,
    상기 미등록어 사전DB에 등록된 음차표기 대역쌍을 이용하여 교차언어 검색 서비스를 수행하는 단계를 더 포함하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  15. 제 13 항에 있어서,
    상기 미등록어 사전DB에 등록된 음차표기 대역쌍을 이용하여 기계 언어번역 서비스를 수행하는 단계를 더 포함하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법.
  16. 제 1 항 내지 제 15 항 중 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  17. 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하기 위한 이중언어 문서 추출모듈;
    상기 이중언어 문서 추출모듈로부터 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하기 위한 음차표기 후보단어 추출모듈; 및
    상기 음차표기 후보단어 추출모듈로부터 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 동적 윈도우 기법 또는 토크나이저(Tokenizer) 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하기 위한 음차표기 대역쌍 추출모듈을 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  18. 인터넷 상에 존재하는 이중언어로 표현된 이중언어 문서를 추출하여 각각의 단일언어로 표현된 단일언어 문서들로 분리하기 위한 이중언어 문서 추출모듈;
    상기 이중언어 문서 추출모듈로부터 분리된 단일언어 문서들 중 어느 하나의 단일언어 문서에서 음차표기 후보단어들을 추출하기 위한 음차표기 후보단어 추출모듈; 및
    상기 음차표기 후보단어 추출모듈로부터 추출된 음차표기 후보단어들 중 음차표기될 후보단어를 선택한 후, 나머지 다른 단일언어 문서내의 각 문장을 음차표기에 사용되지 않는 문자들을 기준으로 여러 부분으로 분할하고, 각 분할된 부분에 대해 동적 윈도우 기법을 이용하여 나머지 다른 단일언어 문서에서 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하기 위한 음차표기 대역쌍 추출모듈을 포함하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  19. 제 17 항 또는 제 18 항에 있어서,
    상기 동적 윈도우 기법은,
    상기 선택된 음차표기 후보단어의 길이에 근거하여 나머지 다른 단일언어의 음차표기 가능한 윈도우 길이범위를 설정하고, 상기 설정된 윈도우 길이범위 내의 각 윈도우를 앞으로 이동하면서 상기 선택된 음차표기 후보단어와 현재 윈도우가 포함된 문자열에 대하여 최대 음성적 유사 확률값들을 구한 후, 각 윈도우에서의 최대 음성적 유사 확률값들 중에서 가장 큰 값에 대응되는 문자열을 역추적하여 음 차표기 대역쌍을 자동으로 추출하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  20. 제 19 항에 있어서,
    상기 선택된 음차표기 후보단어가 영어 단어이고, 나머지 다른 단일언어가 중국어이며, 상기 영어 단어의 길이가 L일 경우, 상기 윈도우 길이범위는 L/3부터 L 사이로 설정되는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  21. 제 19 항에 있어서,
    상기 음성적 유사 확률값은 하기의 수학식 5에 의해 구하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
    Figure 112007076424868-PAT00014
    여기서, C는 현재 윈도우가 포함된 문자열이고, E는 선택된 음차표기 후보단어이며, u, v는 각각 선택된 음차표기 후보단어와 현재 윈도우가 포함된 문자열의 음차표기 단위(Transliteration Unit, TU)이며, m은 u와 v의 매치타입을 의미한다.
  22. 제 17 항에 있어서,
    상기 토크나이저 기법은,
    나머지 다른 단일언어 문서내의 각 문장을 음차표기에 사용되지 않는 문자들을 기준으로 여러 부분으로 분할한 후, 각 분할된 부분에 대해 통계기반 음차표기 모델을 사용하여 점수를 계산하고, 최고값을 갖는 문자열을 역추적하여 상기 선택된 음차표기 후보단어에 대응되는 음차표기 대역쌍을 자동으로 추출하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  23. 제 22 항에 있어서,
    상기 음차표기에 사용되지 않는 문자들은 문장부호, 숫자, 띄어쓰기 또는 영어 자모 중 적어도 어느 하나로 이루어진 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  24. 제 22 항에 있어서,
    상기 나머지 다른 단일언어 문서가 중국어일 경우, 상기 음차표기에 사용되지 않는 문자들은 조사들로 이루어진 것을 특징으로 하는 이중언어 문서에서의 음 차표기 대역쌍 자동 추출 장치.
  25. 제 17 항 또는 제 18 항에 있어서,
    상기 음차표기 후보단어들을 추출하는 단일언어 문서는 영어 문서이며, 나머지 다른 단일언어 문서는 중국어 문서인 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  26. 제 17 항 또는 제 18 항에 있어서,
    상기 음차표기 후보단어들은 고유명사인 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  27. 제 17 항 또는 제 18 항에 있어서,
    상기 이중언어 문서는 중국어 및 영어로 이루어진 언어쌍을 비롯한 모든 언어쌍에서의 병렬 말뭉치 또는 비교 가능한 말뭉치를 포함하는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  28. 제 17 항 또는 제 18 항에 있어서,
    상기 음차표기 대역쌍 추출모듈로부터 추출된 음차표기 대역쌍을 저장하기 위한 미등록어 사전DB이 더 포함되는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  29. 제 28 항에 있어서,
    상기 미등록어 사전DB은 인터넷을 통해 입력된 교차언어에 대한 검색 서비스에 이용되는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
  30. 제 28 항에 있어서,
    상기 미등록어 사전DB은 기계 언어번역 서비스 작업 수행에 이용되는 것을 특징으로 하는 이중언어 문서에서의 음차표기 대역쌍 자동 추출 장치.
KR1020070107661A 2007-10-25 2007-10-25 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 KR100910275B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070107661A KR100910275B1 (ko) 2007-10-25 2007-10-25 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070107661A KR100910275B1 (ko) 2007-10-25 2007-10-25 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020080132571A Division KR20090042201A (ko) 2008-12-23 2008-12-23 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090041897A true KR20090041897A (ko) 2009-04-29
KR100910275B1 KR100910275B1 (ko) 2009-08-03

Family

ID=40764845

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070107661A KR100910275B1 (ko) 2007-10-25 2007-10-25 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치

Country Status (1)

Country Link
KR (1) KR100910275B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190059826A (ko) * 2017-11-23 2019-05-31 숙명여자대학교산학협력단 한국어 접사 기반 토크나이징 장치 및 그 방법
KR20230015696A (ko) * 2021-07-23 2023-01-31 경북대학교 산학협력단 번역장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03200706A (ja) * 1989-12-27 1991-09-02 Pias Arise Kk 皮膚外用剤
KR100288144B1 (ko) * 1998-12-10 2001-05-02 이계철 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
KR100318763B1 (ko) * 1999-09-01 2002-01-05 윤덕용 외래어 음차표기 유사도 비교 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190059826A (ko) * 2017-11-23 2019-05-31 숙명여자대학교산학협력단 한국어 접사 기반 토크나이징 장치 및 그 방법
KR20230015696A (ko) * 2021-07-23 2023-01-31 경북대학교 산학협력단 번역장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치

Also Published As

Publication number Publication date
KR100910275B1 (ko) 2009-08-03

Similar Documents

Publication Publication Date Title
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
Fung et al. A technical word-and term-translation aid using noisy parallel corpora across language groups
Huang et al. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20070011132A1 (en) Named entity translation
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
Chang et al. An unsupervised iterative method for Chinese new lexicon extraction
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Hellsten et al. Transliterated mobile keyboard input via weighted finite-state transducers
Chang A new approach for automatic Chinese spelling correction
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Josan et al. A Punjabi to Hindi machine transliteration system
US7328404B2 (en) Method for predicting the readings of japanese ideographs
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
KR20040086775A (ko) 단어 분석 시스템 및 방법
Kuo et al. A phonetic similarity model for automatic extraction of transliteration pairs
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
Karimi et al. English to persian transliteration
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
Uchimoto et al. Morphological analysis of a large spontaneous speech corpus in Japanese
Saito et al. Multi-language named-entity recognition system based on HMM
Huang et al. Error detection and correction based on Chinese phonemic alphabet in Chinese text
Dasgupta et al. A joint source channel model for the English to Bengali back transliteration
JP2001142877A (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
Rani et al. Post-processing methodology for word level Telugu character recognition systems using Unicode Approximation Models

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120430

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee