KR102593447B1 - 기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법 - Google Patents

기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법 Download PDF

Info

Publication number
KR102593447B1
KR102593447B1 KR1020210156657A KR20210156657A KR102593447B1 KR 102593447 B1 KR102593447 B1 KR 102593447B1 KR 1020210156657 A KR1020210156657 A KR 1020210156657A KR 20210156657 A KR20210156657 A KR 20210156657A KR 102593447 B1 KR102593447 B1 KR 102593447B1
Authority
KR
South Korea
Prior art keywords
machine translation
sentence
ter
machine
translation
Prior art date
Application number
KR1020210156657A
Other languages
English (en)
Other versions
KR20230071825A (ko
Inventor
임희석
어수경
박찬준
문현석
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020210156657A priority Critical patent/KR102593447B1/ko
Publication of KR20230071825A publication Critical patent/KR20230071825A/ko
Application granted granted Critical
Publication of KR102593447B1 publication Critical patent/KR102593447B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

기계 번역의 품질을 평가하는 품질 평가 모델의 생성에 이용되는 학습 데이터를 생성하는 학습 데이터 생성 장치가 개시된다. 상기 학습 데이터 생성 장치는 웹 크롤링을 이용하여 복수의 문장들을 포함하는 기본 데이터를 수집하는 데이터 수집부, 기본 데이터에 기초하여 기계 번역의 품질 평가 모델의 학습에 이용되고 소스 문장과 상기 소스 문장에 대한 기계 번역문을 포함하는 입력 문장쌍을 생성하는 입력 문장 생성부, 및 상기 기계 번역문의 TER(Translation Error Rate)을 산출하는 TER 산출부를 포함한다.

Description

기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법{DEVICE AND METHOD FOR GENERATING OF TRAINING DATA FOR QUALITY ESTIMATION IN MACHINE TRANSLATION}
본 발명은 기계 번역 품질 예측을 위한 학습 데이터 생성 방법에 관한 것으로, 보다 구체적으로 기계 번역문의 품질 예측을 수행하는 품질 예측 모델을 생성하는 과정에서 이용되는 학습 데이터를 자동으로 생성하는 장치 및 방법에 관한 것이다.
기계 번역(Machine Translation, MT)의 품질 예측(Quality Estimation, QE)이란, 레퍼런스 문장(reference sentence)을 참고하지 않고 소스 문장(source sentence)과 기계 번역 모델이 추론한 기계 번역문만을 가지고 기계 번역의 품질을 예측하는 것을 의미한다.
일반적으로 기계 번역의 품질을 판단하기 위해서는 기계 번역문과 레퍼런스 문장을 비교하여야 하지만, 레퍼런스 문장이 존재하는 경우는 매우 한정적이다. 또한, 기계 번역을 활용하는 사람들의 경우 소스 언어(source language) 또는 타겟 언어(target language)를 잘 알지 못하는 경우가 존재하기 때문에, 기계 번역이 도출한 번역 결과가 좋은 품질인지 좋지 못한 품질인지 판단하기 어렵다. 이러한 문제점에 입각하여 레퍼런스 문장 없이 자동으로 번역 품질을 예측할 수 있는 QE에 대한 연구의 필요성이 증가하고 있다.
QE에서는 기계 번역문에 대한 품질을 수치 또는 오류 태그와 같은 품질 주석(quality annotations)을 통해 나타낸다. 이를 활용하여 여러 기계 번역 시스템 중 어떤 시스템의 번역 결과가 가장 좋은지를 선택하거나, 결과에 대한 순위(ranking)를 매길 수 있다. 또한, 품질이 낮은 기계 번역 문장의 경우, 어절 단위로 부착된 품질 주석을 활용하여 품질이 낮은 어절만을 수정함으로써 사후 교정 시 효율을 높일 수 있다. 이와 같이 기계 번역에서 QE는 폭넓은 적용이 가능하다는 점에서 그 중요성이 부각되고 있다.
QE 태스크는 레퍼런스 문장 없이 소스 문장과 기계 번역문만으로도 이에 대한 품질을 예측할 수 있으나, QE 모델을 학습하기 위한 학습 데이터(training data)를 구축하기 위해 번역 전문가가 직접 주석 작업을 진행한 라벨(label)이 필요하며, 이를 위해 많은 전문가의 노력이 필요하다.
본 발명에서는, 이러한 문제점을 제거하고 리소스가 부족한 언어(Low Resource Language, LRL)에서도 QE를 적용할 수 있도록, 자동적으로 학습 데이터(수도-QE 학습 데이터(pseudo-QE training data)라 칭할 수 있음)를 생성하는 방법을 제안한다.
대한민국 공개특허 제2021-0030238호 (2021.03.17. 공개) 대한민국 공개특허 제2017-0053527호 (2017.05.16. 공개) 대한민국 공개특허 제2015-0029931호 (2015.03.19. 공개) 대한민국 공개특허 제2021-0070891호 (2021.06.15. 공개)
Ranasinghe, T., Orasan, C., and Mitkov, R. (2020). TransQuest: Translation quality estimation with cross-lingual transformers. In Proceedings of the 28th International Conference on Computational Linguistics, pages 5070-5081, Barcelona, Spain (Online). International Committee on Computational Linguistics.
본 발명이 이루고자 하는 기술적인 과제는 QE(Quality Estimation) 모델의 학습을 위한 학습 데이터를 자동적으로 생성하는 방법 및 장치를 제공하는 것이다.
본 발명의 일 실시예에 따른 학습 데이터 생성 장치는 웹 크롤링을 이용하여 복수의 문장들을 포함하는 기본 데이터를 수집하는 데이터 수집부, 기본 데이터에 기초하여 기계 번역의 품질 평가 모델의 학습에 이용되고 소스 문장과 상기 소스 문장에 대한 기계 번역문을 포함하는 입력 문장쌍을 생성하는 입력 문장 생성부, 및 상기 기계 번역문의 TER(Translation Error Rate)을 산출하는 TER 산출부를 포함한다.
본 발명의 일 실시예에 따른 기계 학습 품질 예측 모델 생성 장치는 웹 크롤링을 이용하여 복수의 문장들을 포함하는 기본 데이터를 수집하는 데이터 수집부, 기본 데이터에 기초하여 기계 번역의 품질 평가 모델의 학습에 이용되고 소스 문장과 상기 소스 문장에 대한 기계 번역문을 포함하는 입력 문장쌍을 생성하는 입력 문장 생성부, 상기 기계 번역문의 TER(Translation Error Rate)을 산출하는 TER 산출부, 및 상기 입력 문장쌍과 상기 TER을 이용하여 학습함으로써 상기 기계 번역의 품질 평가 모델을 생성하는 모델 생성부를 포함한다.
본 발명의 일 실시예에 따른 학습 데이터 생성 방법은 적어도 프로세서를 포함하는 학습 데이터 생성 장치에 의해 수행되고, 웹 크롤링을 이용하여 복수의 문장들을 포함하는 기본 데이터를 수집하는 단계, 기본 데이터에 기초하여 기계 번역의 품질 평가 모델의 학습에 이용되고 소스 문장과 상기 소스 문장에 대한 기계 번역문을 포함하는 입력 문장쌍을 생성하는 단계, 및 상기 기계 번역문의 TER(Translation Error Rate)을 산출하는 단계를 포함한다.
본 발명의 일 실시예에 따른 기계 번역 품질 평가 모델 생성 방법은 적어도 프로세서를 포함하는 기계 번역 품질 평가 모델 생성 장치에 의해 수행되고, 웹 크롤링을 이용하여 복수의 문장들을 포함하는 기본 데이터를 수집하는 단계, 기본 데이터에 기초하여 기계 번역의 품질 평가 모델의 학습에 이용되고 소스 문장과 상기 소스 문장에 대한 기계 번역문을 포함하는 입력 문장쌍을 생성하는 단계, 상기 기계 번역문의 TER(Translation Error Rate)을 산출하는 단계, 및 상기 입력 문장쌍과 상기 TER을 이용하여 학습함으로써 상기 기계 번역의 품질 평가 모델을 생성하는 단계를 포함한다.
본 발명의 실시예에 따른, QE 모델의 학습을 위한 학습 데이터를 자동으로 생성하는 방법 및 장치에 의할 경우, 번역 전문가의 노력 없이 QE 모델을 생성하기 위한 학습 데이터를 자동으로 생성할 수 있는 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 기능 블럭도이다.
도 2는 도 1에 도시된 학습 데이터 생성 장치에 의해 수행되는 학습 데이터 생성 방법 또는 품질 평가 모델 생성 방법을 설명하기 위한 개념도이다.
도 3은 도 1에 도시된 학습 데이터 생성 장채에 의해 수행되는 학습 데이터 생성 방법 또는 품질 평가 모델 생성 방법을 설명하기 위한 흐름도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시예들을 상세히 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
본 발명에서는 레퍼런스 문장(reference sentence) 없이 번역 품질을 측정할 수 있다는 특징을 지닌 QE(Quelity Estimation)에서, QE를 위한 학습 데이터 구축이 오히려 번역문을 생성하는 것보다 더 많은 노력이 필요하다는 문제점을 해결하고자 한다. 이를 완화하기 위하여 학습 데이터를 자동으로 생성할 수 있는 기법 및 장치를 제안하고자 한다.
도 1은 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 기능 블럭도이다.
도 1을 참조하면, 학습 데이터 생성 장치(10)는 기계 번역문의 품질 예측 모델의 학습(또는 생성)에 사용되는 학습 데이터를 생성할 수 있으며, 적어도 프로세서(processor) 및/또는 메모리(memory)를 포함하는 컴퓨팅 장치로 구현될 수 있다. 학습 데이터 생성 장치(10)는, 데이터 수집부(110), 입력 문장 생성부(120), TER 산출부(130), 모델 생성부(140), 및 저장부(150) 중 적어도 하나 이상을 포함할 수 있다.
실시예에 따라, 학습 데이터 생성 장치(10)는 모델 생성부(140)을 포함할 수 있고, 이 경우 학습 데이터 생성 장치(10)는 품질 예측 모델 생성 장치로 명명될 수도 있다.
데이터 수집부(110)는 임의의 수집 기법을 통해 복수의 문장으로 구성된 기본 데이터를 수집할 수 있다. 예컨대, 데이터 수집부(110)는 웹 크롤링 기법을 이용하여 기본 데이터를 수집할 수 있다. 기본 데이터는 제1 기본 데이터 및/또는 제2 기본 데이터를 포함한다. 제1 기본 데이터는 타겟 언어로 된 복수의 문장들(Nono-Lingual corpus, 단일 말뭉치)을 포함하고, 제2 기본 데이터는 병렬 말뭉치(Parallel corpus)를 포함할 수 있다. 병렬 말뭉치는 소스 언어로 된 소스 문장들과 각각이 소스 문장들 각각에 대응하고 타겟 언어로 된 타겟 문장들을 포함할 수 있다.
데이터 수집부(110)에 의해 수집된 기본 데이터는 저장부(150)에 저장될 수 있다. 그러나, 기본 데이터가 미리 수집되어 저장부(150)에 저장되어 있는 경우, 데이터 수집부(110)는 학습 데이터 생성 장치(10)에서 생략될 수도 있다.
입력 문장 생성부(120)는 기계 번역문의 품질 평가 모델을 학습(또는 생성)하는 과정에서 이용되는 학습 데이터 중 소스 문장 및/또는 기계 번역문을 생성할 수 있다. 입력 문장 생성부(120)에 의한 문장 생성 과정은 기본 데이터의 종류에 따라 상이할 수 있다.
우선, 제1 기본 데이터에 기초하여 입력 문장을 생성하는 경우, 입력 문장 생성부(120)는 제1 기본 데이터에 포함된 타겟 언어 문장을 기계 번역(Backward translation, 역번역)하여 소스 문장(수도 소스(pseudo source) 문장이라 명명될 수 있음)을 생성하고, 생성된 소스 문장을 다시 번역(Forward translation)하여 기계 번역문(MT output)을 생성할 수 있다. 제1 기본 데이터에 포함된 복수의 문장들 각각에 상술한 동작을 수행함으로서, 품질 예측 모델의 학습 데이터를 생성할 수 있다. 상술한 입력 문장 생성부(120)의 동작은 RTT(Round-Trip Translation)을 기반으로 입력 문장쌍을 생성하는 기법이다. 입력 문장 생성부(120)에 의해 생성된 입력 문장들은 저장부(150)에 저장될 수 있다.
다음으로, 제2 기본 데이터에 기초하여 입력 문장을 생성하는 경우, 입력 문장 생성부(120)는 제2 기본 데이터에 포함된 소스 문장을 기계 번역(Forward translation)함으로서 기계 번역문(MT output)을 생성할 수 있다. 여기서, 제2 기본 데이터에 포함된 소스 문장과 이에 대응하는 기계 번역문이 품질 예측 모델의 학습에 이용되는 학습 데이터이다. 제2 기본 데이터에 포함된 복수의 문장쌍들 각각에 상술한 동작을 수행함으로써, 품질 예측 모델의 학습 데이터를 생성할 수 있다. 입력 문장 생성부(120)에 의해 생성된 입력 문장들은 저장부(150)에 저장될 수 있다.
TER 산출부(130)는 품질 예측 모델의 학습에 이용되는 학습 데이터 중 소스 문장과 기계 번역문 사이의 번역 수정률(Translation Edit Rate or Translation Error Rate, TER)을 산출할 수 있다. 제1 기본 데이터에 기초하여 기계 번역문이 생성되는 경우, TER은 제1 기본 데이터에 포함된 타겟 언어로 된 문장을 레퍼런스 문장으로 하여 계산될 수 있다. 제2 기본 데이터에 기초하여 기계 번역문이 생성되는 경우, TER은 제2 기본 데이터에 포함된 타겟 문장을 레퍼런스 문장으로 하여 계산될 수 있다. TER은 0보다는 크거나 같고 1보다는 작거나 같은 실수 값을 갖을 수 있다. TER 산출 방식은 이미 널리 알려져 있으므로 이에 대한 상세한 설명은 생략하기로 한다.
모델 생성부(140)는 입력 문장 생성부(120)에 의해 생성된 소스 문장과 기계 번역문, 그리고 TER 산출부(130)에 의해 산출된 TER을 학습 데이터로 이용하여 학습함으로써 기계 번역문이 품질 예측을 수행하는 품질 예측 모델을 생성할 수 있다. 일 실시예로, 모델 생성부(140)는 오픈 소스 프레임워크인 TransQuest(Ranasinghe et al., 2020, https://github.com/TharinduDR/TransQuest)를 학습시킴으로써, 품질 예측 모델을 생성할 수 있다. Ranasinghe 등은 Mono-TransQuest와 SiameseTransQuest의 두 가지 구조를 제안한 바 있으나, 본 발명에서 Mono-TransQuest만을 학습함으로써 품질 예측 모델을 생성하였다. 그러나, 본 발명의 권리범위가 이에 제한되는 것은 아니며, 학습에 이용되는 모델은 변경될 수 있다.
저장부(150)에는 데이터 수집부(110)에 의해 수집된 기본 데이터, 입력 문장 생성부(120)에 의해 생성된 입력 문장, TER 산출부(130)에 의해 산출된 TER, 및 모델 생성부(140)에 의해 생성된 기계 번역문의 품질 예측 모델 등이 저장될 수 있다.
도 1에 도시된 학습 데이터 생성 장치의 구성들 각각은 기능 및 논리적으로 분리될 수 있음으로 나타내는 것이며, 반드시 각각의 구성이 별도의 물리적 장치로 구분되거나 별도의 코드로 작성됨을 의미하는 것이 아님을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
또한, 본 명세서에서 "~부"라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것이 아니다.
도 2는 도 1에 도시된 학습 데이터 생성 장치에 의해 수행되는 학습 데이터 생성 방법 또는 품질 평가 모델 생성 방법을 설명하기 위한 개념도이고, 도 3은 도 1에 도시된 학습 데이터 생성 장치에 의해 수행되는 학습 데이터 생성 방법 또는 품질 평가 모델 생성 방법을 설명하기 위한 흐름도이다. 학습 데이터 생성 방법 또는 품질 평가 모델 생성 방법을 설명함에 있어, 앞선 기재와 중복되는 내용에 관하여는 그 기재를 생략하기로 한다.
도 1 내지 도 3을 참조하면, 학습 데이터 생성 장치(10)에 포함된 데이터 수집부(110)는 기본 데이터를 수집할 수 있다(S110). 기본 데이터는 제1 기본 데이터와 제2 기본 데이터를 포함할 수 있다.
학습 데이터 생성 장치(10)에 포함된 입력 문장 생성부(120)는 품질 예측 모델의 생성에 이용되는 학습 데이터, 즉 입력 문장쌍을 생성할 수 있다(S120). 입력 문장쌍은 소스 문장과 소스 문장에 대한 기계 번역문을 의미할 수 있다.
학습 데이터 생성 장치(10)에 포함된 TER 산출부(130)는 품질 예측 모델의 생성에 이용되는 입력 문장쌍 중 기계 번역문의 TER을 산출할 수 있다(S130). 결국, 학습 데이터는 입력 문장쌍들과 각각이 입력 문장쌍들 각각에 대응하는 복수의 TER들을 의미할 수 있다.
실시예에 따라, 학습 데이터 생성 장치(10)에 포함된 모델 생성부(140)는 생성된 학습 데이터를 이용하여 기계 번역문의 품질을 예측하는 품질 예측 모델을 생성할 수 있다(S140).
상술한 과정을 통하여, 레퍼런스 문장 없이 기계 번역문의 품질을 평가(또는 예측)하는 모델을 생성하는 과정에 이용되는 학습 데이터를 생성할 수 있고, 생성된 학습 데이터를 이용하여 품질 평가 모델을 생성할 수 있다.
이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 집합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPA(Field Programmable array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(Operation System, OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(Collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(Embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성 요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10 : 학습 데이터 생성 장치
110 : 데이터 수집부
120 : 입력 문장 생성부
130 : TER 산출부
140 : 모델 생성부
150 : 저장부

Claims (10)

  1. 웹 크롤링을 이용하여 복수의 문장들을 포함하는 기본 데이터를 수집하는 데이터 수집부;
    기본 데이터에 기초하여 기계 번역의 품질 평가 모델의 학습에 이용되고 소스 문장과 상기 소스 문장에 대한 기계 번역문을 포함하는 입력 문장쌍을 생성하는 입력 문장 생성부;
    상기 기계 번역문의 TER(Translation Error Rate)을 산출하는 TER 산출부; 및
    상기 입력 문장쌍과 상기 TER을 포함하는 학습 데이터를 이용하여 학습함으로써 상기 기계 번역의 품질 평가 모델을 생성하는 모델 생성부를 포함하고,
    상기 기본 데이터는 타겟 언어로 된 문장을 포함하고,
    상기 입력 문장 생성부는 상기 타겟 언어로 된 문장을 역번역(Backward translation)하여 상기 소스 문장을 생성하고, 상기 소스 문장을 번역하여 상기 기계 번역문을 생성하고,
    상기 TER 산출부는 상기 타겟 언어로 된 문장과 상기 기계 번역문 사이의 TER을 산출하는,
    기계 번역 품질 평가 모델 생성 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 적어도 프로세서를 포함하는 기계 번역 품질 평가 모델 생성 장치에 의해 수행되는 기계 번역 품질 평가 모델 생성 방법에 있어서,
    웹 크롤링을 이용하여 복수의 문장들을 포함하는 기본 데이터를 수집하는 단계;
    기본 데이터에 기초하여 기계 번역의 품질 평가 모델의 학습에 이용되고 소스 문장과 상기 소스 문장에 대한 기계 번역문을 포함하는 입력 문장쌍을 생성하는 단계;
    상기 기계 번역문의 TER(Translation Error Rate)을 산출하는 단계; 및
    상기 입력 문장쌍과 상기 TER을 포함하는 학습 데이터를 이용하여 학습함으로써 상기 기계 번역의 품질 평가 모델을 생성하는 단계를 포함하고,
    상기 기본 데이터는 타겟 언어로 된 문장을 포함하고,
    상기 입력 문장쌍을 생성하는 단계는 상기 타겟 언어로 된 문장을 역번역(Backward translation)하여 상기 소스 문장을 생성하고, 상기 소스 문장을 번역하여 상기 기계 번역문을 생성하고,
    상기 TER을 산출하는 단계는 상기 타겟 언어로 된 문장과 상기 기계 번역문 사이의 TER을 산출하는,
    기계 번역 품질 평가 모델 생성 방법.
  8. 삭제
  9. 삭제
  10. 삭제
KR1020210156657A 2021-11-15 2021-11-15 기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법 KR102593447B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210156657A KR102593447B1 (ko) 2021-11-15 2021-11-15 기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210156657A KR102593447B1 (ko) 2021-11-15 2021-11-15 기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230071825A KR20230071825A (ko) 2023-05-24
KR102593447B1 true KR102593447B1 (ko) 2023-10-25

Family

ID=86540765

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210156657A KR102593447B1 (ko) 2021-11-15 2021-11-15 기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102593447B1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150029931A (ko) 2013-09-11 2015-03-19 한국전자통신연구원 자동 번역기의 번역 품질 측정을 위한 정답 집합 확장 장치 및 방법
KR102449614B1 (ko) 2015-11-06 2022-09-29 삼성전자주식회사 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치
KR102519138B1 (ko) 2019-09-09 2023-04-06 포항공과대학교 산학협력단 번역문 품질 예측 모델 학습 장치 및 방법
CN111027331B (zh) 2019-12-05 2022-04-05 百度在线网络技术(北京)有限公司 用于评估翻译质量的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fomicheva, Marina, et al., Unsupervised quality estimation for neural machine translation., Transactions of the Association for Computational Linguistics 8, 2020*
Wang, Shuo, et al., Improving back-translation with uncertainty-based confidence estimation., arXiv preprint arXiv:1909.00157, 2019*

Also Published As

Publication number Publication date
KR20230071825A (ko) 2023-05-24

Similar Documents

Publication Publication Date Title
Han et al. Joint event and temporal relation extraction with shared representations and structured prediction
Wu et al. Sequence-to-dependency neural machine translation
Sasano et al. A discriminative approach to japanese zero anaphora resolution with large-scale lexicalized case frames
Tran et al. Neural metric learning for fast end-to-end relation extraction
US9779087B2 (en) Cross-lingual discriminative learning of sequence models with posterior regularization
KR20190059561A (ko) 기계 번역 방법 및 장치
EP3885963A1 (en) Method and apparatus for determining causality, electronic device and storage medium
US10061672B2 (en) Implementing random content of program loops in random test generation for processor verification
Del Barrio et al. Multispeculative addition applied to datapath synthesis
US20220237380A1 (en) Inferencer, inference method and inference program
JP2019036286A (ja) 文章のドメイン判断方法及び装置
Ak et al. Spatiotemporal prediction of infectious diseases using structured Gaussian processes with application to Crimean–Congo hemorrhagic fever
KR102409667B1 (ko) 기계 번역의 학습 데이터 구축을 위한 방법
Fu et al. Gpt4aigchip: Towards next-generation ai accelerator design automation via large language models
Wu et al. Learning disentangled semantic representations for zero-shot cross-lingual transfer in multilingual machine reading comprehension
KR20200025779A (ko) 문장 매핑 방법 및 장치
Yamaura et al. Neural automated essay scoring considering logical structure
Pal et al. Constructing flow graphs from procedural cybersecurity texts
KR102593447B1 (ko) 기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법
Wu et al. Improving low-resource machine transliteration by using 3-way transfer learning
Zhang et al. An association network for computing semantic relatedness
US20230161973A1 (en) Apparatus and method for outputting language model from which bias has been removed
KR101559651B1 (ko) 동적 분석 방법 및 장치
WO2021124489A1 (ja) 要約学習方法、要約学習装置及びプログラム
US20220004717A1 (en) Method and system for enhancing document reliability to enable given document to receive higher reliability from reader

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant