KR102327790B1

KR102327790B1 - 정보 처리 방법, 장치 및 저장 매체

Info

Publication number: KR102327790B1
Application number: KR1020207001087A
Authority: KR
Inventors: 시앙 리; 위후이 순; 시아오린 우; 지안웨이 추이
Original assignee: 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date: 2019-10-25
Filing date: 2019-12-04
Publication date: 2021-11-17
Also published as: JP7208968B2; JP2022511139A; RU2737112C1; CN110781689B; US20210124880A1; KR20210050484A; WO2021077559A1; EP3812951A1; US11461561B2; CN110781689A

Abstract

본문은 정보 처리 방법, 장치 및 저장 매체에 관한 것으로서, 상기 방법은, N 개의 오리지널 이중 언어 어휘쌍을 포함하는 이중 언어 어휘표를 획득하는 단계 - N은 양의 정수임 - ; 복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트를 획득하는 단계; 후보 이중 언어 문장쌍으로서, 오리지널 이중 언어 훈련 세트로부터 임의의 오리지널 이중 언어 어휘쌍에 매칭되는 적어도 하나의 오리지널 이중 언어 훈련 문장쌍을 선택하는 단계; 적어도 하나의 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하는 단계; 및 이중 언어 어휘표 및 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하는 단계를 포함한다. 이중 언어 어휘표에 새로운 어휘가 대량으로 포함되어 있고, 새로운 일반화된 이중 언어 문형이 대량으로 생성될 수 있으므로, 후보 이중 언어 문장쌍의 일반화를 구현할 수 있어, 오리지널 이중 언어 훈련 세트를 증대 처리하여, 내용이 풍부한 증대 이중 언어 훈련 세트를 얻고, 즉 대규모 고품질의 이중 언어 코퍼스를 얻을 수 있어, 이중 언어 코퍼스의 코퍼스 자원을 업데이트하고 풍부하게 할 수 있다.

Description

정보 처리 방법, 장치 및 저장 매체

본 출원은 출원번호가 201911025249.7이고, 출원일이 2019년 10월 25일인 중국 특허출원에 기반하여 제출된 것이며, 상기 중국 특허출원의 우선권을 주장하며, 상기 중국 특허출원의 전부 내용은 본 출원에 원용되어 참조된다.

본문은 기계 번역 분야에 관한 것이며, 특히 정보 처리 방법, 장치 및 저장 매체에 관한 것이다.

기계 번역은 기계 번역 모델을 통해 한 언어를 다른 한 언어로 자동 번역하는 기술로서 광범위한 학술 및 시장 응용 가치를 가지고 있다. 일반적으로, 이중 언어 병렬의 훈련 코퍼스 품질이 높을수록, 규모가 커지고, 필드 커버리지가 완전할수록, 훈련 코퍼스에 기반하여 훈련된 기계 번역 모델의 번역 품질이 높아진다. 이로부터 알 수 있다시피, 기계 번역 모델의 번역 품질은 주로 가용 이중 언어 데이터의 품질 및 개수에 따라 결정되지만, 현재 대규모 고품질의 이중 언어 데이터를 획득하는 것은 어렵다.

본문은 정보 처리 방법, 장치 및 저장 매체를 제공한다.

본문의 실시예의 제1 측면에 따르면, 정보 처리 방법을 제공하며,

N 개의 오리지널 이중 언어 어휘쌍을 포함하는 이중 언어 어휘표를 획득하는 단계 - 각 상기 오리지널 이중 언어 어휘쌍은 제1 언어로 표현된 제1 어휘 및 상기 제1 어휘와 동일한 의미를 갖는 제2 언어로 표현된 제2 어휘를 포함하며, N은 양의 정수임 - ;

복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트를 획득하는 단계 - 각 상기 오리지널 이중 언어 훈련 문장쌍은 제1 언어로 표현된 제1 훈련 문장 및 상기 제1 훈련 문장과 동일한 의미를 갖는 제2 언어로 표현된 제2 훈련 문장을 포함함 - ;

후보 이중 언어 문장쌍으로서, 상기 오리지널 이중 언어 훈련 세트로부터 상기 오리지널 이중 언어 어휘쌍과 매칭되는 적어도 하나의 오리지널 이중 언어 훈련 문장쌍을 선택하는 단계;

적어도 하나의 상기 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하는 단계; 및

상기 이중 언어 어휘표 및 상기 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하는 단계를 포함한다.

선택적으로, 상기 후보 이중 언어 문장쌍인 오리지널 이중 언어 훈련 문장쌍에 포함된 제1 훈련 문장은 적어도, 임의의 상기 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘를 포함하고;

상기 후보 이중 언어 문장쌍인 오리지널 이중 언어 훈련 문장쌍에 포함된 제2 훈련 문장은 적어도, 임의의 상기 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘와 동일한 의미를 갖는 제2 어휘를 포함한다.

선택적으로, 적어도 하나의 상기 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하는 단계는,

설정 조건에 따라, 상기 후보 이중 언어 문장쌍으로부터 M 개의 일반화될 이중 언어 문장쌍을 결정하는 단계 - M은 양의 정수임 - ; 및

M 개의 상기 일반화될 이중 언어 문장쌍에 기반하여, M 개의 일반화된 이중 언어 문형을 생성하는 단계를 포함하며,

상기 이중 언어 어휘표 및 상기 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하는 단계는,

M 개의 상기 일반화된 이중 언어 문형 및 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍에 따라, 복수 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하는 단계; 및

복수 개의 상기 증대 이중 언어 훈련 문장쌍에 기반하여, 상기 증대 이중 언어 훈련 세트를 얻는 단계를 포함한다.

선택적으로, 상기 설정 조건은,

상기 제1 훈련 문장의 문장 길이 및 상기 제2 훈련 문장의 문장 길이는 모두 설정 문장 길이 임계값보다 크거나 같은 것;

상기 제1 훈련 문장의 문장 길이 대 상기 제2 훈련 문장의 문장 길이의 비율은, 제1 설정 비율보다 크거나 같고, 제2 설정 비율보다 작거나 같은 것; 및

상기 제1 훈련 문장의 번역 정확률 및 상기 제2 훈련 문장의 번역 정확률은 모두 설정 정확률 임계값보다 큰 것 중 적어도 하나를 포함한다.

선택적으로, 상기 M 개의 상기 일반화될 이중 언어 문장쌍에 기반하여, M 개의 일반화된 이중 언어 문형을 생성하는 단계는,

M 개의 상기 일반화될 이중 언어 문장쌍에 포함된 K 개의 오리지널 이중 언어 어휘쌍을 K 개의 범용 이중 언어 어휘쌍으로 교체하여, M 개의 일반화된 이중 언어 문형을 생성하는 단계 - K는 양의 정수임 - 를 포함하고,

M 개의 상기 일반화된 이중 언어 문형 및 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍에 따라, 복수 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하는 단계는,

M 개의 상기 일반화된 이중 언어 문형 중의 각 상기 범용 이중 언어 어휘쌍을, 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍으로 각각 교체하여, K*N*M 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하는 단계를 포함한다.

선택적으로, 상기 범용 이중 언어 어휘는, 비종결 문자를 포함하고, 비종결 문자는 문장이 종결되지 않았음을 지시하기 위한 것이다.

선택적으로, 상기 방법은,

상기 증대 이중 언어 훈련 세트 및 오리지널 이중 언어 훈련 세트를 융합처리하여, 목표 이중 언어 훈련 세트를 얻는 단계; 및

상기 목표 이중 언어 훈련 세트에 기반하여, 모델 훈련을 진행하여, 목표 번역 모델을 얻는 단계를 더 포함하고,

상기 목표 번역 모델은, 상기 제1 언어 및 상기 제2 언어 사이의 문장의 번역을 진행하기 위한 것이다.

본문의 실시예의 제2 측면에 따르면, 정보 처리 장치를 제공하며,

N 개의 오리지널 이중 언어 어휘쌍을 포함하는 이중 언어 어휘표를 획득하도록 구성되는 제1 획득 모듈 - 각 상기 오리지널 이중 언어 어휘쌍은 제1 언어로 표현된 제1 어휘 및 상기 제1 어휘와 동일한 의미를 갖는 제2 언어로 표현된 제2 어휘를 포함하며, N은 양의 정수임 - ;

복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트를 획득하도록 구성되는 제2 획득 모듈 - 각 상기 오리지널 이중 언어 훈련 문장쌍은 제1 언어로 표현된 제1 훈련 문장 및 상기 제1 훈련 문장과 동일한 의미를 갖는 제2 언어로 표현된 제2 훈련 문장을 포함함 - ;

후보 이중 언어 문장쌍으로서, 상기 오리지널 이중 언어 훈련 세트로부터 상기 오리지널 이중 언어 어휘쌍과 매칭되는 적어도 하나의 오리지널 이중 언어 훈련 문장쌍을 선택하도록 구성되는 선택 모듈;

적어도 하나의 상기 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하도록 구성되는 구축 모듈; 및

상기 이중 언어 어휘표 및 상기 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하도록 구성되는 제3 획득 모듈을 포함한다.

선택적으로, 상기 구축 모듈은,

설정 조건에 따라, 상기 후보 이중 언어 문장쌍으로부터 M 개의 일반화될 이중 언어 문장쌍을 결정하고 - M은 양의 정수임 - ;

M 개의 상기 일반화될 이중 언어 문장쌍에 기반하여, M 개의 일반화된 이중 언어 문형을 생성하도록 구성되며;

제3 획득 모듈은,

복수 개의 상기 증대 이중 언어 훈련 문장쌍에 기반하여, 상기 증대 이중 언어 훈련 세트를 얻도록 구성된다.

선택적으로, 상기 설정 조건은,

선택적으로, 상기 구축 모듈은,

제3 획득 모듈은,

선택적으로, 상기 장치는,

상기 증대 이중 언어 훈련 세트 및 오리지널 이중 언어 훈련 세트를 융합처리하여, 목표 이중 언어 훈련 세트를 얻도록 구성되는 융합 모듈; 및

상기 목표 이중 언어 훈련 세트에 기반하여, 모델 훈련을 진행하여, 목표 번역 모델을 얻도록 구성되는 훈련 모듈을 더 포함하며,

본문의 실시예의 제3 측면에 따르면, 정보 처리 장치를 제공하며,

프로세서; 및

프로세서 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하고,

여기서, 상기 프로세서는, 실행될 때 상기 제1 측면에서의 정보 처리 방법의 단계를 구현하도록 구성된다.

본문의 실시예의 제4 측면에 따르면, 비일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 저장 매체의 명령어가 정보 처리 장치의 프로세서에 의해 실행될 때, 상기 장치로 하여금 상기 제1 측면에서의 정보 처리 방법을 실행할 수 있도록 한다.

본문의 실시예에서 제공한 기술방안은 다음의 유익한 효과를 포함할 수 있다.

상기 기술방안으로부터 알 수 있다시, 본 발명은 오리지널 이중 언어 어휘쌍이 포함된 이중 언어 어휘표를 통해, 복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트로부터, 오리지널 이중 언어 어휘쌍이 포함된 후보 이중 언어 문장쌍을 획득하고, 적어도 하나의 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하여, 이중 언어 어휘표 및 일반화된 이중 언어 문형을 통해, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득한다. 본 발명의 기술방안에 있어서, 이중 언어 어휘표에 새로운 어휘가 대량으로 포함되어 있고, 새로운 일반화된 이중 언어 문형이 대량으로 생성될 수 있으므로, 구현 과정에서, 후보 이중 언어 문장쌍의 일반화를 구현할 수 있어, 오리지널 이중 언어 훈련 세트를 증대 처리하여, 내용이 풍부한 증대 이중 언어 훈련 세트를 얻고, 즉 대규모 고품질의 이중 언어 코퍼스를 얻을 수 있어, 이중 언어 코퍼스의 코퍼스 자원을 업데이트하고 풍부하게 할 수 있다.

이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적일 뿐이며, 본 발명을 한정하지 못한다.

본문의 도면은 본 명세서에 포함되어 본 명세서의 일부를 구축하며, 본 발명에 부합되는 실시예를 도시하고, 명세서와 함께 본 발명의 원리의 해석에 사용된다.
도 1은 일 예시적 실시예에 따라 도시된 정보 처리 방법의 흐름도 1이다.
도 2는 일 예시적 실시예에 따라 도시된 정보 처리 방법의 흐름도 2이다.
도 3은 일 예시적 실시예에 따라 도시된 정보 처리 장치 블록도이다.
도 4는 일 예시적 실시예에 따라 도시된 정보 처리 장치의 하드웨어 구조 블록도이다.

아래에 예시적 실시예에 대해 상세히 설명하며, 그 예는 도면에 도시된다. 아래의 설명은 도면을 참조할 때, 달리 의미하지 않는 한, 상이한 도면에서 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 아래의 예시적 실시예에서 설명된 실시형태는 본 발명과 일치하는 모든 실시형태를 나타내는 것은 아니다. 반면, 이들은 첨부된 청구범위에 속하는 상세히 기술된, 본문의 일부 측면과 일치한 장치 및 방법의 예일 뿐이다.

도 1은 일 예시적 실시예에 따라 도시된 정보 처리 방법의 흐름도 1이며, 도 1에 도시된 바와 같이, 상기 방법은 다음의 단계들을 포함한다.

단계 101에 있어서, N 개의 오리지널 이중 언어 어휘쌍을 포함하는 이중 언어 어휘표를 획득하고, 각 오리지널 이중 언어 어휘쌍은 제1 언어로 표현된 제1 어휘 및 제1 어휘와 동일한 의미를 갖는 제2 언어로 표현된 제2 어휘를 포함하며, N은 양의 정수이다.

단계 102에 있어서, 복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트를 획득하고, 각 오리지널 이중 언어 훈련 문장쌍은 제1 언어로 표현된 제1 훈련 문장 및 제1 훈련 문장과 동일한 의미를 갖는 제2 언어로 표현된 제2 훈련 문장을 포함한다.

단계 103에 있어서, 후보 이중 언어 문장쌍으로서, 오리지널 이중 언어 훈련 세트로부터 임의의 오리지널 이중 언어 어휘쌍에 매칭되는 적어도 하나의 오리지널 이중 언어 훈련 문장쌍을 선택한다.

단계 104에 있어서, 적어도 하나의 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축한다.

단계 105에 있어서, 이중 언어 어휘표 및 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득한다.

여기서, 어휘의 카테고리 및 분야에 기반하여, 대량의 상기 카테고리 및 분야의 이중 언어 어휘를 수동으로 태깅하여, 사람의 이름과 관련되는 이중 언어 어휘쌍을 결정하는 것과 같이 오리지널 이중 언어 어휘쌍을 얻는다. 여기서, 오리지널 이중 언어 어휘쌍은 제1 언어로 표현된 제1 어휘 및 상기 제1 어휘와 동일한 의미를 갖는 제2 언어로 표현된 제2 어휘를 포함하며, 예를 들어, 제1 언어는 중국어이고, 제1 어휘는 "장삼"이면, 제2 언어는 영어이며, 제2 어휘는 "zhang san"이다.

오리지널 이중 언어 어휘쌍을 얻은 다음, 오리지널 이중 언어 어휘쌍에 기반하여, 이중 언어 어휘표를 구축할 수 있다. 표 1에 표시된 바와 같이, 표 1은 본문에 표시된 이중 언어 어휘표이고, 표 1에는 3 개의 오리지널 이중 언어 어휘쌍이 포함되어 있고, 여기서, 첫 번째 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘는 "장삼"이고, 제2 어휘는 "zhang san"이며; 두 번째 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘는 "이XX, 제2 어휘는 "li XX"; 세 번째 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘는 "쇼훙"이고, 제2 어휘는 "xiao hong"이다.

[표 1] 이중 언어 어휘표

여기서, 이중 언어 어휘표는 특정 분야에 대해 수동으로 태깅을 진행하여 얻을 수 있으며, 이중 언어 어휘표는, 상기 특정 분야 내의 미등록 단어, 저빈도 단어, 고빈도 단어를 포함한다. 이중 언어 어휘의 선택의 자유도가 높으므로, 여기서, 고빈도 단어는 주로 더 많은 이중 언어 문형을 찾기 위한 것이고, 저빈도 단어는 주로 데이터를 보충하기 위한 것이며, 미등록 단어는 이중 언어 어휘표에 없는 단어를 의미하고, 예컨대, 이중 언어 어휘표가 어휘 a, 어휘 b, 어휘 c를 포함하면, 어휘 d는 미등록 단어이며, 미등록 단어는 세트에 속하지 않는 단어라고도 할 수 있다.

본문의 실시예에서, 이중 언어 어휘표의 오리지널 이중 언어 어휘쌍에 기반하여, 복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트로부터, 임의의 오리지널 이중 언어 어휘쌍이 포함된 오리지널 이중 언어 훈련 문장쌍을 획득할 수 있다. 예를 들어, 이중 언어 어휘표의 오리지널 이중 언어 어휘쌍에 기반하여, 오리지널 이중 언어 훈련 세트로부터 상기 오리지널 이중 언어 어휘쌍에 매칭되는 오리지널 이중 언어 훈련 문장쌍을 검색할 수 있고, 검색된 오리지널 이중 언어 훈련 문장쌍을, 후보 이중 언어 문장쌍으로서 사용한다. 예를 들어, 상기 이중 언어 어휘표의 오리지널 이중 언어 어휘쌍에 기반하여 오리지널 이중 언어 훈련 세트에 포함된 오리지널 이중 언어 훈련 문장쌍과 매칭을 진행하며, 매칭결과에 따라, 오리지널 이중 언어 어휘쌍이 포함된 오리지널 이중 언어 훈련 문장쌍을 얻고, 오리지널 이중 언어 어휘쌍이 포함된 오리지널 이중 언어 훈련 문장쌍을, 후보 이중 언어 문장쌍으로서 사용한다.

표 2에 표시된 바와 같이, 표 2는 본문에 표시된 오리지널 이중 언어 훈련 세트이고, 표 2의 오리지널 이중 언어 훈련 세트는 3 개의 오리지널 이중 언어 훈련 문장쌍을 포함하고, 각 오리지널 이중 언어 훈련 문장쌍은 모두 제1 언어로 표현된 제1 훈련 문장 및 상기 제1 훈련 문장과 동일한 의미를 갖는 제2 언어로 표현된 제2 훈련 문장을 포함한다.

[표 2] 오리지널 이중 언어 훈련 세트

본문의 실시예에서, 이중 언어 어휘표에 기반하여 후보 이중 언어 문장쌍을 획득하는 과정에서, 이중 언어 어휘표의 오리지널 이중 언어 어휘쌍을 오리지널 이중 언어 훈련 세트의 오리지널 이중 언어 훈련 문장쌍과 각각 비교할 수 있으며, 비교하는 동안, 제1 언어의 제1 어휘를 제1 언어의 제1 훈련 문장과 비교하고, 제2 언어의 제2 어휘를 제2 언어의 제2 훈련 문장과 비교한다.

표 1의 제1 어휘를 표 2의 제1 훈련 문장과 비교하는 경우, 표 1에 표시된 이중 언어 어휘표의 "장삼"을 표 2의 "이XX는 중국이 경제 회복의 중요한 시기에 있음을 지적하면서 안정적인 조세 정책을 유지하는 것의 중요성을 강조했습니다.", "동관 과학 박물관 근처에 주차하는 방법을 알고 싶습니다." 및 "각 꽃은 독특한 의미가 있습니다." 와 각각 비교할 수 있으며, 표 2에 "장삼"과 매칭되는 사람 이름이 포함되어 있지 않으므로, 상기 오리지널 이중 언어 훈련 세트의 오리지널 이중 언어 훈련 문장쌍은 오리지널 이중 언어 어휘쌍을 포함하지 않음을 의미한다.

표 1에 표시된 이중 언어 어휘표의 "이XX"을 표 2의"이XX는 중국이 경제 회복의 중요한 시기에 있음을 지적하면서 안정적인 조세 정책을 유지하는 것의 중요성을 강조했습니다.", "동관 과학 박물관 근처에 주차하는 방법을 알고 싶습니다." 및 "각 꽃은 독특한 의미가 있습니다." 와 각각 비교할 경우, 표 2에 "이XX"와 매칭되는 사람 이름이 포함되어 있으므로, 상기 오리지널 이중 언어 훈련 세트의 오리지널 이중 언어 훈련 문장쌍은 오리지널 이중 언어 어휘쌍을 포함함을 의미한다.

이중 언어 어휘표의 오리지널 이중 언어 어휘쌍을 오리지널 이중 언어 훈련 세트의 오리지널 이중 언어 훈련 문장쌍과 비교하기 전에, 오리지널 이중 언어 훈련 세트의 오리지널 이중 언어 훈련 문장쌍에 대한 단어 구분이 필요하다. 표 3은 본문에 표시된 단어 구분표이며, 표 3에 표시된 바와 같이, 오리지널 이중 언어 훈련 세트의 오리지널 이중 언어 훈련 문장쌍에 대해 단어 속성에 따라 구분할 수 있어, 구분 후의 각 단어가 모두 완전한 의미를 갖도록 한다.

[표 3] 단어 구분표

본문의 실시예에서, 오리지널 이중 언어 훈련 세트의 오리지널 이중 언어 훈련 문장쌍에 대해 단어 구분을 진행한 이후, 순회 방식을 통해, 이중 언어 어휘표의 오리지널 이중 언어 어휘쌍에 기반하여 오리지널 이중 언어 훈련 세트의 오리지널 이중 언어 훈련 문장쌍에 대해 검색을 진행하며, 후보 이중 언어 문장쌍을 얻는다.

예를 들어, 표 1의 "이XX"에 기반하여, 표 3으로부터 "이XX는, 중국이, 경제, 회복의, 중요한, 시기에, 있음을, 지적하면서, 안정적인, 조세, 정책을, 유지하는, 것의, 중요성을, 강조했습니다."를 결정할 수 있으며, 이에 대응하여, 표 1의 "li XX"에 기반하여, 표 3으로부터 "li XX also stressed the importance of maintaining a stable tax policy, pointing out that china is in a critical period of economic recovery."를 결정할 수 있으면, 이중 언어 어휘표에 기반하여, 후보 이중 언어 문장쌍으로서, 오리지널 이중 언어 훈련 세트로부터 임의의 오리지널 이중 언어 어휘쌍에 매칭되는 적어도 하나의 오리지널 이중 언어 훈련 문장쌍을 선택할 수 있음을 의미한다.

후보 이중 언어 문장쌍을 결정한 이후, 적어도 하나의 상기 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축한다. 여기서, 일반화된 이중 언어 문형을 생성하기 위해, 후보 이중 언어 문장쌍에 포함된 오리지널 이중 언어 어휘쌍을 범용 이중 언어 어휘쌍으로 교체할 수 있다. 예를 들어, "이XX"에 기반하여, 표 3으로부터 "이XX는, 중국이, 경제, 회복의, 중요한, 시기에, 있음을, 지적하면서, 안정적인, 조세, 정책을, 유지하는, 것의, 중요성을, 강조했습니다."를 후보 이중 언어 문장쌍의 문장으로 결정할 경우, 그 중 "이XX"을 "<X1>"으로 교체할 수 있으며, 여기서, <X1>은 범용 이중 언어 어휘일 수 있고, 다른 사람 이름일 수도 있으며, <X1>의 단어 속성은 "이XX"와 동일할 수 있다. 바람직하게, <X1> 및 "이XX"를 전체 문형에 영향을 미치지 않도록 정렬될 수 있어야 한다.

범용 이중 언어 어휘를 기반으로, 후보 이중 언어 문장쌍에서 오리지널 이중 언어 어휘쌍을 교체하는 것을 예로 들면, 범용 이중 언어 어휘에 기반하여 교체를 진행한 이후, 대응되는 일반화된 이중 언어 문형을 얻을 수 있으며, 이로써, 일반화된 이중 언어 문형 중 범용 이중 언어 어휘를 다른 이름으로 교체하는 방식을 통해, 대량의 증대 이중 언어 훈련 문장쌍 및 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 얻을 수 있어, 이중 언어 코퍼스의 코퍼스 자원을 풍부하게 할 수 있다.

본문의 실시예에 있어서, 이중 언어 어휘표에 새로운 어휘가 대량으로 포함되어 있고, 새로운 일반화된 이중 언어 문형이 대량으로 생성될 수 있으므로, 구현 과정에서, 후보 이중 언어 문장쌍의 일반화를 구현할 수 있어, 오리지널 이중 언어 훈련 세트를 증대 처리하여, 내용이 풍부한 증대 이중 언어 훈련 세트를 얻고, 즉 대규모 고품질의 이중 언어 코퍼스를 얻을 수 있어, 이중 언어 코퍼스의 코퍼스 자원을 업데이트하고 풍부하게 할 수 있다.

다른 선택적인 실시예에 있어서, 후보 이중 언어 문장쌍으로서의 오리지널 이중 언어 훈련 문장쌍에 포함된 제1 훈련 문장은 적어도, 임의의 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘를 포함하고;

후보 이중 언어 문장쌍으로서의 오리지널 이중 언어 훈련 문장쌍에 포함된 제2 훈련 문장은 적어도, 임의의 상기 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘와 동일한 의미를 갖는 제2 어휘를 포함한다.

예를 들어, 표 1의 "이XX"에 기반하여, 표 3으로부터 "이XX는, 중국이, 경제, 회복의, 중요한, 시기에, 있음을, 지적하면서, 안정적인, 조세, 정책을, 유지하는, 것의, 중요성을, 강조했습니다."를 결정할 수 있으며, 이에 대응하여, 표 1의 "li XX"에 기반하여, 표 3으로부터 "li XX also stressed the importance of maintaining a stable tax policy, pointing out that china is in a critical period of economic recovery."를 결정할 수 있으며, 여기서, "이XX"는 임의의 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘이고, "li XX"는 임의의 오리지널 이중 언어 어휘쌍에 포함된 제2 어휘이며, 표 3으로부터 2 개의 문장은 각각 후보 이중 언어 문장쌍에 포함된 제1 훈련 문장 및 후보 이중 언어 문장쌍에 포함된 제2 훈련 문장인 것을 결정한다. 여기서, 이중 언어 어휘표의 오리지널 이중 언어 어휘쌍을 통해, 오리지널 이중 언어 훈련 세트 중의 오리지널 이중 언어 훈련 문장으로부터, 후보 이중 언어 문장쌍을 결정하고, 사용자가 요구하는 후보 이중 언어 문장쌍을 정확하게 결정하여, 정확한 일반화된 이중 언어 문형을 얻을 수 있다.

다른 선택적인 실시예에 있어서, 적어도 하나의 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하는 단계는,

설정 조건에 따라, 후보 이중 언어 문장쌍으로부터 M 개의 일반화될 이중 언어 문장쌍을 결정하는 단계 - M은 양의 정수임 - ; 및

M 개의 일반화될 이중 언어 문장쌍에 기반하여, M 개의 일반화된 이중 언어 문형을 생성하는 단계를 포함하며,

이중 언어 어휘표 및 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하는 단계는,

M 개의 일반화된 이중 언어 문형 및 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍에 따라, 복수 개의 증대 이중 언어 훈련 문장쌍을 생성하는 단계; 및

복수 개의 증대 이중 언어 훈련 문장쌍에 기반하여, 증대 이중 언어 훈련 세트를 얻는 단계를 포함한다.

다른 선택적인 실시예에 있어서, 상기 설정 조건은,

여기서, 제1 훈련 문장의 문장 길이 및 제2 훈련 문장의 문장 길이는 상기 제1 훈련 문장 및 제2 훈련 문장에 대해 단어 구분을 진행한 이후, 제1 훈련 문장 및 제2 훈련 문장에 포함된 단어의 개수를 의미한다. 예를 들어, 후보 이중 언어 문장쌍에 포함된 제1 훈련 문장에 대해 단어 구분을 진행하면, 구분 후에 얻은 단어 개수는 상기 제1 훈련 문장의 문장 길이로서 사용될 수 있다.

제1 훈련 문장이 "이XX는 중국이 경제 회복의 중요한 시기에 있음을 지적하면서 안정적인 조세 정책을 유지하는 것의 중요성을 강조했습니다."인 것을 예로 들어, 구분 후의 제1 훈련 문장은 "이XX는, 중국이, 경제, 회복의, 중요한, 시기에, 있음을, 지적하면서, 안정적인, 조세, 정책을, 유지하는, 것의, 중요성을, 강조했습니다."이며, 그러면, 상기 제1 훈련 문장의 문장 길이는 20이다. 구현 과정에서, 문장에서의 단어는 분할 부호 또는 공백 문자에 의해 구분될 수 있다.

본문의 실시예에서, 설정 문장 길이 임계값, 제1 설정 비율, 제2 설정 비율 및 설정 정확률 임계값은 모두 필요에 따라 설정될 수 있으며, 예를 들어, 설정 문장 길이 임계값을 10으로, 제1 설정 비율을 1/5로, 제2 설정 비율을 5로, 설정 정확률 임계값을 0.25로 설정할 수 있다.

여기서, 제1 훈련 문장 및 제2 훈련 문장의 하한을 설정함으로써, 획득된 일반화될 이중 언어 문장쌍에 포함된 문장이 모두 문구 또는 단어가 아닌 긴 문장임을 보장할 수 있고, 이로써, 데이터 처리의 효율과 효과를 향상시킬 수 있다.

제1 훈련 문장 및 제2 훈련 문장은 동일한 의미를 갖지만, 언어가 상이하므로, 제1 훈련 문장 및 제2 훈련 문장을 대역할 때, 번역된 문장 길이의 비율은 설정 범위 내에 있으며, 설정 범위 내에 있지 않으면, 상기 훈련 문장에 대응하는 코퍼스 데이터는 부정확할 수 있으며, 본문의 실시예에서, 제1 훈련 문장 및 제2 훈련 문장의 비율 범위를 설정함으로써, 코퍼스 데이터의 정확성을 보장할 수 있다. 제1 훈련 문장 및 제2 훈련 문장의 번역 정확률을 획득하고, 번역 정확률이 설정 정확률 임계값보다 높은 경우에만, 상기 제1 훈련 문장 및 제2 훈련 문장을 포함하는 코퍼스 데이터를 유효한 코퍼스 데이터로 간주하며, 코퍼스 데이터의 정확도를 더욱 향상시킬 수 있다.

본문의 실시예에서, 설정 조건에 따라 후보 이중 언어 문장쌍으로부터 M 개의 일반화될 이중 언어 문장쌍을 결정하고, 일반화될 이중 언어 문장쌍을 선별하기 위한 조건을 제한함으로써, 부정확한 데이터를 검색할 확률을 감소시킬 수 있어, 얻은 일반화될 이중 언어 문장쌍의 정확도를 향상시킨다.

다른 선택적인 실시예에 있어서, M 개의 일반화될 이중 언어 문장쌍에 따라, M 개의 일반화된 이중 언어 문형을 생성하는 단계는,

M 개의 일반화될 이중 언어 문장쌍에 포함된 K 개의 오리지널 이중 언어 어휘쌍을 K 개의 범용 이중 언어 어휘쌍으로 교체하여, M 개의 일반화된 이중 언어 문형을 생성하는 단계 - K는 양의 정수임 - 를 포함하고,

M 개의 일반화된 이중 언어 문형 및 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍에 따라, 복수 개의 증대 이중 언어 훈련 문장쌍을 생성하는 단계는,

M 개의 일반화된 이중 언어 문형에서 각 범용 이중 언어 어휘쌍을, 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍으로 각각 교체하여, K*N*M 개의 증대 이중 언어 훈련 문장쌍을 형성하는 단계를 포함한다.

여기서, M 개의 일반화될 이중 언어 문장쌍에 포함된 K 개의 오리지널 이중 언어 어휘쌍을 K 개의 범용 이중 언어 어휘쌍으로 교체함으로써, K 개의 범용 이중 언어 어휘쌍을 각각 포함하는 M 개의 일반화된 이중 언어 문형을 생성하며, M 개의 일반화된 이중 언어 문형에서 다양한 타입의 단어 속성에 대한 어휘 교체를 구현해야 하는 경우에도, 아주 잘 호환될 수 있으며, 예컨대, 명사 교체를 진행할 수도 있고, 동사 교체를 진행할 수도 있는 M 개의 일반화된 이중 언어 문형을 생성할 수 있다.

M 개의 일반화된 이중 언어 문형 중의 각 상기 범용 이중 언어 어휘쌍을, 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍으로 각각 교체하면, K*N*M 개의 상기 증대 이중 언어 훈련 문장쌍을 생성할 수 있다.

이로써, 더욱 많은 일반화된 이중 언어 문형을 얻을 수 있으며, 일반화된 이중 언어 문형 중의 교체 문자를 이중 언어 어휘표의 오리지널 이중 언어 어휘쌍으로 교체할 때, 더 많은 이중 언어 코퍼스 데이터를 얻을 수 있으며, 데이터 획득의 유연성과 다양성을 향상시킬 수 있다.

M=1인 경우, 즉 하나의 일반화될 이중 언어 문장쌍만이 존재하고, 상기 일반화될 이중 언어 문장쌍에는 K 개의 오리지널 이중 언어 어휘가 포함되면, K 개의 범용 이중 언어 어휘에 기반하여 상기 K 개의 오리지널 이중 언어 어휘를 교체할 수 있으며, 하나의 일반화된 이중 언어 문형을 생성할 수 있다. 이로써, N*K 개의 증대 이중 언어 훈련 문장쌍을 생성하기 위해, 일반화된 이중 언어 문형에서 각 범용 이중 언어 어휘를, 이중 언어 어휘표의 N 개의 오리지널 이중 언어 어휘로 교체할 수 있다.

본문의 실시예에서, 일반화될 이중 언어 문장쌍의 오리지널 이중 언어 어휘쌍을 상기 일반화될 이중 언어 문장쌍에서 다른 어휘와 구별되는 범용 이중 언어 어휘로 교체함으로써, 상기 범용 이중 언어 어휘를 신속하게 찾고, 상기 범용 이중 언어 어휘에 대해 상응한 처리를 진행하는 것에 있어서 용이하다. 예를 들어, 일반화될 이중 언어 문장쌍에서 다른 어휘와 동일한 단어 속성을 갖는 범용 이중 언어 어휘쌍으로, 일반화될 이중 언어 문장쌍의 오리지널 이중 언어 어휘쌍을 교체할 수 있으며, 이로써, 상기 범용 이중 언어 어휘쌍 및 일반화될 이중 언어 문장쌍에 원래부터 존재하는 다른 어휘에 기반하여 완전한 문장쌍을 형성할 수 있으며, 데이터 처리 효율을 향상시키는 기초상, 새로 증가된 범용 이중 언어 어휘와 일반화된 이중 언어 문형 간의 호환되지 않는 경우를 감소시킬 수 있다.

본문의 실시예에 있어서, 이중 언어 어휘표와 일반화될 이중 언어 문장쌍을 통해, 일반화된 이중 언어 문형을 생성하며, 이중 언어 어휘표의 오리지널 이중 언어 어휘쌍에 기반하여 상기 일반화될 이중 언어 문형에 대해, 일반화 및 증대 처리를 진행함으로써, 대규모의 증대 이중 언어 훈련 문장쌍을 얻을 수 있어, 증대 이중 언어 훈련 세트를 생성하며, 이중 언어 어휘표 및 일반화될 이중 언어 문장쌍에 기반한 데이터는 모두 정확한 선별을 통해 얻은 것이며, 증대 이중 언어 훈련 세트의 데이터 품질을 향상시킬 수도 있다.

본문의 실시예에서, 상기 범용 이중 언어 어휘는 상기 제1 언어 및 제2 언어의 어휘 인식을 방해하지 않는 문자 및 문자의 조합이다. 예를 들어, 범용 이중 언어 어휘는 제1 언어 및 제2 언어 이외의 언어의 문자 또는 문자 조합일 수도 있다.

다른 선택적인 실시예에 있어서, 범용 이중 언어 어휘는, 비종결 문자를 포함하며, 여기서, 비종결 문자는, 문장이 종결되지 않았음을 나타내기 위한 것이다.

여기서, 범용 이중 언어 어휘를 비종결 문자로 설정함으로써, 상기 범용 이중 언어 어휘를 사용하여 제1 이중 언어 코퍼스 데이터의 제1 이중 언어 어휘를 교체할 때, 범용 이중 언어 어휘가 전체 문장의 속성에 대한 영향을 감소시킬 수 있어, 얻은 제2 이중 언어 예상 데이터의 정확도를 더욱 향상시킬 수 있다.

다른 선택적인 실시예에서, 상기 방법은,

증대 이중 언어 훈련 세트 및 오리지널 이중 언어 훈련 세트를 융합 처리하여, 목표 이중 언어 훈련 세트를 얻는 단계; 및

목표 이중 언어 훈련 세트에 기반하여, 모델 훈련을 진행하여, 목표 번역 모델을 얻는 단계를 더 포함하고,

여기서, 목표 번역 모델은, 제1 언어 및 제2 언어 사이의 코퍼스 데이터의 번역을 진행하기 위한 것이다.

다른 선택적인 실시예에서, 제1 이중 언어 어휘 및 제2 이중 언어 어휘의 단어 속성은 명사이다.

여기서, 증대 이중 언어 훈련 세트 및 오리지널 이중 언어 훈련 세트에 대해 융합 처리하여, 목표 이중 언어 훈련 세트를 얻은 이후, 설정된 기계 번역 모델에 기반하여, 하나의 새로운 기계 번역 모델을 훈련시킴으로써, 기계 번역 모델의 번역 품질을 개선한다.

다른 선택적인 실시예에 있어서, 제1 어휘 및 제2 어휘의 단어 속성은 명사, 형용사, 동사, 부사 등일 수 있으며, 여기서 특별히 한정하지 않는다.

도 2는 일 예시적 실시예에 따라 도시된 정보 처리 방법의 흐름도 2이며, 도 2에 도시된 바와 같이, 상기 방법은 다음의 단계를 포함한다.

단계 201에 있어서, 이중 언어 어휘표를 구축한다.

여기서, 엔티티 어휘를 명명하여 발생하는 번역 오류를 기반으로, 상기 엔티티 어휘의 카테고리 및 분야을 결정하고, 상기 엔티티 어휘에 대응되는 이중 언어 어휘쌍을 결정하며, 예를 들어, 수동으로 많은 상기 분야의 이중 언어 어휘쌍을 태깅하여

, 상기 이중 언어 어휘쌍에 따라 이중 언어 어휘표를 구축하며, 여기서,

는 이중 언어 어휘표에 포함된 이중 언어 어휘쌍을 의미하고,

은 첫 번째 제1 언어의 이중 언어 어휘를 의미하며,

은 첫 번째 제2 언어의 이중 언어 어휘를 의미하며,

는 i 번째 제1 언어의 이중 언어 어휘를 의미하며,

는 i 번째 제2 언어의 이중 언어 어휘를 의미하며,

은 n 번째 제1 언어의 이중 언어 어휘를 의미하며,

은 n 번째 제2 언어의 이중 언어 어휘를 의미하며, i 및 n은 양의 정수이다.

엔티티 어휘가 사람 이름인 것을 예로 들면, 기존의 이중 언어 데이터에 사람 이름 엔티티에 대한 커버리지가 제한되어 있어, 상기 이중 언어 데이터 훈련에 기반한 기계 번역 모델은 입력된 사람 이름을 정확하게 번역할 수 없으므로, 잘못된 번역 결과가 발생하는데, 이때, 사용자 피드백의 번역 오류에 따라, 많은 양의 이중 언어 사람 이름을 수집할 수 있으며, 사람 이름에 기반한 이중 언어 사전, 즉 표 4에 표시된 바와 같이, 사람 이름에 기반한 이중 언어 어휘를 생성하며, 표 4는 본문에 표시된 사람 이름 이중 언어 사전이며, 여기서, "이XX|||LiXX"는 고빈도 이중 언어 어휘에 속하는 동시에, 또한 사람 이름 카테고리에 속하며, 여기서, "|||"는 분할 부호이다. 이중 언어 사전을 구축할 때, 훈련 데이터에서 미등록 단어 및 저빈도 단어 외에도, 상기 카테고리의 고빈도 어휘를 동시에 추가할 수 있으므로, 후속적으로 오리지널 이중 언어 훈련 세트로부터 관련 이중 언어 문형을 검색하는데 사용된다.

[표 4] 사람 이름 이중 언어 사전

단계 202에 있어서, 일반화된 이중 언어 문형을 구축한다.

여기서, 단계 201에서 수집한 특정 분야의 이중 언어 어휘쌍에 따라, 오리지널 이중 언어 훈련 세트

로부터 매칭된 후보로부터 매칭된 후보 이중 언어 문장쌍을 자동으로 검색한 다음, 후보 이중 언어 문장쌍에 기반하여 일반화될 이중 언어 문장쌍을 얻고, 설정 규칙을 통해 높은 가용성의 이중 언어로 정렬된 비종결 부호가 포함된 일반화된 이중 언어 문형을 얻으며, 여기서,

은 첫 번째 제1 언어의 제1 훈련 문장을 의미하고,

은 첫 번째 제2 언어의 제2 훈련 문장을 의미하며;

은 m 번째 제1 언어의 제1 훈련 문장을 의미하고,

은 m 번째 제2 언어의 제2 훈련 문장을 의미하며, m은 양의 정수이다. 예를 들면 다음과 같다.

(1) 중국어-영어 이중 언어 데이터를 예로 들면, 표 5에 표시된 바와 같이, 표 5는 본문에 표시된 오리지널 이중 언어 훈련 세트이고, 오리지널 이중 언어 훈련 세트 D가 총 5 개의 오리지널 이중 언어 훈련 문장쌍을 포함한다고 가정하면 다음과 같다.

[표 5]오리지널 이중 언어 훈련 세트

(2) 오리지널 이중 언어 훈련 세트 D에서 중국어 언어 문장(제1 훈련 문장) 및 영어 목표 언어문장(제2 훈련 문장)에 대해 단어 세그먼트를 진행하고, 표 6에 표시된 바와 같이, 표 6은 본문에 표시된 세그먼트 후의 오리지널 이중 언어 훈련 세트표이며, 세그먼트 후의 오리지널 이중 언어 훈련 세트는 다음과 같다.

[표 6] 세그먼트 후의 오리지널 이중 언어 훈련 세트표

(3) 이중 언어 어휘표 lex 중의 각 이중 언어 어휘

를 순회하며, 여기서 lex는 이중 언어 어휘표를 의미하고,

는 이중 언어 어휘표의 이중 언어 어휘를 의미하며,

는 i 번째 제1 언어의 이중 언어 어휘를 의미하고,

는 i 번째 제2 언어의 이중 언어 어휘를 의미하며, 오리지널 이중 언어 훈련 세트 D로부터 이중 언어 문장쌍

을 검색하고, 여기서

는 오리지널 이중 언어 훈련 세트 D로부터 검색된 이중 언어 문장쌍을 의미하고, x₁은 첫 번째 제1 언어의 제1 훈련 문장을 의미하며, y₁은 첫 번째 제2 언어의 제2 훈련 문장을 의미하고, x_s는 제s조 제1 언어의 제1 훈련 문장을 의미하며, y_s는 제s조 제2 언어의 제2 훈련 문장을 의미하고, 여기서,

는 설정 조건을 만족하며, 상기 설정 조건은 다음 중 적어도 하나를 포함한다.

a) x_i및 y_i의 문장 길이는 모두 10보다 작지 않다.

b) x_i는 하나의

를 포함하고, y_i도 하나의

를 포함한다.

c) x_i및 y_i의 문장 길이 비율은 5보다 크지 않고 1/5보다 작지 않다.

d) x_i및 y_i는 최대로 하나의 이중 언어 어휘쌍에 매칭된다.

e) 기존의 소스 언어문장에서 목표 언어문장까지의 기계 번역 모델

및 역방향의 목표 언어에서 소스 언어까지의 기계 번역 모델

에 따라, x_i에 대해 번역을 수행하여 대응하는 번역문

를 획득하고, y_i에 대해 번역을 수행하여 대응하는 번역문

를 획득한 다음, 이중 언어 대역 품질 평가 보조 도구(Bilingual Evaluation Understudy, BLEU)를 사용하여

및

를 각각 평가하고, 번역 정확률

및

를 획득하고,

및

는 모두 0.25보다 크다. 여기서, x_i는 i 번째 제1 언어의 제1 훈련 문장을 의미하고, y_i는 i 번째 제2 언어의 제2 훈련 문장을 의미한다.

표 7은 본문에 표시된 일반화될 이중 언어 문장쌍 표이며, 표 7에 표시된 바와 같이, 상기 설정 조건에 기반하여, 이중 언어 어휘표 lex에 따라, 오리지널 이중 언어 훈련 세트 D로부터 획득한 조건에 부합되는 일반화될 이중 언어 문장쌍

은 아래의 경우를 포함한다.

[표 7] 일반화될 이중 언어 문장쌍 표

(4) 표 8은 본문에 표시된 일반화된 이중 언어 문형이고, 표 8에 표시된 바와 같이,

중의 각 이중 언어 문장쌍에 대해, 비종결 부호 어휘 "<X1>"을 사용하여 소스 언어 문장 및 목표 언어 문장에서 매칭된 어휘를 교체할 수 있음으로써, 일반화 능력을 구비한 일반화된 이중 언어 문형

을 획득할 수 있으며,

은 아래의 경우를 포함한다.

[표 8] 일반화된 이중 언어 문형

표 9는 본문에 도시된 일반화 능력을 구비한 이중 언어 문형 데이터이며, 표 9에 표시된 바와 같이, 다른 선택적인 실시예에서, 상기 오리지널 이중 언어 훈련 세트에 따라 이중 언어 문형을 자동으로 추출하는 것 외에도, 또한 관련 문형 번역 오류된 문제에 따라, 수동으로 태깅하는 방법을 통해 일반화 능력을 구비한 이중 언어 문형 데이터

를 구축할 수 있으며,

은 아래의 경우를 포함한다.

[표 9] 일반화 능력을 구비한 이중 언어 문형 데이터

위의 자동 추출 및 수동으로 태깅하는 방법을 기반으로, 고품질의 분야 관련 일반화된 이중 언어 문형

을 얻을 수 있다.

단계 203에 있어서, 증대된 분야 관련 증대 이중 언어 훈련 세트를 구축한다.

여기서, 구축된 이중 언어 정렬 비종결 부호가 포함된 일반화된 이중 언어 문형 및 대응하는 이중 언어 어휘표 lex에 따라, 각 이중 언어 문형 쌍을 열거함으로써, 그 중의 이중 언어로 정렬된 비종결 부호를 이중 언어 어휘표에서 각 이중 언어 어휘로 교체하며, 이러한 방식으로, 제한된 M 개의 일반화된 이중 언어 문형 및 N 개의 대응하는 분야의 이중 언어 어휘표에 기반하여, 상기 분야와 관련된 N*M 조 고품질의 증대 이중 언어 훈련 문장쌍

을 얻는다.

표 10은 본문에 표시된 증대 이중 언어 훈련 문장쌍 표이며, 표 10에 표시된 바와 같이, 예를 들어, 상기 표 8의 예에서 사람 이름 분야와 관련된 2 개의 이중 언어 문형 및 표 4에서 5 개의 이중 언어 엔티티 어휘를 사용하여, 다음의 10 개의 증대 이중 언어 훈련 문장쌍을 구축할 수 있으며,

는 다음을 포함한다.

[표 10] 증대 이중 언어 훈련 문장쌍 표

단계 204에 있어서, 증대 이중 언어 훈련 세트 및 오리지널 이중 언어 훈련 세트를 융합하고, 융합하여 얻은 목표 이중 언어 훈련 세트에 기반하여 기계 번역 모델 재훈련을 진행한다.

여기서, 단계 203에서 생성된 증대 이중 언어 훈련 세트

및 오리지널 이중 언어 훈련 세트 D는 하나의 더욱 큰 규모의 목표 이중 언어 훈련 세트

로 합병 구축되고, 설정 번역 모델에 대한 재훈련에 기반하여, 하나의 새로운 기계 번역 모델을 얻음으로써, 기계 번역 모델의 번역 품질을 개선한다.

본문의 실시예에서, 오리지널 이중 언어 훈련 세트의 코퍼스 데이터 중의 이중 언어 문형 및 수동으로 태깅된 이중 언어 문형을 자동으로 마이닝하고, 누적된 분야와 관련된 이중 언어 사전 데이터를 이용함으로써, 분야와 관련된 이중 언어 어휘에 따라, 오리지널 이중 언어 문장쌍으로부터 단어 슬롯 정보가 포함된 고품질의 이중 언어 문형을 추출하며; 자동으로 추출 또는 수동으로 태깅한 단어 슬롯 정보가 포함된 이중 언어 문형 및 분야와 관련된 이중 언어 어휘에 따라 증대 이중 언어 데이터를 구축함으로써, 대규모 고품질의 분야와 관련된 이중 언어 코퍼스 데이터를 생성하여, 기계 번역 모델의 훈련에 사용한다.

이러한 새로 추가된 이중 언어 코퍼스 데이터는 대량의 새로운 어휘 정보 또는 새로운 이중 언어 문형 정보를 포함하며, 사용자가 피드백한 번역 오류를 고려 사항으로 하므로, 원래의 기계 번역 모델이 새로운 단어, 핫 키워드 등 엔티티 카테고리 단어에서의 번역 품질을 효과적으로 개선시킬 수 있고, 기계 번역 모델이 원래의 이중 언어 코퍼스 데이터에서 나타나지 않은 문형에 대한 번역 품질을 개선시킬 수도 있어, 기계 번역 제품의 사용자 체험을 효과적으로 향상시킬 수 있다.

도 3은 일 예시적 실시예에 따라 도시된 정보 처리 장치 블록도이다. 도 3에 도시된 바와 같이, 상기 정보 처리 장치(300)는 주로,

N 개의 오리지널 이중 언어 어휘쌍을 포함하는 이중 언어 어휘표를 획득하도록 구성되는 제1 획득 모듈(301) - 각 상기 오리지널 이중 언어 어휘쌍은 제1 언어로 표현된 제1 어휘 및 상기 제1 어휘와 동일한 의미를 갖는 제2 언어로 표현된 제2 어휘를 포함하며, N은 양의 정수임 - ;

복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트를 획득하도록 구성되는 제2 획득 모듈(302) - 각 상기 오리지널 이중 언어 훈련 문장쌍은 제1 언어로 표현된 제1 훈련 문장 및 상기 제1 훈련 문장과 동일한 의미를 갖는 제2 언어로 표현된 제2 훈련 문장을 포함함 - ;

후보 이중 언어 문장쌍으로서, 상기 오리지널 이중 언어 훈련 세트로부터 상기 오리지널 이중 언어 어휘쌍과 매칭되는 적어도 하나의 오리지널 이중 언어 훈련 문장쌍을 선택하도록 구성되는 선택 모듈(303);

적어도 하나의 상기 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하도록 구성되는 구축 모듈(304); 및

상기 이중 언어 어휘표 및 상기 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하도록 구성되는 제3 획득 모듈(305)을 포함한다.

다른 선택적인 실시예에서, 상기 후보 이중 언어 문장쌍인 오리지널 이중 언어 훈련 문장쌍에 포함된 제1 훈련 문장은 적어도, 임의의 상기 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘를 포함하고;

다른 선택적인 실시예에서, 예를 들어, 상기 구축 모듈은,

설정 조건에 따라, 상기 후보 이중 언어 문장쌍으로부터 M 개의 일반화될 이중 언어 문장쌍을 결정하고 - M은 양의 정수임 - ; 및

M 개의 상기 일반화될 이중 언어 문장쌍에 기반하여, M 개의 일반화된 이중 언어 문형을 생성하도록 구성될 수 있다.

예를 들어, 제3 획득 모듈은,

M 개의 상기 일반화된 이중 언어 문형 및 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍에 따라, 복수 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하고; 및

복수 개의 상기 증대 이중 언어 훈련 문장쌍에 기반하여, 상기 증대 이중 언어 훈련 세트를 얻도록 구성될 수 있다.

다른 선택적인 실시예에 있어서, 상기 설정 조건은,

상기 제1 훈련 문장의 번역 정확률 및 상기 제2 훈련 문장의 번역 정확률은 모두 설정 정확률 임계값보다 큰 것; 중 적어도 하나를 포함한다.

다른 선택적인 실시예에서, 예를 들어, 상기 구축 모듈은,

M 개의 상기 일반화될 이중 언어 문장쌍에 포함된 K 개의 오리지널 이중 언어 어휘쌍을 K 개의 범용 이중 언어 어휘로 교체하며, M 개의 일반화된 이중 언어 문형을 생성 - K는 양의 정수임 - 하도록 구성되고,

예를 들어, 제3 획득 모듈은 또한,

M 개의 상기 일반화된 이중 언어 문형 중의 각 상기 범용 이중 언어 어휘쌍을, 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍으로 각각 교체하여, K*N*M 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하도록 구성될 수 있다.

다른 선택적인 실시예에서, 상기 범용 이중 언어 어휘는, 비종결 문자를 포함하고, 비종결 문자는 문장이 종결되지 않았음을 지시하기 위한 것이다.

다른 선택적인 실시예에서, 상기 장치는,

상기 실시예의 장치와 관련하여, 그 중의 각 모듈이 동작을 실행하는 구체적인 방식은 상기 방법의 실시예에서 상세히 설명되었고, 여기서 상세한 설명은 하지 않는다.

도 4는 일 예시적 실시예에 따라 도시된 정보 처리 장치(400)의 하드웨어 구조 블록도이다. 예를 들어, 장치(400)는 휴대폰, 컴퓨터, 디지털 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말기 등일 수 있다.

도 4를 참조하면, 장치(400)는 처리 컴포넌트(402), 메모리(404), 전력 컴포넌트(406), 멀티미디어 컴포넌트(408), 오디오 컴포넌트(410), 입력/출력(I/O) 인터페이스(412), 센서 컴포넌트(414) 및 통신 컴포넌트(416) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.

처리 컴포넌트(402)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 장치(400)의 전체적인 동작을 제어한다. 처리 컴포넌트(402)는 상기 방법의 전부 또는 일부 단계를 완료하기 위한 명령어를 수행하는 하나 또는 복수 개의 프로세서(420)를 포함할 수 있다. 또한, 처리 컴포넌트(402)는 처리 컴포넌트(402) 및 다른 컴포넌트 사이의 교호를 용이하게 하기 위해, 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(402)는 멀티미디어 컴포넌트(408) 및 처리 컴포넌트(402) 사이의 교호를 용이하게 하기 위해, 멀티미디어 모듈을 포함할 수 있다.

메모리(404)는 장치(400)의 동작을 지지하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 장치(400)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(404)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그래머블 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비 휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.

전력 컴포넌트(406)는 장치(400)의 다양한 컴포넌트에 전력을 공급한다. 전력 컴포넌트(406)는 전력 관리 시스템, 하나 또는 복수 개의 전력 및 장치(400)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.

멀티미디어 컴포넌트(408)는 상기 장치(400) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(LCD) 및 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터 오는 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라, 상기 터치나 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수 있다. 일부 실시예에 있어서, 멀티미디어 컴포넌트(408)는 전방 카메라 및 후방 카메라 중 적어도 하나를 포함한다. 장치(400)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 하나의 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.

오디오 컴포넌트(410)는 오디오 신호를 출력 및/또는 입력하도록 구성되는다. 예를 들어, 오디오 컴포넌트(410)는 하나의 마이크로폰(MIC)을 포함하며, 장치(400)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(404)에 추가로 저장되거나 통신 컴포넌트(416)에 의해 전송될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(410)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.

I/ O 인터페이스(412)는 처리 컴포넌트(402)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼에는 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼이 포함되지만 이에 한정되지 않는다.

센서 컴포넌트(414)는 장치(400)를 위한 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(414)는 기기(400)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 장치(400)의 모니터와 키패드이며, 센서 컴포넌트(414)는 장치(400) 또는 장치(400)에서 하나의 컴포넌트의 위치 변화, 사용자와 장치(400) 접촉의 존재 유무, 장치(400) 방향 또는 가속/감속 및 장치(400)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(414)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 컴포넌트(414)는 이미징 애플리케이션에 사용하기 위한 상보성 금속 산화막 반도체(Complementary Metal Oxide Semiconductor, CMOS) 이미지 센서 또는 전하 결합 소자(Charged Coupled Device, CCD) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(414)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.

통신 컴포넌트(416)는 장치(400)와 다른 기기 사이의 유선 또는 무선 방식으로 통신을 용이하게 하도록 구성된다. 장치(400)는 WiFi, 2G 또는 3G 또는 이들의 조합과 같은 통신 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적 실시예에 있어서, 통신 컴포넌트(416)는 방송 채널에 의해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 하나의 예시적 실시예에 있어서, 상기 통신 컴포넌트(416)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역 (Ultra Wideband, UWB) 기술, 블루투스 기술 및 다른 기술을 기반으로 구현될 수 있다.

예시적 실시예에 있어서, 장치(400)는 하나 또는 복수 개의 주문형 집적 회로(ApplicationSpecificIntegratedCircuit, ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 제어기, 마이크로 제어기, 마이크로 프로세서 또는 다른 전자 부품에 의해 구현되며, 장치(400)는 상기 방법을 수행하기 위한 것이다.

예시적 실시예에 있어서, 명령어를 포함하는 메모리(404)와 같은 명령어를 포함하는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 명령어는 상기 방법을 완료하도록 장치(400)의 프로세서(820)에 의해 실행된다. 예를 들어, 상기 비 일시적 컴퓨터 판독 가능 저장 매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 기기 등일 수 있다.

비일시적 컴퓨터 판독 가능 저장 매체는, 상기 저장 매체의 명령어가 전자 기기의 프로세서에 의해 실행될 때, 전자 기기로 하여금 정보 처리 방법을 실행하도록 하며, 상기 방법은,

본 기술분야의 기술자는 명세서를 고려하고 본문에 개시된 발명을 실천한 후, 본 발명의 다른 실시방안을 용이하게 생각해낼 수 있을 것이다. 본 발명은 본문의 임의의 변형, 용도 또는 적응성 변화를 포함하도록 의도되며, 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리에 따르며, 본 발명에서 개시되지 않은 본 기술분야의 공지된 상식이나 통상적인 기술수단을 포함한다. 명세서 및 실시예는 다만 예시적인 것으로 간주되며, 본 발명의 진정한 범위 및 사상은 아래의 청구범위에 의해 지적된다.

이해해야 할 것은, 본 발명은 위에서 설명되고 도면에 도시된 정확한 구조에 한정되지 않으며, 이 범위를 벗어나지 않고 다양한 수정 및 변경을 진행할 수 있다. 본 발명의 범위는 첨부된 청구범위에 의해서만 한정된다.

Claims

정보 처리 방법으로서,
N 개의 오리지널 이중 언어 어휘쌍을 포함하는 이중 언어 어휘표를 획득하는 단계 - 각 상기 오리지널 이중 언어 어휘쌍은 제1 언어로 표현된 제1 어휘 및 상기 제1 어휘와 동일한 의미를 갖는 제2 언어로 표현된 제2 어휘를 포함하며, N은 양의 정수임 - ;
복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트를 획득하는 단계 - 각 상기 오리지널 이중 언어 훈련 문장쌍은 제1 언어로 표현된 제1 훈련 문장 및 상기 제1 훈련 문장과 동일한 의미를 갖는 제2 언어로 표현된 제2 훈련 문장을 포함함 - ;
후보 이중 언어 문장쌍으로서, 상기 오리지널 이중 언어 훈련 세트로부터 상기 오리지널 이중 언어 어휘쌍과 매칭되는 적어도 하나의 오리지널 이중 언어 훈련 문장쌍을 선택하는 단계;
적어도 하나의 상기 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하는 단계; 및
상기 이중 언어 어휘표 및 상기 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하는 단계를 포함하고,
적어도 하나의 상기 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하는 단계는,
설정 조건에 따라, 상기 후보 이중 언어 문장쌍으로부터 M 개의 일반화될 이중 언어 문장쌍을 결정하는 단계 - M은 양의 정수임 - ; 및
M 개의 상기 일반화될 이중 언어 문장쌍에 기반하여, M 개의 일반화된 이중 언어 문형을 생성하는 단계를 포함하며,
상기 이중 언어 어휘표 및 상기 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하는 단계는,
M 개의 상기 일반화된 이중 언어 문형 및 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍에 따라, 복수 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하는 단계; 및
복수 개의 상기 증대 이중 언어 훈련 문장쌍에 기반하여, 상기 증대 이중 언어 훈련 세트를 얻는 단계를 포함하는 것을 특징으로 하는 정보 처리 방법.
제1항에 있어서,
상기 후보 이중 언어 문장쌍인 오리지널 이중 언어 훈련 문장쌍에 포함된 제1 훈련 문장은 적어도, 임의의 상기 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘를 포함하고;
상기 후보 이중 언어 문장쌍인 오리지널 이중 언어 훈련 문장쌍에 포함된 제2 훈련 문장은 적어도, 임의의 상기 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘와 동일한 의미를 갖는 제2 어휘를 포함하는 것을 특징으로 하는 정보 처리 방법.
삭제
제1항에 있어서,
상기 설정 조건은,
상기 제1 훈련 문장의 문장 길이 및 상기 제2 훈련 문장의 문장 길이는 모두 설정 문장 길이 임계값보다 크거나 같은 것;
상기 제1 훈련 문장의 문장 길이 대 상기 제2 훈련 문장의 문장 길이의 비율은, 제1 설정 비율보다 크거나 같고, 제2 설정 비율보다 작거나 같은 것; 및
상기 제1 훈련 문장의 번역 정확률 및 상기 제2 훈련 문장의 번역 정확률은 모두 설정 정확률 임계값보다 큰 것; 중 적어도 하나를 포함하는 것을 특징으로 하는 정보 처리 방법.
제1항에 있어서,
상기 M 개의 상기 일반화될 이중 언어 문장쌍에 기반하여, M 개의 일반화된 이중 언어 문형을 생성하는 단계는,
M 개의 상기 일반화될 이중 언어 문장쌍에 포함된 K 개의 오리지널 이중 언어 어휘쌍을 K 개의 범용 이중 언어 어휘쌍으로 교체하여, M 개의 일반화된 이중 언어 문형을 생성하는 단계 - K는 양의 정수임 - 를 포함하고,
M 개의 상기 일반화된 이중 언어 문형 및 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍에 따라, 복수 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하는 단계는,
M 개의 상기 일반화된 이중 언어 문형 중의 각 상기 범용 이중 언어 어휘쌍을, 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍으로 각각 교체하여, K*N*M 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하는 단계를 포함하는 것을 특징으로 하는 정보 처리 방법.
제5항에 있어서,
상기 범용 이중 언어 어휘는, 비종결 문자를 포함하고, 비종결 문자는 문장이 종결되지 않았음을 지시하기 위한 것임을 특징으로 하는 정보 처리 방법.
제1항 내지 제2항, 제4항 내지 제6항 중 어느 한 항에 있어서,
상기 방법은,
상기 증대 이중 언어 훈련 세트 및 오리지널 이중 언어 훈련 세트를 융합처리하여, 목표 이중 언어 훈련 세트를 얻는 단계; 및
상기 목표 이중 언어 훈련 세트에 기반하여, 모델 훈련을 진행하여, 목표 번역 모델을 얻는 단계를 더 포함하고,
상기 목표 번역 모델은, 상기 제1 언어 및 상기 제2 언어 사이의 문장의 번역을 진행하기 위한 것임을 특징으로 하는 정보 처리 방법.
정보 처리 장치로서,
N 개의 오리지널 이중 언어 어휘쌍을 포함하는 이중 언어 어휘표를 획득하도록 구성되는 제1 획득 모듈 - 각 상기 오리지널 이중 언어 어휘쌍은 제1 언어로 표현된 제1 어휘 및 상기 제1 어휘와 동일한 의미를 갖는 제2 언어로 표현된 제2 어휘를 포함하며, N은 양의 정수임 - ;
복수 개의 오리지널 이중 언어 훈련 문장쌍을 포함하는 오리지널 이중 언어 훈련 세트를 획득하도록 구성되는 제2 획득 모듈 - 각 상기 오리지널 이중 언어 훈련 문장쌍은 제1 언어로 표현된 제1 훈련 문장 및 상기 제1 훈련 문장과 동일한 의미를 갖는 제2 언어로 표현된 제2 훈련 문장을 포함함 - ;
후보 이중 언어 문장쌍으로서, 상기 오리지널 이중 언어 훈련 세트로부터 상기 오리지널 이중 언어 어휘쌍과 매칭되는 적어도 하나의 오리지널 이중 언어 훈련 문장쌍을 선택하도록 구성되는 선택 모듈;
적어도 하나의 상기 후보 이중 언어 문장쌍에 기반하여, 일반화된 이중 언어 문형을 구축하도록 구성되는 구축 모듈; 및
상기 이중 언어 어휘표 및 상기 일반화된 이중 언어 문형에 기반하여, 복수 개의 증대 이중 언어 훈련 문장쌍을 포함하는 증대 이중 언어 훈련 세트를 획득하도록 구성되는 제3 획득 모듈을 포함하고,
상기 구축 모듈은,
설정 조건에 따라, 상기 후보 이중 언어 문장쌍으로부터 M 개의 일반화될 이중 언어 문장쌍을 결정하고 - M은 양의 정수임 - ;
M 개의 상기 일반화될 이중 언어 문장쌍에 기반하여, M 개의 일반화된 이중 언어 문형을 생성하도록 구성되고,
제3 획득 모듈은,
M 개의 상기 일반화된 이중 언어 문형 및 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍에 따라, 복수 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하고;
복수 개의 상기 증대 이중 언어 훈련 문장쌍에 기반하여, 상기 증대 이중 언어 훈련 세트를 얻도록 구성되는 것을 특징으로 하는 정보 처리 장치.
제8항에 있어서,
상기 후보 이중 언어 문장쌍인 오리지널 이중 언어 훈련 문장쌍에 포함된 제1 훈련 문장은 적어도, 임의의 상기 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘를 포함하고;
상기 후보 이중 언어 문장쌍인 오리지널 이중 언어 훈련 문장쌍에 포함된 제2 훈련 문장은 적어도, 임의의 상기 오리지널 이중 언어 어휘쌍에 포함된 제1 어휘와 동일한 의미를 갖는 제2 어휘를 포함하는 것을 특징으로 하는 정보 처리 장치.
삭제
제8항에 있어서,
상기 설정 조건은,
상기 제1 훈련 문장의 문장 길이 및 상기 제2 훈련 문장의 문장 길이는 모두 설정 문장 길이 임계값보다 크거나 같은 것;
상기 제1 훈련 문장의 문장 길이 대 상기 제2 훈련 문장의 문장 길이의 비율은, 제1 설정 비율보다 크거나 같고, 제2 설정 비율보다 작거나 같은 것; 및
상기 제1 훈련 문장의 번역 정확률 및 상기 제2 훈련 문장의 번역 정확률은 모두 설정 정확률 임계값보다 큰 것; 중 적어도 하나를 포함하는 것을 특징으로 하는 정보 처리 장치.
제8항에 있어서,
상기 구축 모듈은,
M 개의 상기 일반화될 이중 언어 문장쌍에 포함된 K 개의 오리지널 이중 언어 어휘쌍을 K 개의 범용 이중 언어 어휘쌍으로 교체하여, M 개의 일반화된 이중 언어 문형을 생성 - K는 양의 정수임 - 하도록 구성되고,
제3 획득 모듈은,
M 개의 상기 일반화된 이중 언어 문형 중의 각 상기 범용 이중 언어 어휘쌍을, 상기 이중 언어 어휘표에 포함된 N 개의 오리지널 이중 언어 어휘쌍으로 각각 교체하여, K*N*M 개의 상기 증대 이중 언어 훈련 문장쌍을 생성하도록 구성되는 것을 특징으로 하는 정보 처리 장치.
제12항에 있어서,
상기 범용 이중 언어 어휘는, 비종결 문자를 포함하고, 비종결 문자는 문장이 종결되지 않았음을 지시하기 위한 것임을 특징으로 하는 정보 처리 장치.
제8항 내지 제9항, 제11항 내지 제13항 중 어느 한 항에 있어서,
상기 장치는,
상기 증대 이중 언어 훈련 세트 및 오리지널 이중 언어 훈련 세트를 융합처리하여, 목표 이중 언어 훈련 세트를 얻도록 구성되는 융합 모듈; 및
상기 목표 이중 언어 훈련 세트에 기반하여, 모델 훈련을 진행하여, 목표 번역 모델을 얻도록 구성되는 훈련 모듈을 더 포함하며,
상기 목표 번역 모델은, 상기 제1 언어 및 상기 제2 언어 사이의 문장의 번역을 진행하기 위한 것임을 특징으로 하는 정보 처리 장치.
정보 처리 장치로서,
프로세서; 및
프로세서 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하고,
상기 프로세서는, 실행될 때 제1항 내지 제2항, 제4항 내지 제6항 중 어느 한 항에 따른 정보 처리 방법의 단계를 구현하도록 구성되는 것을 특징으로 하는 정보 처리 장치.
비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 비일시적 컴퓨터 판독 저장 매체의 명령어가 정보 처리 장치의 프로세서에 의해 실행될 때, 상기 정보 처리 장치로 하여금 제1항 내지 제2항, 제4항 내지 제6항 중 어느 한 항에 따른 정보 처리 방법을 실행할 수 있도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.