WO2019107612A1

WO2019107612A1 - 변환 수행 방법 및 이를 위한 장치

Info

Publication number: WO2019107612A1
Application number: PCT/KR2017/013919
Authority: WO
Inventors: 황명진; 지창진
Original assignee: 주식회사 시스트란인터내셔널
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2019-06-06
Also published as: US20210133537A1; CN111386535A

Abstract

변환 수행 방법 및 이를 위한 장치가 개시된다. 구체적으로, 시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 방법에 있어서, 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하는 단계, 상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하는 단계 및 상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 단계를 포함할 수 있다.

Description

변환 수행 방법 및 이를 위한 장치

본 발명은 시퀀스-대-시퀀스(sequence-to-sequence) 변환 방법에 관한 것으로서, 보다 상세하게 시퀀스-대-시퀀스 변환을 위한 모델링 방법을 수행하기 위한 방법 및 이를 지원하는 장치에 관한 것이다.

시퀀스-대-시퀀스(sequence-to-sequence) 변환 기법은 스트링(string)/시퀀스(sequence) 형태의 입력을 또 다른 스트링/시퀀스로 변환하는 기법이다. 기계번역, 자동요약 및 각종 언어처리 등에서 이용될 수 있으나, 실제로 컴퓨터 프로그램을 입력 비트의 시퀀스를 입력 받아 출력 비트의 시퀀스를 출력하는 모든 작업으로 인식될 수 있다. 즉, 모든 단일 프로그램은 특정 동작을 표현하는 시퀀스-대-시퀀스 모델이라고 지칭될 수 있다.

최근에는 딥러닝(deep learning) 기법이 도입되어 시퀀스-대-시퀀스(sequence-to-sequence) 변환 모델링의 높은 품질을 보이고 있다. 대표적으로, 반복적인 신경망(RNN: Recurrent Neural Network) 타입과, 시간 지연 신경망(TDNN: Time Delay Neural Network)이 이용된다.

본 발명의 목적은, 경험적 어텐션(Heuristic Attention)이 있는 Window Shiftted Neural Network(이하 AWSNN) 모델링 기법을 제안한다.

또한, 본 발명의 목적은, TDNN 등 기존의 window shift 기반 모델에서 변환 지점을 명시적으로 나타낼 수 있는 지점(꼭지)를 추가하는 방법을 제안한다.

또한, 본 발명의 목적은, RNN을 사용하는 NMT(Neural machine translation)의 어텐션(attention)과 같은 역할을 할 수 있는 학습 구조를 제안한다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 양상은, 시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 방법에 있어서, 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하는 단계, 상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하는 단계 및 상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 단계를 포함할 수 있다.

본 발명의 다른 일 양상은, 시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 장치에 있어서, 상기 장치에 입력된 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하고, 상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하며, 상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 프로세서를 포함하도록 구성될 수 있다.

바람직하게, 상기 시점이 증가되더라도 상기 제1 심볼의 위치가 증가됨에 따라 상기 입력 단위 내에서 상기 제1 심볼의 위치는 고정될 수 있다.

바람직하게, 현재 시점의 이전 시점에서의 출력 심볼이 상기 입력 단위 내 원래 심볼들에 이어서 삽입될 수 있다.

바람직하게, 상기 입력 단위 내 원래 심볼들과 상기 입력 단위에 삽입된 출력 심볼을 구분하기 위한 제2 심볼이 상기 입력 단위 내 삽입될 수 있다.

바람직하게, 상기 입력 단위에 삽입된 출력 심볼의 종료 지점을 지시하기 위한 제3 심볼이 상기 입력 단위 내 삽입될 수 있다.

본 발명의 실시예에 따르면, 좁은 문맥 정보만 사용해도 되는 시퀀스-대-시퀀스 변환에 있어서 부작용을 줄이고 정확도를 향상시킬 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.

도 1은 일반적인 시간 지연 신경망(TDNN: Time Delay Neural Network)을 예시한다.

도 2는 M개의 입력과 시점 t에서 각 입력 별로 N개의 지연을 가지는 단일 시간-지연 뉴런(TDN: time-delay neurons)을 예시한다.

도 3은 TDNN 뉴럴 네트워크의 전체적인 아키텍처를 예시한다.

도 4 및 도 5는 본 발명의 일 실시예에 따른 시퀀스 변환 방법의 일례를 예시한다.

도 6 및 도 7은 본 발명의 일 실시예에 따른 시퀀스 변환 방법의 다른 일례를 예시한다.

도 8은 본 발명의 일 실시예에 따른 시퀀스-대-시퀀스 변환을 수행하기 위한 시퀀스 변환 방법을 예시하는 도면이다.

도 9는 본 발명의 일 실시예에 따른 시퀀스-대-시퀀스 변환을 수행하기 위한 시퀀스 변환 장치의 구성을 설명하기 위한 블록도이다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.

몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.

본 발명에서는 경험적인 어텐션(Heuristic Attention)을 이용한 시퀀스-대-시퀀스 변환 방법을 제안한다.

시간 지연 신경망(TDNN: Time Delay Neural Network)은 패턴의 시작과 끝점을 명시적으로 사전에 결정할 필요가 없는 패턴을 불변으로(shift-invariantly) 분류하는 것을 주목적으로 하는 인공 신경망 구조이다. TDNN은 자동적인 음성 인식을 위해 음성 신호 내에서 음소(phoneme)를 분류하도록 제안되었으며, 정확한 세그먼트 또는 특징 경계의 자동적으로 결정하는 것은 어렵거나 불가능하다. TDNN은 시간-이동(time-shift), 즉 시간의 위치와 관계없이 음소 및 그 근본적인 음향/소리 특징을 인식한다.

입력 신호(input signal)는 지연된 사본을 다른 입력으로 증가시키며, 신경망은 내부 상태가 없으므로 시간-이동(time-shift) 불변이다.

TDNN은 다른 신경망과 마찬가지로 클러스터로 구성된 다수 개의 상호 연결된 레이어로 동작한다. 이들 클러스터는 뇌의 뉴런을 나타내기 위한 것이고 뇌와 마찬가지로 각 클러스터는 입력의 작은 영역에만 초점을 맞출 필요가 있다. 전형적인 TDNN은 입력을 위한 계층, 출력을 위한 계층 그리고 필터를 통한 입력의 조작을 처리하는 중간 계층의 세 개의 클러스터의 계층을 가진다. 순차적 특성으로 인하여, TDNN은 반복적인 신경망(recurrent neural network) 대신 피드포워드 신경망(feedforward neural network)로 구현된다.

시간-이동(time-shift) 불변성을 달성하기 위해, 입력(예를 들어, 오디오 파일, 이미지 등)에 지연의 세트가 추가되어 데이터가 다른 시점에서 표현된다. 이러한 지연은 임의적이며 특정 애플리케이션에만 적용되며, 이는 일반적으로 입력 데이터가 특정 지연 패턴에 맞게 사용자 정의되어 있음을 의미한다.

수동의 튜닝이 근절되는 적응적인 TDNN(ATDNN: Adaptable Time-Delay Neural Network)을 만드는 작업이 수행되어 왔다. 지연은 슬라이딩 윈도우(sliding window)를 갖는 반복적인 신경망(RNN: Recurrent Neural Network) 또는 다중층 퍼셉트론(MLP: Multi-Layer Perceptron)에 존재하지 않는 네트워크에 시간 차원을 추가하려는 시도이다. 과거 입력과 현재 입력의 조합은 TDNN의 접근 방식을 독창적으로 만든다.

TDNN의 핵심 기능은 시간에 따른 입력 간의 관계를 표현하는 것이다. 이 관계는 특성 검출기의 결과일 수 있으며 지연된 입력 사이의 패턴을 인식하기 위해 TDNN 내에서 사용된다.

신경망의 주요 장점 중 하나는 각 계층에서 필터의 뱅크를 설정하기 위한 사전 지식에 대한 의존성이 약하다는 것이다. 그러나, 이로 인하여 네트워크는 수많은 훈련 입력(training input)을 처리함으로써 이들 필터에 대한 최적의 값을 배워야 한다. 패턴 인식(pattern recognition) 및 함수 근사(function approximation)에 대한 강점으로 인하여 감독 학습(supervised learning)이 일반적으로 TDNN과 관련된 학습 알고리즘에 해당한다. 감독 학습은 일반적으로 역 전파 알고리즘(back propagation algorithm)으로 구현된다.

도 1을 참조하면, 히든 계층(hidden layer)은 입력 계층(input layer)의 전체 입력 중 특정 지점 T부터 T+2ΔT까지만을 대상으로 하여 결과를 도출하고, 이 과정을 출력 계층(output layer)까지 반복한다. 즉, 히든 계층(hidden layer)의 유닛(박스)은 입력 계층(input layer)의 전체 입력 중 특정 지점 T부터 T+2ΔT까지의 각각의 유닛(박스)에 가중치가 곱해지고 바이어스(bias) 값이 더해진 값들이 합산되어 도출된다.

이하, 본 발명의 설명에 있어서, 설명의 편의 상 도 1의 각 시점(즉, T, T+ΔT, T+2ΔT, ...)에서의 블록을 심볼이라고 지칭하나, 이를 프레임, 특징 벡터(feature vector) 등으로 지칭할 수도 있다. 또한, 이는 의미 상으로 음소(phoneme), 형태소(morpheme), 음절 등에 해당될 수 있다.

도 1에서는 입력 계층(input layer)는 3개의 지연(delay)를 가지며, 출력 계층(output layer)는 히든 계층(hidden layer) 내 음소 활성화(phoneme activation)의 4개의 프레임들을 통합함으로써 계산된다.

도 1은 하나의 예시에 불과하며, 지연의 수, 히든 계층(hidden layer)의 수는 이에 한정되지 않는다.

도 2에서

는 지연된 입력

의 값들을 저장하는 레지스터(register)이다.

상술한 바와 같이, TDNN은 직접적인 연결에 의해 모든 유닛(노드)들이 완전-연결된(fully-connected) 인공 뉴럴 네트워크 모델이다. 각 유닛은 시변하며(time-varying) 실수인(real-valued) 활성화(activation)를 가지며, 각 연결은 수정가능한 실수인(real-valued) 가중치를 가진다. 히든 계층(hidden layer) 및 출력 계층(output layer) 내 노드들은 시간-지연 뉴런(TDN: Time-Delay Neuron)에 해당한다.

단일 TDN은 M개의 입력(

,

,...,

)과 하나의 출력(

)를 가지고, 이들 입력들은 시간 단계 t에 따라 시계열적(time series)이다. 각 입력

(i=1,2,..., M) 별로, 하나의 바이어스 값(bias value)

, 그리고 이전의 입력들

(d=1,..., N)을 저장하는 N개의 지연들(도 2에서

, ...,

), 그리고 관련된 N개의 독립된 가중치 (

,

,...,

)가 존재한다. F는 변환 함수 f(x)이다(도 2에서는 비선형 시그모이드 함수(sigmoid function)를 예시한다.). 단일 TDN 노드는 아래 수학식 1과 같이 나타낼 수 있다.

수학식 1로부터, 현재 시간 단계 t에서의 입력과 이전 시간 단계 t-d (d=1,...,N)에서의 입력이 뉴런(neuron)의 전체 출력에 반영된다. 단일 TDN은 시계열적인 입력들이 특징인 동적인 비선형 동작을 모델링하기 위해 사용될 수 있다.

도 3은 TDNN 뉴럴 네트워크의 전체적인 아키텍처를 예시한다.

도 3에서는 TDN을 가지는 완전-연결된(fully-connected) 뉴럴 네트워크 모델을 예시하며, 히든 계층은 J개의 TDN을 가지고, 출력 계층은 R개의 TDN을 가진다.

출력 계층은 아래 수학식 2와 같이 나타낼 수 있으며, 히든 계층은 아래 수학식 3과 같이 나타낼 수 있다.

수학식 2 및 3에서

는

를 가지는 히든 노드

의 가중치이고,

는 바이어스 값

를 가지는 출력 노드

의 가중치이다.

수학식 2 및 3에서 볼 수 있듯이, TDNN은 히든 계층 및 출력 계층의 노드 내 지연들을 가지는 완전-연결된(fully-connected) 전방-피드백(forward-feedback) 뉴럴 네트워크 모델이다. 출력 계층 내 노드들을 위한 지연의 개수는

이고, 히든 계층 내 노드들을 위한 지연의 개수는

이다. 노드 별로 지연 파라미터 N이 상이하면, 이를 분산된(distributed) TDNN으로 지칭할 수 있다.

지도 학습(supervised learning)

이산(discrete) 시간 설정에서의 감독 학습(supervised learning)의 경우, 실수 값 입력 벡터 (예를 들어, 비디오 프레임 피처의 시퀀스를 나타내는)의 트레이닝 세트 시퀀스는 한번에 하나의 입력 벡터를 갖는 입력 노드의 활성화 시퀀스이다. 임의의 주어진 시간 단계에서, 각각의 비-입력 유닛은 연결된 모든 유닛의 활성화의 가중 합계의 비선형 함수로서 현재의 활성화를 계산한다. 감독 학습에서 각 시간 단계의 타겟 라벨(target label)은 오류를 계산하는 데 사용된다. 각 시퀀스의 오류는 해당 타겟 라벨(target label)의 출력 노드에서 네트워크에 의해 계산된 활성화의 편차의 합계이다. 트레이닝 세트의 경우, 전체 오차는 각 개별 입력 시퀀스에 대해 계산된 오차의 합계이다. 교육 알고리즘은 이 오류를 최소화하도록 설계된다.

앞서 살펴본 바와 같이, TDNN은 한정된 영역에서 의미있는 값을 도출하는 과정을 반복하고, 도출된 결과에서 다시 동일한 과정을 반복함으로써 지엽적이지 않은 좋은 결과를 도출하는 용도로 적합한 모델이다.

도 4 및 도 5에서 <S>는 문장의 시작을 지시하는 심볼이고, </S>는 문장의 종료를 지시하는 심볼이다.

도 4 및 도 5에서 도시된 삼각형의 일례로서 다중층 퍼셉트론(MLP: Multi-Layer Perceptron)에 해당될 수도 있으며, 또는 콘볼루션 신경망(CNN: convolutional neural network)에 해당될 수도 있다. 다만, 본 발명이 이에 한정되는 것은 아니며 입력 시퀀스로부터 타겟 시퀀스를 도출/계산하기 위한 다양한 모델이 이용될 수 있다.

도 4 및 도 5에서 삼각형의 밑변은 앞서 도 1에서의 T부터 T+2ΔT에 해당된다. 그리고, 삼각형의 위 꼭지점은 앞서 도 1에서의 출력 계층(output layer)에 해당한다.

도 4를 참조하면, "wha ggo chi"로부터 "꽃"이 도출될 수 있으며, 도 5를 참조하면, "ggo chi pi"로부터 "이"가 도출될 수 있다.

이때, 도 4에서 "wha ggo chi"로부터 "화" 또는 "이" 또는 "치"가 도출되어서는 안 된다. 또한, 도 5에서 "ggo chi pi"로부터 "꼬" 또는 "꽃" 또는 "피"가 도출되어서는 안 된다.

기존의 TDNN를 이용하여 이러한 잘못된 출력을 도출하지 않기 위한 학습을 수행하기 위해서는 많은 시간이 필요하게 된다. 또한, 학습의 결과가 반드시 정확성을 현저하게 향상시키지 않을 수도 있다.

본 발명에 따른 변환 수행 기법(예를 들어, Window Shiftted Neural Network with Heuristic Attention(이하 AWSNN))은 이런 비효율성을 간단하게 해결하기 위해, 현재 시점에 집중할 지점(제1 심볼(꼭지), )을 직접 알려주는 방법을 제안한다. 즉, 현재 시퀀스-대-시퀀스 변환이 적용되는 입력 단위(즉, 앞서 도 1의 예시에서 T부터 T+2ΔT까지의 입력) 내에서 집중할 지점을 지시하는 심볼 가 해당 입력 시퀀스에 추가/삽입될 수 있다.

AWSNN에서 이것이 가능한 이유는 입력과 출력 단위가 1대 1이기 때문이다. 물론, 글자 수나 단어 수가 1:1로 들어맞지 않을 수는 있다.

시퀀스-대-시퀀스 변환이 수행되는 시점 T가 T+1로 변할 때, 해당 입력 단위 내 집중할 지점을 지시하는 심볼 의 시점/위치도 +1이 된다. 즉, 는 AWSNN의 입장에서 보면 입력 단위 내에서 항상 같은 위치에 있게 된다.

AWSNN에서는 입력 단위 내 속하는 다른 심볼들 보다 심볼 다음에 위치하는 심볼에 보다 큰 가중치(예를 들어, 가장 큰 가중치)를 부여할 수 있다.

도 6 및 도 7에서 <S>는 문장의 시작을 지시하는 심볼이고, </S>는 문장의 종료를 지시하는 심볼이다.

도 6 및 도 7에서 삼각형은 다중층 퍼셉트론(MLP: Multi-Layer Perceptron)에 해당될 수도 있으며, 또는 콘볼루션 신경망(CNN: convolutional neural network)에 해당될 수도 있다.

도 6 및 도 7에서 삼각형의 밑변은 앞서 도 1에서의 T부터 T+2ΔT에 해당된다. 그리고, 삼각형의 위 꼭지점은 앞서 도 1에서의 출력 계층(output layer)에 해당한다.

도 6 및 도 7은 앞서 예시한 도 4 및 도 5와 유사하다. 단, 직전에 생성한 결과물의 마지막 부분을 입력으로 다시 사용한다는 점이 다르다.

도 6을 참조하면, 원래 입력인 "wha ggo chi" 다음에 직전에 생성한 출력인 "궁 화"가 입력으로 다시 사용되는 것을 예시한다.

도 7을 참조하면, 원래 입력인 "ggo chi pi" 다음에 직전에 생성한 출력인 "화 꽃"이 입력으로 다시 사용되는 것을 예시한다.

이때, 도 6 및 도 7에서는 직전에 생성한 출력 중 2개의 심볼을 다시 입력으로 이용하는 경우를 예시하고 있으나, 이는 설명의 편의를 위한 것이며 반드시 2개의 심볼로 본 발명이 한정되는 것은 아니다.

본 발명의 일 실시예에 따르면, 직전에 생성한 결과물에서 온 입력과, 원래 입력을 구분하기 위해 또 다른 제2 심볼(꼭지) 가 추가될 수 있다. 즉, 직전에 생성한 결과물에서 온 입력과 원래 입력의 사이의 지점을 지시하는 심볼 가 해당 입력 단위에 추가/삽입될 수 있다.

또는, 결과물에서 온 입력의 끝(새 결과물과의 경계)을 표시하기 위해 또 다른 제3 심볼(꼭지) <E>가 추가될 수 있다. 즉, 직전에 생성한 결과물에서 온 입력의 종료 지점을 지시하는 심볼 <E>가 해당 입력 단위에 추가/삽입될 수 있다.

또한, 에 해당하는 부분과 <E>에 해당하는 부분 사이의 각 입력 단위에 모두 를 추가/삽입할 수 있다.

도 6 및 도 7에서는 설명의 편의를 위해 제1 지점(P), 제2 지점(B), 제3 지점(E)가 모두 사용되는 경우를 예시하고 있으나, 셋 중 어느 하나 이상만이 사용될 수도 있다.

만약, 직전 결과물이 없는 처음에는 제2 지점(B) 및/또는 제3 지점(E) 등으로 패딩할 수 있다.

여기서, 각 지점(P, B, E)은 상호 간에 구분되고 또한 다른 입력 단위 들과 구분되는 값이기만 하면 충분하다. 다시 말해, 반드시 P, B, E일 필요가 없으며 문자로 표기해야 하는 기호일 필요도 없다.

본 발명에 따른 각 지점은 순환 신경망(RNN: Recurrent Neural Network)를 사용하는 인공신경망 기반 기계 번역(NMT: Neural Machine Translation)의 어텐션(attention)과 같은 역할을 담당한다. 즉, 집중해야 할 부분이 어디인지를 명시적으로 알려주는 역할을 담당한다.

본 발명의 실시예에 따른 시퀀스 변환 방법에 대해서 보다 상세하게 설명하기로 한다.

도 8을 참조하면, 시퀀스 변환 장치는 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분한다(S801).

여기서, 입력 단위는 앞서 도 1에서 예시한 바와 같이 전체 입력 중에서 특정 지점 T부터 T+2ΔT까지만을 대상으로 할 수 있다. 그리고, t가 변경(증가)될 때마다 이와 함께 입력 단위가 변경될 수 있다.

시퀀스 변환 장치는 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼(즉, )을 입력 단위 내 삽입한다(S802).

여기서, 시점이 증가(예를 들어, +1)되더라도 제1 심볼의 위치가 증가(예를 들어, +1)됨에 따라 입력 단위 내에서 제1 심볼의 위치는 고정될 수 있다.

또한, 시퀀스 변환 장치는 현재 시점(예를 들어, t)의 이전 시점(예를 들어, t-1, t-2)에서의 출력 심볼이 입력 단위 내 원래 심볼들에 이어서 삽입할 수 있다.

그리고, 시퀀스 변환 장치는 입력 단위 내 원래 심볼들과 입력 단위에 삽입된 출력 심볼을 구분하기 위한 제2 심볼(즉, )을 해당 입력 단위 내 삽입할 수 있다.

또한, 시퀀스 변환 장치는 입력 단위에 삽입된 출력 심볼의 종료 지점을 지시하기 위한 제3 심볼(즉, <E>)을 해당 입력 단위 내 삽입할 수 있다.

시퀀스 변환 장치는 시점이 증가될 때마다 반복적으로 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출한다(S803).

위와 같이 시퀀스 변환 장치는 각 입력 단위 별로 반복적으로 출력 심볼을 도출함으로써, 전체 입력 시퀀스에 대한 출력 시퀀스를 도출할 수 있다.

본 발명의 실시예에 따른 시퀀스 변환 장치의 구성에 대해서 보다 상세하게 설명하기로 한다.

도 9를 참조하면, 본 발명의 실시예에 따른 시퀀스 변환 장치(900)는 통신모듈(communication module, 910), 메모리(memory, 920) 및 프로세서(processor, 930)을 포함한다.

통신모듈(910)은 프로세서(930)와 연결되어, 외부의 장치와 유/무선 신호를 송신 및/또는 수신한다. 통신모듈(910)은 데이터를 송수신하기 위해 송신되는 신호를 변조하고, 수신되는 신호를 복조하는 모뎀(Modem)을 포함할 수 있다. 특히, 통신모듈(910)은 외부 장치로부터 수신한 음성 신호 등을 프로세서(930)로 전달할 수 있으며, 프로세서(930)로부터 전달 받은 텍스트 등을 외부 장치에게 전송할 수 있다.

또는, 통신모듈(910) 대신에 입력부 및 출력부가 포함될 수도 있다. 이 경우, 입력부는 음성 신호 등을 입력 받아 프로세서(930)로 전달할 수 있으며, 출력부는 프로세서(930)로부터 전달 받은 텍스트 등을 출력할 수 있다.

메모리(920)는 프로세서(930)와 연결되어, 시퀀스 변환 장치(900)의 동작에 필요한 정보, 프로그램 및 데이터를 저장하는 역할을 수행한다.

프로세서(930)는 앞서 설명한 도 1 내지 도 8에서 제안된 기능, 과정 및/또는 방법을 구현한다. 또한, 프로세서(930)는 앞서 설명한 또한 시퀀스 변환 장치(900)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다.

본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.

본 발명은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 다양한 기계 번역 분야에 적용될 수 있다.

Claims

시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 방법에 있어서,

전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하는 단계;

상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하는 단계; 및

상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 단계를 포함하는 시퀀스 변환 방법.
제1항에 있어서,

상기 시점이 증가되더라도 상기 제1 심볼의 위치가 증가됨에 따라 상기 입력 단위 내에서 상기 제1 심볼의 위치는 고정되는 시퀀스 변환 방법.
제1항에 있어서,

현재 시점의 이전 시점에서의 출력 심볼이 상기 입력 단위 내 원래 심볼들에 이어서 삽입되는 시퀀스 변환 방법.
제3항에 있어서,

상기 입력 단위 내 원래 심볼들과 상기 입력 단위에 삽입된 출력 심볼을 구분하기 위한 제2 심볼이 상기 입력 단위 내 삽입되는 시퀀스 변환 방법.
제3항에 있어서,

상기 입력 단위에 삽입된 출력 심볼의 종료 지점을 지시하기 위한 제3 심볼이 상기 입력 단위 내 삽입되는 시퀀스 변환 방법.
시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 장치에 있어서,

상기 장치에 입력된 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하고, 상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하며, 상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 프로세서를 포함하는 장치.