WO2019107612A1 - 변환 수행 방법 및 이를 위한 장치 - Google Patents

변환 수행 방법 및 이를 위한 장치 Download PDF

Info

Publication number
WO2019107612A1
WO2019107612A1 PCT/KR2017/013919 KR2017013919W WO2019107612A1 WO 2019107612 A1 WO2019107612 A1 WO 2019107612A1 KR 2017013919 W KR2017013919 W KR 2017013919W WO 2019107612 A1 WO2019107612 A1 WO 2019107612A1
Authority
WO
WIPO (PCT)
Prior art keywords
symbol
input unit
input
sequence
time
Prior art date
Application number
PCT/KR2017/013919
Other languages
English (en)
French (fr)
Inventor
황명진
지창진
Original Assignee
주식회사 시스트란인터내셔널
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 시스트란인터내셔널 filed Critical 주식회사 시스트란인터내셔널
Priority to PCT/KR2017/013919 priority Critical patent/WO2019107612A1/ko
Priority to CN201780097200.5A priority patent/CN111386535A/zh
Priority to US16/766,644 priority patent/US20210133537A1/en
Publication of WO2019107612A1 publication Critical patent/WO2019107612A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Definitions

  • the present invention relates to a sequence-to-sequence conversion method, and more particularly, to a method for performing a modeling method for sequence-to-sequence conversion and an apparatus for supporting the same.
  • a sequence-to-sequence conversion technique is a technique for converting a string / sequence-type input to another string / sequence.
  • Machine translation, automatic summarization, and various language processing are examples of machine translation, automatic summarization, and various language processing.
  • a computer program can be recognized as all tasks that receive a sequence of input bits and output a sequence of output bits. That is, every single program may be referred to as a sequence-versus-sequence model that represents a particular action.
  • a recurrent neural network (RNN) type and a time delay neural network (TDNN) are used.
  • the object of the present invention is to propose a Window Shifted Neural Network (AWSNN) modeling technique with heuristic attention.
  • AWSNN Window Shifted Neural Network
  • an object of the present invention is to propose a learning structure capable of serving as an attention of NMT (Neural machine translation) using RNN.
  • a method of performing a sequence-to-sequence conversion comprising the steps of: dividing an entire input into input units, The method comprising the steps of: inserting a first symbol indicating a position of a symbol to which a highest weight is to be assigned in the input unit, from the input unit into which the first symbol is inserted repeatedly each time the viewpoint is incremented; And a step of deriving the output signal.
  • an apparatus for performing a sequence-to-sequence conversion comprising: a unit for dividing an entire input input to the apparatus into input units, A first symbol indicating a position of a symbol to which a highest weight is to be assigned among the symbols belonging to the input unit is inserted in the input unit, and each time the view is incremented, And derive an output symbol from the unit.
  • the position of the first symbol in the input unit may be fixed as the position of the first symbol increases, even if the viewpoint is increased.
  • an output symbol at a previous point in time of the current point may be inserted following the original symbols in the input unit.
  • a second symbol for distinguishing the original symbols in the input unit from the output symbols inserted in the input unit may be inserted in the input unit.
  • a third symbol for indicating an end point of the output symbol inserted in the input unit may be inserted in the input unit.
  • Figure 1 illustrates a typical time delay neural network (TDNN).
  • FIG. 2 illustrates single time-delay neurons (TDN) with N inputs and N inputs for each input at time t.
  • Figure 3 illustrates the overall architecture of a TDNN neural network.
  • 6 and 7 illustrate another example of the sequence conversion method according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a sequence conversion method for performing a sequence-to-sequence conversion according to an embodiment of the present invention.
  • FIG. 9 is a block diagram illustrating a configuration of a sequence conversion apparatus for performing sequence-to-sequence conversion according to an embodiment of the present invention.
  • the present invention proposes a sequence-to-sequence conversion method using empirical attention (Heuristic Attention).
  • Figure 1 illustrates a typical time delay neural network (TDNN).
  • Time Delay Neural Network is an artificial neural network structure whose main purpose is to shift-invariantly classify a pattern that does not need to explicitly determine the start and end points of a pattern.
  • TDNN has been proposed to classify phoneme within speech signals for automatic speech recognition, and it is difficult or impossible to automatically determine the exact segment or feature boundary.
  • the TDNN recognizes the phoneme and its underlying acoustical / sound characteristics irrespective of the time-shift, i.e. the location of the time.
  • the input signal increases the delayed copy to another input, and the neural network is time-shift invariant because there is no internal state.
  • the TDNN acts as multiple interconnected layers of clusters, like any other neural network. These clusters are intended to represent neurons in the brain, and like the brain, each cluster needs to focus only on a small area of the input.
  • a typical TDNN has three clusters of clusters: a layer for input, a layer for output, and an intermediate layer for handling the input through the filter. Due to the sequential nature, the TDNN is implemented as a feedforward neural network instead of a recurrent neural network.
  • a set of delays is added to the input (e.g., audio file, image, etc.) so that the data is represented at another point in time.
  • This delay is arbitrary and applies only to a specific application, which generally means that the input data is customized for a particular delay pattern.
  • ATDNNs Adaptive Time-Delay Neural Networks
  • RNN Recurrent Neural Network
  • MLP Multi-Layer Perceptron
  • a key function of TDNN is to express the relationship between inputs over time. This relationship can be the result of a property detector and is used within TDNN to recognize patterns between delayed inputs.
  • supervised learning generally corresponds to learning algorithms associated with TDNN.
  • Supervised learning is generally implemented with a back propagation algorithm.
  • a hidden layer derives a result from only a specific point T to T + 2 ⁇ T among all inputs of an input layer, and outputs the result to an output layer Repeat. That is, the unit (box) of the hidden layer is multiplied by the weight of each unit (box) from a specific point T to T + 2 ⁇ T among all inputs of the input layer, and a bias value The added values are summed and derived.
  • a block at each time point i.e., T, T + T, T + 2T, ...) in FIG. 1 is referred to as a symbol for convenience of explanation, feature vector). Also, it can be semantically equivalent to phoneme, morpheme, syllable, and so on.
  • the input layer has three delays and the output layer is calculated by integrating four frames of phoneme activation in the hidden layer.
  • FIG. 1 is only one example, and the number of delays and the number of hidden layers is not limited thereto.
  • FIG. 2 illustrates single time-delay neurons (TDN) with N inputs and N inputs for each input at time t.
  • the TDNN is an artificial neural network model in which all units (nodes) are fully-connected by a direct connection. Each unit has a time-varying, real-valued activation, and each connection has a real-valued weight.
  • the nodes in the hidden and output layers correspond to time-delay neurons (TDN).
  • a single TDN has M inputs ( , , ..., ) And one output ( ), And these inputs are time series according to time step t.
  • F is a transform function f (x) (which illustrates a non-linear sigmoid function in FIG. 2).
  • Equation 1 Equation 1 below.
  • a single TDN can be used to model dynamic nonlinear behavior characterized by time series inputs.
  • Figure 3 illustrates the overall architecture of a TDNN neural network.
  • FIG. 3 illustrates a fully-connected neural network model with a TDN, where the hidden layer has J TDNs and the output layer has R TDNs.
  • the output layer can be expressed by Equation (2) below, and the hidden layer can be expressed by Equation (3) below.
  • the TDNN is a fully-connected forward-feedback neural network model with intra-node delays in the hidden layer and the output layer.
  • the number of delays for the nodes in the output layer is And the number of delays for the nodes in the hidden layer is to be. If the delay parameter N differs for each node, it may be referred to as a distributed TDNN.
  • the training set sequence of the real-valued input vector (e.g., representing the sequence of video frame features) is the activation of the input node with one input vector at a time Sequence.
  • each non-input unit calculates the current activation as a non-linear function of the weighted sum of the activations of all connected units.
  • the target label at each time step is used to compute the error.
  • the error in each sequence is the sum of the deviations of activation computed by the network at the output node of the target label.
  • the total error is the sum of the errors calculated for each individual input sequence. The training algorithm is designed to minimize this error.
  • the TDNN is a model suitable for obtaining good results that are not localized by repeating the process of deriving a meaningful value in a limited area and repeating the same process again.
  • ⁇ S > is a symbol indicating the start of a sentence
  • ⁇ / S > is a symbol indicating termination of a sentence
  • the triangles shown in FIGS. 4 and 5 may correspond to a Multi-Layer Perceptron (MLP) or a convolutional neural network (CNN).
  • MLP Multi-Layer Perceptron
  • CNN convolutional neural network
  • the present invention is not limited thereto, and various models for deriving / calculating the target sequence from the input sequence can be used.
  • a "flower” can be derived from “wha ggo chi ", and referring to Fig.
  • the transformation execution technique for example, Window Shiftled Neural Network with Heuristic Attention (AWSNN) ≫). ≪ / RTI > That is, a symbol < P > indicating the point to be focused within the input unit to which the current sequence-to-sequence conversion is applied (i.e., input from T to T + 2? T in the example of FIG. Can be inserted.
  • AVSNN Window Shiftled Neural Network with Heuristic Attention
  • AWSNN may assign a larger weight (e.g., the largest weight) to a symbol located after the symbol ⁇ P > than other symbols belonging to the input unit.
  • 6 and 7 illustrate another example of the sequence conversion method according to an embodiment of the present invention.
  • ⁇ S > is a symbol indicating the start of a sentence
  • ⁇ / S > is a symbol indicating termination of a sentence
  • the triangle may correspond to a Multi-Layer Perceptron (MLP) or a convolutional neural network (CNN).
  • MLP Multi-Layer Perceptron
  • CNN convolutional neural network
  • Figures 6 and 7 are similar to Figures 4 and 5 illustrated above. Except that the last part of the output that was generated just before is used again as input.
  • 6 and 7 illustrate the case where two symbols out of the outputs generated immediately before are used as inputs again. However, this is for convenience of description, and the present invention is not limited to two symbols.
  • an on input may be added to the result just generated, and another second symbol (B) may be added to distinguish the original input. That is, a symbol ⁇ B> indicating a point between the on input and the original input in the immediately preceding generated result can be added / inserted in the corresponding input unit.
  • ⁇ E> another third symbol (nipple) ⁇ E> may be added to indicate the end of the input from the result (the boundary with the new result). That is, a symbol ⁇ E > indicating the end point of the on input may be added / inserted to the corresponding input unit in the immediately preceding generated result.
  • ⁇ B> can be added / inserted to each input unit between the part corresponding to ⁇ B> and the part corresponding to ⁇ E>.
  • FIG. 6 and 7 illustrate the case where the first point P, the second point B, and the third point E are all used for convenience of explanation, however, only one or more of the three points may be used .
  • each point (P, B, E) is a value that is distinguished from each other and from other input units. In other words, it does not necessarily have to be P, B, or E, nor does it need to be a symbol to be written.
  • NMT Neural Machine Translation
  • RNN Recurrent Neural Network
  • FIG. 8 is a diagram illustrating a sequence conversion method for performing a sequence-to-sequence conversion according to an embodiment of the present invention.
  • the sequence conversion apparatus divides the entire input into input units that are converted by each time point (S801).
  • the input unit can be targeted only from a specific point T to T + 2? T in the entire input, as illustrated in FIG. Then, whenever t is changed (incremented), the input unit can be changed together.
  • step S802 the sequence transforming unit inserts a first symbol (i.e., ⁇ P>) indicating the position of a symbol to which the highest weight among the symbols belonging to the input unit is to be given, in the input unit.
  • a first symbol i.e., ⁇ P>
  • the position of the first symbol in the input unit can be fixed as the position of the first symbol increases (e.g., +1) even if the viewpoint increases (for example, +1).
  • the sequence conversion apparatus may insert an output symbol at a previous time point (e.g., t-1, t-2) of the current time point (e.g., t) following the original symbols in the input unit.
  • a previous time point e.g., t-1, t-2
  • the current time point e.g., t
  • the sequence converter may insert a second symbol (i.e., ⁇ B >) for distinguishing between the original symbols in the input unit and the output symbol inserted in the input unit in the corresponding input unit.
  • a second symbol i.e., ⁇ B >
  • sequence conversion apparatus may insert a third symbol (i.e., ⁇ E >) to indicate the end point of the output symbol inserted in the input unit in the corresponding input unit.
  • a third symbol i.e., ⁇ E >
  • the sequence conversion apparatus repeatedly derives an output symbol from the input unit in which the first symbol is inserted every time the viewpoint is incremented (S803).
  • the sequence conversion apparatus can derive the output sequence for the entire input sequence by deriving the output symbol repeatedly for each input unit.
  • FIG. 9 is a block diagram illustrating a configuration of a sequence conversion apparatus for performing sequence-to-sequence conversion according to an embodiment of the present invention.
  • a sequence conversion apparatus 900 includes a communication module 910, a memory 920, and a processor 930.
  • the communication module 910 is connected to the processor 930 to transmit and / or receive a wired / wireless signal with an external device.
  • the communication module 910 may include a modem for modulating a signal transmitted to transmit and receive data, and for demodulating the received signal.
  • the communication module 910 can transmit a voice signal or the like received from an external device to the processor 930, and can transmit text and the like received from the processor 930 to an external device.
  • an input unit and an output unit may be included.
  • the input unit may receive a voice signal or the like, and may transmit the voice or the like to the processor 930, and the output unit may output the text or the like received from the processor 930.
  • the memory 920 is connected to the processor 930 and stores information, programs, and data necessary for the operation of the sequence conversion apparatus 900.
  • Processor 930 implements the functions, processes and / or methods suggested in Figs. 1-8 described above.
  • the processor 930 may perform the data processing function of controlling the signal flow between the internal blocks of the sequence converter 900 and processing the data as described above.
  • Embodiments in accordance with the present invention may be implemented by various means, for example, hardware, firmware, software, or a combination thereof.
  • an embodiment of the present invention may include one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs) field programmable gate arrays, processors, controllers, microcontrollers, microprocessors, and the like.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • an embodiment of the present invention may be implemented in the form of a module, a procedure, a function, or the like which performs the functions or operations described above.
  • the software code can be stored in memory and driven by the processor.
  • the memory is located inside or outside the processor and can exchange data with the processor by various means already known.
  • the present invention can be applied to various machine translation fields.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

변환 수행 방법 및 이를 위한 장치가 개시된다. 구체적으로, 시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 방법에 있어서, 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하는 단계, 상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하는 단계 및 상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 단계를 포함할 수 있다.

Description

변환 수행 방법 및 이를 위한 장치
본 발명은 시퀀스-대-시퀀스(sequence-to-sequence) 변환 방법에 관한 것으로서, 보다 상세하게 시퀀스-대-시퀀스 변환을 위한 모델링 방법을 수행하기 위한 방법 및 이를 지원하는 장치에 관한 것이다.
시퀀스-대-시퀀스(sequence-to-sequence) 변환 기법은 스트링(string)/시퀀스(sequence) 형태의 입력을 또 다른 스트링/시퀀스로 변환하는 기법이다. 기계번역, 자동요약 및 각종 언어처리 등에서 이용될 수 있으나, 실제로 컴퓨터 프로그램을 입력 비트의 시퀀스를 입력 받아 출력 비트의 시퀀스를 출력하는 모든 작업으로 인식될 수 있다. 즉, 모든 단일 프로그램은 특정 동작을 표현하는 시퀀스-대-시퀀스 모델이라고 지칭될 수 있다.
최근에는 딥러닝(deep learning) 기법이 도입되어 시퀀스-대-시퀀스(sequence-to-sequence) 변환 모델링의 높은 품질을 보이고 있다. 대표적으로, 반복적인 신경망(RNN: Recurrent Neural Network) 타입과, 시간 지연 신경망(TDNN: Time Delay Neural Network)이 이용된다.
본 발명의 목적은, 경험적 어텐션(Heuristic Attention)이 있는 Window Shiftted Neural Network(이하 AWSNN) 모델링 기법을 제안한다.
또한, 본 발명의 목적은, TDNN 등 기존의 window shift 기반 모델에서 변환 지점을 명시적으로 나타낼 수 있는 지점(꼭지)를 추가하는 방법을 제안한다.
또한, 본 발명의 목적은, RNN을 사용하는 NMT(Neural machine translation)의 어텐션(attention)과 같은 역할을 할 수 있는 학습 구조를 제안한다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 양상은, 시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 방법에 있어서, 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하는 단계, 상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하는 단계 및 상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 단계를 포함할 수 있다.
본 발명의 다른 일 양상은, 시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 장치에 있어서, 상기 장치에 입력된 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하고, 상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하며, 상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 프로세서를 포함하도록 구성될 수 있다.
바람직하게, 상기 시점이 증가되더라도 상기 제1 심볼의 위치가 증가됨에 따라 상기 입력 단위 내에서 상기 제1 심볼의 위치는 고정될 수 있다.
바람직하게, 현재 시점의 이전 시점에서의 출력 심볼이 상기 입력 단위 내 원래 심볼들에 이어서 삽입될 수 있다.
바람직하게, 상기 입력 단위 내 원래 심볼들과 상기 입력 단위에 삽입된 출력 심볼을 구분하기 위한 제2 심볼이 상기 입력 단위 내 삽입될 수 있다.
바람직하게, 상기 입력 단위에 삽입된 출력 심볼의 종료 지점을 지시하기 위한 제3 심볼이 상기 입력 단위 내 삽입될 수 있다.
본 발명의 실시예에 따르면, 좁은 문맥 정보만 사용해도 되는 시퀀스-대-시퀀스 변환에 있어서 부작용을 줄이고 정확도를 향상시킬 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 일반적인 시간 지연 신경망(TDNN: Time Delay Neural Network)을 예시한다.
도 2는 M개의 입력과 시점 t에서 각 입력 별로 N개의 지연을 가지는 단일 시간-지연 뉴런(TDN: time-delay neurons)을 예시한다.
도 3은 TDNN 뉴럴 네트워크의 전체적인 아키텍처를 예시한다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 시퀀스 변환 방법의 일례를 예시한다.
도 6 및 도 7은 본 발명의 일 실시예에 따른 시퀀스 변환 방법의 다른 일례를 예시한다.
도 8은 본 발명의 일 실시예에 따른 시퀀스-대-시퀀스 변환을 수행하기 위한 시퀀스 변환 방법을 예시하는 도면이다.
도 9는 본 발명의 일 실시예에 따른 시퀀스-대-시퀀스 변환을 수행하기 위한 시퀀스 변환 장치의 구성을 설명하기 위한 블록도이다.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.
몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.
본 발명에서는 경험적인 어텐션(Heuristic Attention)을 이용한 시퀀스-대-시퀀스 변환 방법을 제안한다.
도 1은 일반적인 시간 지연 신경망(TDNN: Time Delay Neural Network)을 예시한다.
시간 지연 신경망(TDNN: Time Delay Neural Network)은 패턴의 시작과 끝점을 명시적으로 사전에 결정할 필요가 없는 패턴을 불변으로(shift-invariantly) 분류하는 것을 주목적으로 하는 인공 신경망 구조이다. TDNN은 자동적인 음성 인식을 위해 음성 신호 내에서 음소(phoneme)를 분류하도록 제안되었으며, 정확한 세그먼트 또는 특징 경계의 자동적으로 결정하는 것은 어렵거나 불가능하다. TDNN은 시간-이동(time-shift), 즉 시간의 위치와 관계없이 음소 및 그 근본적인 음향/소리 특징을 인식한다.
입력 신호(input signal)는 지연된 사본을 다른 입력으로 증가시키며, 신경망은 내부 상태가 없으므로 시간-이동(time-shift) 불변이다.
TDNN은 다른 신경망과 마찬가지로 클러스터로 구성된 다수 개의 상호 연결된 레이어로 동작한다. 이들 클러스터는 뇌의 뉴런을 나타내기 위한 것이고 뇌와 마찬가지로 각 클러스터는 입력의 작은 영역에만 초점을 맞출 필요가 있다. 전형적인 TDNN은 입력을 위한 계층, 출력을 위한 계층 그리고 필터를 통한 입력의 조작을 처리하는 중간 계층의 세 개의 클러스터의 계층을 가진다. 순차적 특성으로 인하여, TDNN은 반복적인 신경망(recurrent neural network) 대신 피드포워드 신경망(feedforward neural network)로 구현된다.
시간-이동(time-shift) 불변성을 달성하기 위해, 입력(예를 들어, 오디오 파일, 이미지 등)에 지연의 세트가 추가되어 데이터가 다른 시점에서 표현된다. 이러한 지연은 임의적이며 특정 애플리케이션에만 적용되며, 이는 일반적으로 입력 데이터가 특정 지연 패턴에 맞게 사용자 정의되어 있음을 의미한다.
수동의 튜닝이 근절되는 적응적인 TDNN(ATDNN: Adaptable Time-Delay Neural Network)을 만드는 작업이 수행되어 왔다. 지연은 슬라이딩 윈도우(sliding window)를 갖는 반복적인 신경망(RNN: Recurrent Neural Network) 또는 다중층 퍼셉트론(MLP: Multi-Layer Perceptron)에 존재하지 않는 네트워크에 시간 차원을 추가하려는 시도이다. 과거 입력과 현재 입력의 조합은 TDNN의 접근 방식을 독창적으로 만든다.
TDNN의 핵심 기능은 시간에 따른 입력 간의 관계를 표현하는 것이다. 이 관계는 특성 검출기의 결과일 수 있으며 지연된 입력 사이의 패턴을 인식하기 위해 TDNN 내에서 사용된다.
신경망의 주요 장점 중 하나는 각 계층에서 필터의 뱅크를 설정하기 위한 사전 지식에 대한 의존성이 약하다는 것이다. 그러나, 이로 인하여 네트워크는 수많은 훈련 입력(training input)을 처리함으로써 이들 필터에 대한 최적의 값을 배워야 한다. 패턴 인식(pattern recognition) 및 함수 근사(function approximation)에 대한 강점으로 인하여 감독 학습(supervised learning)이 일반적으로 TDNN과 관련된 학습 알고리즘에 해당한다. 감독 학습은 일반적으로 역 전파 알고리즘(back propagation algorithm)으로 구현된다.
도 1을 참조하면, 히든 계층(hidden layer)은 입력 계층(input layer)의 전체 입력 중 특정 지점 T부터 T+2ΔT까지만을 대상으로 하여 결과를 도출하고, 이 과정을 출력 계층(output layer)까지 반복한다. 즉, 히든 계층(hidden layer)의 유닛(박스)은 입력 계층(input layer)의 전체 입력 중 특정 지점 T부터 T+2ΔT까지의 각각의 유닛(박스)에 가중치가 곱해지고 바이어스(bias) 값이 더해진 값들이 합산되어 도출된다.
이하, 본 발명의 설명에 있어서, 설명의 편의 상 도 1의 각 시점(즉, T, T+ΔT, T+2ΔT, ...)에서의 블록을 심볼이라고 지칭하나, 이를 프레임, 특징 벡터(feature vector) 등으로 지칭할 수도 있다. 또한, 이는 의미 상으로 음소(phoneme), 형태소(morpheme), 음절 등에 해당될 수 있다.
도 1에서는 입력 계층(input layer)는 3개의 지연(delay)를 가지며, 출력 계층(output layer)는 히든 계층(hidden layer) 내 음소 활성화(phoneme activation)의 4개의 프레임들을 통합함으로써 계산된다.
도 1은 하나의 예시에 불과하며, 지연의 수, 히든 계층(hidden layer)의 수는 이에 한정되지 않는다.
도 2는 M개의 입력과 시점 t에서 각 입력 별로 N개의 지연을 가지는 단일 시간-지연 뉴런(TDN: time-delay neurons)을 예시한다.
도 2에서
Figure PCTKR2017013919-appb-I000001
는 지연된 입력
Figure PCTKR2017013919-appb-I000002
의 값들을 저장하는 레지스터(register)이다.
상술한 바와 같이, TDNN은 직접적인 연결에 의해 모든 유닛(노드)들이 완전-연결된(fully-connected) 인공 뉴럴 네트워크 모델이다. 각 유닛은 시변하며(time-varying) 실수인(real-valued) 활성화(activation)를 가지며, 각 연결은 수정가능한 실수인(real-valued) 가중치를 가진다. 히든 계층(hidden layer) 및 출력 계층(output layer) 내 노드들은 시간-지연 뉴런(TDN: Time-Delay Neuron)에 해당한다.
단일 TDN은 M개의 입력(
Figure PCTKR2017013919-appb-I000003
,
Figure PCTKR2017013919-appb-I000004
,...,
Figure PCTKR2017013919-appb-I000005
)과 하나의 출력(
Figure PCTKR2017013919-appb-I000006
)를 가지고, 이들 입력들은 시간 단계 t에 따라 시계열적(time series)이다. 각 입력
Figure PCTKR2017013919-appb-I000007
(i=1,2,..., M) 별로, 하나의 바이어스 값(bias value)
Figure PCTKR2017013919-appb-I000008
, 그리고 이전의 입력들
Figure PCTKR2017013919-appb-I000009
(d=1,..., N)을 저장하는 N개의 지연들(도 2에서
Figure PCTKR2017013919-appb-I000010
, ...,
Figure PCTKR2017013919-appb-I000011
), 그리고 관련된 N개의 독립된 가중치 (
Figure PCTKR2017013919-appb-I000012
,
Figure PCTKR2017013919-appb-I000013
,...,
Figure PCTKR2017013919-appb-I000014
)가 존재한다. F는 변환 함수 f(x)이다(도 2에서는 비선형 시그모이드 함수(sigmoid function)를 예시한다.). 단일 TDN 노드는 아래 수학식 1과 같이 나타낼 수 있다.
Figure PCTKR2017013919-appb-M000001
수학식 1로부터, 현재 시간 단계 t에서의 입력과 이전 시간 단계 t-d (d=1,...,N)에서의 입력이 뉴런(neuron)의 전체 출력에 반영된다. 단일 TDN은 시계열적인 입력들이 특징인 동적인 비선형 동작을 모델링하기 위해 사용될 수 있다.
도 3은 TDNN 뉴럴 네트워크의 전체적인 아키텍처를 예시한다.
도 3에서는 TDN을 가지는 완전-연결된(fully-connected) 뉴럴 네트워크 모델을 예시하며, 히든 계층은 J개의 TDN을 가지고, 출력 계층은 R개의 TDN을 가진다.
출력 계층은 아래 수학식 2와 같이 나타낼 수 있으며, 히든 계층은 아래 수학식 3과 같이 나타낼 수 있다.
Figure PCTKR2017013919-appb-M000002
Figure PCTKR2017013919-appb-M000003
수학식 2 및 3에서
Figure PCTKR2017013919-appb-I000015
Figure PCTKR2017013919-appb-I000016
를 가지는 히든 노드
Figure PCTKR2017013919-appb-I000017
의 가중치이고,
Figure PCTKR2017013919-appb-I000018
는 바이어스 값
Figure PCTKR2017013919-appb-I000019
를 가지는 출력 노드
Figure PCTKR2017013919-appb-I000020
의 가중치이다.
수학식 2 및 3에서 볼 수 있듯이, TDNN은 히든 계층 및 출력 계층의 노드 내 지연들을 가지는 완전-연결된(fully-connected) 전방-피드백(forward-feedback) 뉴럴 네트워크 모델이다. 출력 계층 내 노드들을 위한 지연의 개수는
Figure PCTKR2017013919-appb-I000021
이고, 히든 계층 내 노드들을 위한 지연의 개수는
Figure PCTKR2017013919-appb-I000022
이다. 노드 별로 지연 파라미터 N이 상이하면, 이를 분산된(distributed) TDNN으로 지칭할 수 있다.
지도 학습(supervised learning)
이산(discrete) 시간 설정에서의 감독 학습(supervised learning)의 경우, 실수 값 입력 벡터 (예를 들어, 비디오 프레임 피처의 시퀀스를 나타내는)의 트레이닝 세트 시퀀스는 한번에 하나의 입력 벡터를 갖는 입력 노드의 활성화 시퀀스이다. 임의의 주어진 시간 단계에서, 각각의 비-입력 유닛은 연결된 모든 유닛의 활성화의 가중 합계의 비선형 함수로서 현재의 활성화를 계산한다. 감독 학습에서 각 시간 단계의 타겟 라벨(target label)은 오류를 계산하는 데 사용된다. 각 시퀀스의 오류는 해당 타겟 라벨(target label)의 출력 노드에서 네트워크에 의해 계산된 활성화의 편차의 합계이다. 트레이닝 세트의 경우, 전체 오차는 각 개별 입력 시퀀스에 대해 계산된 오차의 합계이다. 교육 알고리즘은 이 오류를 최소화하도록 설계된다.
앞서 살펴본 바와 같이, TDNN은 한정된 영역에서 의미있는 값을 도출하는 과정을 반복하고, 도출된 결과에서 다시 동일한 과정을 반복함으로써 지엽적이지 않은 좋은 결과를 도출하는 용도로 적합한 모델이다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 시퀀스 변환 방법의 일례를 예시한다.
도 4 및 도 5에서 <S>는 문장의 시작을 지시하는 심볼이고, </S>는 문장의 종료를 지시하는 심볼이다.
도 4 및 도 5에서 도시된 삼각형의 일례로서 다중층 퍼셉트론(MLP: Multi-Layer Perceptron)에 해당될 수도 있으며, 또는 콘볼루션 신경망(CNN: convolutional neural network)에 해당될 수도 있다. 다만, 본 발명이 이에 한정되는 것은 아니며 입력 시퀀스로부터 타겟 시퀀스를 도출/계산하기 위한 다양한 모델이 이용될 수 있다.
도 4 및 도 5에서 삼각형의 밑변은 앞서 도 1에서의 T부터 T+2ΔT에 해당된다. 그리고, 삼각형의 위 꼭지점은 앞서 도 1에서의 출력 계층(output layer)에 해당한다.
도 4를 참조하면, "wha ggo chi"로부터 "꽃"이 도출될 수 있으며, 도 5를 참조하면, "ggo chi pi"로부터 "이"가 도출될 수 있다.
이때, 도 4에서 "wha ggo chi"로부터 "화" 또는 "이" 또는 "치"가 도출되어서는 안 된다. 또한, 도 5에서 "ggo chi pi"로부터 "꼬" 또는 "꽃" 또는 "피"가 도출되어서는 안 된다.
기존의 TDNN를 이용하여 이러한 잘못된 출력을 도출하지 않기 위한 학습을 수행하기 위해서는 많은 시간이 필요하게 된다. 또한, 학습의 결과가 반드시 정확성을 현저하게 향상시키지 않을 수도 있다.
본 발명에 따른 변환 수행 기법(예를 들어, Window Shiftted Neural Network with Heuristic Attention(이하 AWSNN))은 이런 비효율성을 간단하게 해결하기 위해, 현재 시점에 집중할 지점(제1 심볼(꼭지), <P>)을 직접 알려주는 방법을 제안한다. 즉, 현재 시퀀스-대-시퀀스 변환이 적용되는 입력 단위(즉, 앞서 도 1의 예시에서 T부터 T+2ΔT까지의 입력) 내에서 집중할 지점을 지시하는 심볼 <P>가 해당 입력 시퀀스에 추가/삽입될 수 있다.
AWSNN에서 이것이 가능한 이유는 입력과 출력 단위가 1대 1이기 때문이다. 물론, 글자 수나 단어 수가 1:1로 들어맞지 않을 수는 있다.
시퀀스-대-시퀀스 변환이 수행되는 시점 T가 T+1로 변할 때, 해당 입력 단위 내 집중할 지점을 지시하는 심볼 <P>의 시점/위치도 +1이 된다. 즉, <P>는 AWSNN의 입장에서 보면 입력 단위 내에서 항상 같은 위치에 있게 된다.
AWSNN에서는 입력 단위 내 속하는 다른 심볼들 보다 심볼 <P> 다음에 위치하는 심볼에 보다 큰 가중치(예를 들어, 가장 큰 가중치)를 부여할 수 있다.
도 6 및 도 7은 본 발명의 일 실시예에 따른 시퀀스 변환 방법의 다른 일례를 예시한다.
도 6 및 도 7에서 <S>는 문장의 시작을 지시하는 심볼이고, </S>는 문장의 종료를 지시하는 심볼이다.
도 6 및 도 7에서 삼각형은 다중층 퍼셉트론(MLP: Multi-Layer Perceptron)에 해당될 수도 있으며, 또는 콘볼루션 신경망(CNN: convolutional neural network)에 해당될 수도 있다.
도 6 및 도 7에서 삼각형의 밑변은 앞서 도 1에서의 T부터 T+2ΔT에 해당된다. 그리고, 삼각형의 위 꼭지점은 앞서 도 1에서의 출력 계층(output layer)에 해당한다.
도 6 및 도 7은 앞서 예시한 도 4 및 도 5와 유사하다. 단, 직전에 생성한 결과물의 마지막 부분을 입력으로 다시 사용한다는 점이 다르다.
도 6을 참조하면, 원래 입력인 "wha ggo chi" 다음에 직전에 생성한 출력인 "궁 화"가 입력으로 다시 사용되는 것을 예시한다.
도 7을 참조하면, 원래 입력인 "ggo chi pi" 다음에 직전에 생성한 출력인 "화 꽃"이 입력으로 다시 사용되는 것을 예시한다.
이때, 도 6 및 도 7에서는 직전에 생성한 출력 중 2개의 심볼을 다시 입력으로 이용하는 경우를 예시하고 있으나, 이는 설명의 편의를 위한 것이며 반드시 2개의 심볼로 본 발명이 한정되는 것은 아니다.
본 발명의 일 실시예에 따르면, 직전에 생성한 결과물에서 온 입력과, 원래 입력을 구분하기 위해 또 다른 제2 심볼(꼭지) <B>가 추가될 수 있다. 즉, 직전에 생성한 결과물에서 온 입력과 원래 입력의 사이의 지점을 지시하는 심볼 <B>가 해당 입력 단위에 추가/삽입될 수 있다.
또는, 결과물에서 온 입력의 끝(새 결과물과의 경계)을 표시하기 위해 또 다른 제3 심볼(꼭지) <E>가 추가될 수 있다. 즉, 직전에 생성한 결과물에서 온 입력의 종료 지점을 지시하는 심볼 <E>가 해당 입력 단위에 추가/삽입될 수 있다.
또한, <B>에 해당하는 부분과 <E>에 해당하는 부분 사이의 각 입력 단위에 모두 <B>를 추가/삽입할 수 있다.
도 6 및 도 7에서는 설명의 편의를 위해 제1 지점(P), 제2 지점(B), 제3 지점(E)가 모두 사용되는 경우를 예시하고 있으나, 셋 중 어느 하나 이상만이 사용될 수도 있다.
만약, 직전 결과물이 없는 처음에는 제2 지점(B) 및/또는 제3 지점(E) 등으로 패딩할 수 있다.
여기서, 각 지점(P, B, E)은 상호 간에 구분되고 또한 다른 입력 단위 들과 구분되는 값이기만 하면 충분하다. 다시 말해, 반드시 P, B, E일 필요가 없으며 문자로 표기해야 하는 기호일 필요도 없다.
본 발명에 따른 각 지점은 순환 신경망(RNN: Recurrent Neural Network)를 사용하는 인공신경망 기반 기계 번역(NMT: Neural Machine Translation)의 어텐션(attention)과 같은 역할을 담당한다. 즉, 집중해야 할 부분이 어디인지를 명시적으로 알려주는 역할을 담당한다.
본 발명의 실시예에 따른 시퀀스 변환 방법에 대해서 보다 상세하게 설명하기로 한다.
도 8은 본 발명의 일 실시예에 따른 시퀀스-대-시퀀스 변환을 수행하기 위한 시퀀스 변환 방법을 예시하는 도면이다.
도 8을 참조하면, 시퀀스 변환 장치는 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분한다(S801).
여기서, 입력 단위는 앞서 도 1에서 예시한 바와 같이 전체 입력 중에서 특정 지점 T부터 T+2ΔT까지만을 대상으로 할 수 있다. 그리고, t가 변경(증가)될 때마다 이와 함께 입력 단위가 변경될 수 있다.
시퀀스 변환 장치는 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼(즉, <P>)을 입력 단위 내 삽입한다(S802).
여기서, 시점이 증가(예를 들어, +1)되더라도 제1 심볼의 위치가 증가(예를 들어, +1)됨에 따라 입력 단위 내에서 제1 심볼의 위치는 고정될 수 있다.
또한, 시퀀스 변환 장치는 현재 시점(예를 들어, t)의 이전 시점(예를 들어, t-1, t-2)에서의 출력 심볼이 입력 단위 내 원래 심볼들에 이어서 삽입할 수 있다.
그리고, 시퀀스 변환 장치는 입력 단위 내 원래 심볼들과 입력 단위에 삽입된 출력 심볼을 구분하기 위한 제2 심볼(즉, <B>)을 해당 입력 단위 내 삽입할 수 있다.
또한, 시퀀스 변환 장치는 입력 단위에 삽입된 출력 심볼의 종료 지점을 지시하기 위한 제3 심볼(즉, <E>)을 해당 입력 단위 내 삽입할 수 있다.
시퀀스 변환 장치는 시점이 증가될 때마다 반복적으로 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출한다(S803).
위와 같이 시퀀스 변환 장치는 각 입력 단위 별로 반복적으로 출력 심볼을 도출함으로써, 전체 입력 시퀀스에 대한 출력 시퀀스를 도출할 수 있다.
본 발명의 실시예에 따른 시퀀스 변환 장치의 구성에 대해서 보다 상세하게 설명하기로 한다.
도 9는 본 발명의 일 실시예에 따른 시퀀스-대-시퀀스 변환을 수행하기 위한 시퀀스 변환 장치의 구성을 설명하기 위한 블록도이다.
도 9를 참조하면, 본 발명의 실시예에 따른 시퀀스 변환 장치(900)는 통신모듈(communication module, 910), 메모리(memory, 920) 및 프로세서(processor, 930)을 포함한다.
통신모듈(910)은 프로세서(930)와 연결되어, 외부의 장치와 유/무선 신호를 송신 및/또는 수신한다. 통신모듈(910)은 데이터를 송수신하기 위해 송신되는 신호를 변조하고, 수신되는 신호를 복조하는 모뎀(Modem)을 포함할 수 있다. 특히, 통신모듈(910)은 외부 장치로부터 수신한 음성 신호 등을 프로세서(930)로 전달할 수 있으며, 프로세서(930)로부터 전달 받은 텍스트 등을 외부 장치에게 전송할 수 있다.
또는, 통신모듈(910) 대신에 입력부 및 출력부가 포함될 수도 있다. 이 경우, 입력부는 음성 신호 등을 입력 받아 프로세서(930)로 전달할 수 있으며, 출력부는 프로세서(930)로부터 전달 받은 텍스트 등을 출력할 수 있다.
메모리(920)는 프로세서(930)와 연결되어, 시퀀스 변환 장치(900)의 동작에 필요한 정보, 프로그램 및 데이터를 저장하는 역할을 수행한다.
프로세서(930)는 앞서 설명한 도 1 내지 도 8에서 제안된 기능, 과정 및/또는 방법을 구현한다. 또한, 프로세서(930)는 앞서 설명한 또한 시퀀스 변환 장치(900)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다.
본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.
본 발명은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 다양한 기계 번역 분야에 적용될 수 있다.

Claims (6)

  1. 시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 방법에 있어서,
    전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하는 단계;
    상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하는 단계; 및
    상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 단계를 포함하는 시퀀스 변환 방법.
  2. 제1항에 있어서,
    상기 시점이 증가되더라도 상기 제1 심볼의 위치가 증가됨에 따라 상기 입력 단위 내에서 상기 제1 심볼의 위치는 고정되는 시퀀스 변환 방법.
  3. 제1항에 있어서,
    현재 시점의 이전 시점에서의 출력 심볼이 상기 입력 단위 내 원래 심볼들에 이어서 삽입되는 시퀀스 변환 방법.
  4. 제3항에 있어서,
    상기 입력 단위 내 원래 심볼들과 상기 입력 단위에 삽입된 출력 심볼을 구분하기 위한 제2 심볼이 상기 입력 단위 내 삽입되는 시퀀스 변환 방법.
  5. 제3항에 있어서,
    상기 입력 단위에 삽입된 출력 심볼의 종료 지점을 지시하기 위한 제3 심볼이 상기 입력 단위 내 삽입되는 시퀀스 변환 방법.
  6. 시퀀스-대-시퀀스(sequence-to-sequence) 변환을 수행하는 장치에 있어서,
    상기 장치에 입력된 전체 입력을 각 시점 별로 변환이 수행되는 단위인 입력 단위로 구분하고, 상기 입력 단위에 속한 심볼들 중 가장 높은 가중치가 부여되어야 하는 심볼의 위치를 지시하는 제1 심볼을 상기 입력 단위 내 삽입하며, 상기 시점이 증가될 때마다 반복적으로 상기 제1 심볼이 삽입된 입력 단위로부터 출력 심볼을 도출하는 프로세서를 포함하는 장치.
PCT/KR2017/013919 2017-11-30 2017-11-30 변환 수행 방법 및 이를 위한 장치 WO2019107612A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/KR2017/013919 WO2019107612A1 (ko) 2017-11-30 2017-11-30 변환 수행 방법 및 이를 위한 장치
CN201780097200.5A CN111386535A (zh) 2017-11-30 2017-11-30 进行变换的方法及其装置
US16/766,644 US20210133537A1 (en) 2017-11-30 2017-11-30 Translation method and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2017/013919 WO2019107612A1 (ko) 2017-11-30 2017-11-30 변환 수행 방법 및 이를 위한 장치

Publications (1)

Publication Number Publication Date
WO2019107612A1 true WO2019107612A1 (ko) 2019-06-06

Family

ID=66665107

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/013919 WO2019107612A1 (ko) 2017-11-30 2017-11-30 변환 수행 방법 및 이를 위한 장치

Country Status (3)

Country Link
US (1) US20210133537A1 (ko)
CN (1) CN111386535A (ko)
WO (1) WO2019107612A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994002907A1 (en) * 1992-07-16 1994-02-03 British Telecommunications Public Limited Company Dynamic neural networks
KR20140054267A (ko) * 2011-08-16 2014-05-08 퀄컴 인코포레이티드 뉴럴 시간적 코딩, 학습 및 인식을 위한 방법 및 장치
KR20150016089A (ko) * 2013-08-02 2015-02-11 안병익 신경망 컴퓨팅 장치 및 시스템과 그 방법
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
KR20160102690A (ko) * 2015-02-23 2016-08-31 삼성전자주식회사 신경망 학습 방법 및 장치, 및 인식 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945693B (zh) * 2005-10-09 2010-10-13 株式会社东芝 训练韵律统计模型、韵律切分和语音合成的方法及装置
US20170308526A1 (en) * 2016-04-21 2017-10-26 National Institute Of Information And Communications Technology Compcuter Implemented machine translation apparatus and machine translation method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994002907A1 (en) * 1992-07-16 1994-02-03 British Telecommunications Public Limited Company Dynamic neural networks
KR20140054267A (ko) * 2011-08-16 2014-05-08 퀄컴 인코포레이티드 뉴럴 시간적 코딩, 학습 및 인식을 위한 방법 및 장치
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
KR20150016089A (ko) * 2013-08-02 2015-02-11 안병익 신경망 컴퓨팅 장치 및 시스템과 그 방법
KR20160102690A (ko) * 2015-02-23 2016-08-31 삼성전자주식회사 신경망 학습 방법 및 장치, 및 인식 방법 및 장치

Also Published As

Publication number Publication date
US20210133537A1 (en) 2021-05-06
CN111386535A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN110968660B (zh) 基于联合训练模型的信息抽取方法和***
WO2021162362A1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
WO2020111314A1 (ko) 개념 그래프 기반 질의응답 장치 및 방법
WO2021194056A1 (en) Method for training deep learning network based on artificial intelligence and learning device using the same
WO2019004582A1 (ko) 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치
WO2022059969A1 (ko) 심전도 데이터 분류를 위한 심층 신경망 사전 학습 방법
WO2021132797A1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법
WO2021095987A1 (ko) 다중타입 엔티티에 기반한 지식 보완 방법 및 장치
WO2019164250A1 (ko) 완전 연결 네트워크의 데이터 입력 및 출력을 제어하는 방법 및 장치
WO2020246655A1 (ko) 상황 인지 방법 및 이를 수행하는 장치
WO2022163996A1 (ko) 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
WO2018212584A2 (ko) 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
WO2019107625A1 (ko) 기계 번역 방법 및 이를 위한 장치
WO2023128093A1 (ko) 반도체 설계에서 사용자 학습 환경 기반의 강화학습 장치 및 방법
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2020213785A1 (ko) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
WO2019107612A1 (ko) 변환 수행 방법 및 이를 위한 장치
WO2022145611A1 (ko) 전자 장치 및 그 제어 방법
WO2022114368A1 (ko) 뉴로 심볼릭 기반 릴레이션 임베딩을 통한 지식완성 방법 및 장치
WO2019198900A1 (en) Electronic apparatus and control method thereof
WO2019107624A1 (ko) 시퀀스-대-시퀀스 번역 방법 및 이를 위한 장치
WO2023277448A1 (ko) 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템
KR20190063540A (ko) 변환 수행 방법 및 이를 위한 장치
WO2022114322A1 (ko) 딥 러닝 알고리즘 기반의 이미지 오브젝트 속성 주의 모델을 이용한 이미지 캡션 자동 생성 시스템 및 방법
WO2023033498A1 (ko) 음성 인식 플랫폼을 활용한 인공지능 기반의 수술결과보고서 제공 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17933310

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17933310

Country of ref document: EP

Kind code of ref document: A1