KR102258906B1 - Method and apparatus for spoken language to sign language translation using attention-based artificial neural machine translation approach - Google Patents

Method and apparatus for spoken language to sign language translation using attention-based artificial neural machine translation approach Download PDF

Info

Publication number
KR102258906B1
KR102258906B1 KR1020190086169A KR20190086169A KR102258906B1 KR 102258906 B1 KR102258906 B1 KR 102258906B1 KR 1020190086169 A KR1020190086169 A KR 1020190086169A KR 20190086169 A KR20190086169 A KR 20190086169A KR 102258906 B1 KR102258906 B1 KR 102258906B1
Authority
KR
South Korea
Prior art keywords
sentence
sign language
spoken
neural network
artificial neural
Prior art date
Application number
KR1020190086169A
Other languages
Korean (ko)
Other versions
KR20200132619A (en
Inventor
박종철
김정호
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20200132619A publication Critical patent/KR20200132619A/en
Application granted granted Critical
Publication of KR102258906B1 publication Critical patent/KR102258906B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 주의 기반 인공신경망 기계 번역 모델을 사용하여 구어에서 수어로 번역하는 인공신경망 기계 번역 방법 및 그 장치에 관한 것으로, 구어 문장에서 언어학적 자질들을 추출하는 단계, 상기 구어 문장 및 상기 언어학적 자질들을 병렬 임베딩하여 하나의 벡터로 결합하는 단계 및 상기 결합된 벡터에 의한 벡터화된 문장을 인공신경망 번역 모델에 입력하여 수어 단어 시퀀스를 출력하는 단계를 포함한다.The present invention relates to an artificial neural network machine translation method and apparatus for translating from spoken language to sign language using an attention-based neural network machine translation model, the steps of extracting linguistic features from spoken sentences, the spoken sentences and the linguistic qualities and combining them into a single vector by embedding them in parallel, and outputting a sign language word sequence by inputting a sentence vectorized by the combined vector into an artificial neural network translation model.

Description

구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치{METHOD AND APPARATUS FOR SPOKEN LANGUAGE TO SIGN LANGUAGE TRANSLATION USING ATTENTION-BASED ARTIFICIAL NEURAL MACHINE TRANSLATION APPROACH}Attention-based artificial neural network machine translation method from spoken language to sign language and its apparatus {METHOD AND APPARATUS FOR SPOKEN LANGUAGE TO SIGN LANGUAGE TRANSLATION USING ATTENTION-BASED ARTIFICIAL NEURAL MACHINE TRANSLATION APPROACH}

본 발명은 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치에 관한 것으로, 보다 상세하게는 주의 기반 인공신경망 기계 번역 모델을 사용하여 구어에서 수어로 번역하는 기술에 관한 것이다. The present invention relates to a method and apparatus for an attention-based artificial neural network machine translation from spoken language to sign language, and more particularly, to a technology for translating from spoken language to sign language using an attention-based artificial neural network machine translation model.

인공신경망 기반의 번역 기술은 최근 매우 빠르게 성장하고 있다. 이는 매년 더 자연스러운 표현을 생성해내고, 그에 따라 번역 품질 또한 상승하고 있다.Translation technology based on artificial neural networks is growing very rapidly recently. It produces more natural representations every year, and the translation quality is also rising accordingly.

번역 기술 중 구어(spoken language) 간 번역에서는 인공신경망 기반의 기계 번역 연구가 매우 활발히 되고 있으나, 구어에서 수어(sign language), 또는 그 반대 방향의 번역은 아직 진행된 연구가 부족하다. 특히, 한국어에서 한국수어로의 인공신경망 기반 기계 번역 기술 도입 사례는 보고된 바 없다.Among the translation technologies, artificial neural network-based machine translation research is very active in translation between spoken languages, but studies on translation from spoken language to sign language or vice versa are still lacking. In particular, there has been no report on the introduction of artificial neural network-based machine translation technology from Korean to Korean sign language.

더욱이, 수어는 공간 언어(spatial language)의 특성을 가지어, 손 뿐만 아니라 얼굴(눈, 눈썹, 입, 응시 방향 등)과 상체와 같은 비수지 부분(non-manual parts)으로도 표현되는 다중채널 언어(multi-channel language)이므로, 이러한 특성으로 인해 구어 - 수어 간 번역에는 특징적인 어려움이 존재하였다. Moreover, sign language has the characteristics of a spatial language, so it is multi-channel expressed not only by hands but also by non-manual parts such as face (eyes, eyebrows, mouth, gaze direction, etc.) and upper body. Because it is a multi-channel language, there were characteristic difficulties in translation between spoken and signed languages due to these characteristics.

본 발명의 목적은 구어에서 수어로 번역하는 과정에서 인공신경망 기반의 번역 기술을 적용하며, 주의 기반 인공신경망 번역 기술을 사용하는 예시 방법을 제공하고자 한다. An object of the present invention is to provide an exemplary method of applying an artificial neural network-based translation technology in the process of translating from a spoken language to a sign language, and using the attention-based artificial neural network translation technology.

또한, 본 발명의 목적은 구어에서 수어로의 번역을 위해 구어 문장의 언어학적 분석 결과를 인공신경망 기계 번역 모델의 추가적인 입력 값으로 제공하여 보다 정확도 높은 결과를 제공하고자 한다. In addition, it is an object of the present invention to provide a more accurate result by providing a linguistic analysis result of a spoken sentence as an additional input value of an artificial neural network machine translation model for translation from spoken language to sign language.

본 발명의 실시예에 따른 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법에 있어서, 구어 문장에서 언어학적 자질들을 추출하는 단계, 상기 구어 문장 및 상기 언어학적 자질들을 병렬 임베딩하여 하나의 벡터로 결합하는 단계 및 상기 결합된 벡터에 의한 벡터화된 문장을 인공신경망 번역 모델에 입력하여 수어 단어 시퀀스를 출력하는 단계를 포함한다.In the attention-based neural network machine translation method from spoken language to sign language according to an embodiment of the present invention, the steps of extracting linguistic features from a spoken sentence, parallel embedding of the spoken sentence and the linguistic features, and combining them into one vector and outputting a sign language word sequence by inputting the vectorized sentence by the combined vector into an artificial neural network translation model.

또한, 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 방법은 구어 및 수어 병렬 말뭉치를 사용하여 주의 기반 상기 인공신경망 번역 모델을 학습시키는 단계를 더 포함할 수 있다.In addition, the method for machine translation from spoken language to sign language according to an embodiment of the present invention may further include training the attention-based artificial neural network translation model using a verbal and sign language parallel corpus.

상기 언어학적 자질들을 추출하는 단계는 상기 구어 문장을 형태소, 문장 유형, 문장 태, 문장 시제 및 부정 표현으로 분석하여 상기 언어학적 자질들을 추출할 수 있다. In the extracting of the linguistic qualities, the linguistic qualities may be extracted by analyzing the spoken sentence into a morpheme, a sentence type, a sentence form, a sentence tense, and a negative expression.

상기 하나의 벡터로 결합하는 단계는 상기 구어 문장과 그에 대응하는 상기 언어학적 자질들을 병렬 인코딩하며, 인코딩된 벡터들을 하나의 벡터로 결합하여 상기 벡터화된 문장을 획득할 수 있다. The combining into one vector may include parallel encoding the spoken sentence and the linguistic features corresponding thereto, and combining the encoded vectors into one vector to obtain the vectorized sentence.

상기 하나의 벡터로 결합하는 단계는 상기 구어 문장의 단어(형태소)와 형태소 분석 결과, 문장 유형 결과, 문장 태 분석 결과, 문장 시제 분석 결과 및 부정 표현 분석 결과의 6개의 값을 병렬적으로 임베딩하며, 상기 6개의 임베딩 값을 결합하여 상기 벡터화된 문장을 획득할 수 있다. In the step of combining into one vector, the six values of the word (morpheme) and morpheme analysis result, sentence type result, sentence tone analysis result, sentence tense analysis result, and negative expression analysis result of the spoken sentence are embedded in parallel. , it is possible to obtain the vectorized sentence by combining the six embedding values.

상기 수어 단어 시퀀스를 출력하는 단계는 상기 인공신경망 번역 모델에 입력된 상기 벡터화된 문장을 인코더에 전달하며, 전달된 값을 주의 층에 의해 문맥 정보로 변환하여 디코더의 출력으로 사용할 수 있다. In the step of outputting the sign language word sequence, the vectorized sentence input to the artificial neural network translation model is transmitted to the encoder, and the transmitted value is converted into context information by the attention layer to be used as an output of the decoder.

상기 수어 단어 시퀀스를 출력하는 단계는 상기 디코더의 출력 값으로 수지 정보와 비수지 정보를 포함하는 상기 수어 단어 시퀀스를 출력할 수 있다.The outputting of the sign language word sequence may include outputting the sign language word sequence including resin information and non-signal information as an output value of the decoder.

상기 인공신경망 번역 모델을 학습시키는 단계는 상기 구어 문장과 이에 대응하는 상기 수어 단어 시퀀스의 쌍을 나타내는 상기 구어 및 수어 병렬 말뭉치를 사용하여 상기 인공신경망 번역 모델을 학습시킬 수 있다. In the training of the artificial neural network translation model, the artificial neural network translation model may be trained using the oral and sign language parallel corpus representing a pair of the spoken sentence and the sign language word sequence corresponding thereto.

본 발명의 실시예에 따른 구어에서 수어로의 주의 기반 인공신경망 기계 번역 장치에 있어서, 구어 문장에서 언어학적 자질들을 추출하는 추출부, 상기 구어 문장 및 상기 언어학적 자질들을 병렬 임베딩하여 하나의 벡터로 결합하는 결합부 및 상기 결합된 벡터에 의한 벡터화된 문장을 인공신경망 번역 모델에 입력하여 수어 단어 시퀀스를 출력하는 출력부를 포함한다.In the attention-based artificial neural network machine translation apparatus from spoken language to sign language according to an embodiment of the present invention, an extractor for extracting linguistic features from a spoken sentence, the spoken sentence and the linguistic features are embedded in parallel into one vector It includes a combining unit for combining and an output unit for outputting a sign language word sequence by inputting the sentence vectorized by the combined vector into an artificial neural network translation model.

또한, 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 장치는 구어 및 수어 병렬 말뭉치를 사용하여 주의 기반 상기 인공신경망 번역 모델을 학습시키는 학습부를 더 포함할 수 있다. In addition, the apparatus for verbal to sign language machine translation according to an embodiment of the present invention may further include a learning unit configured to train the attention-based artificial neural network translation model using a verbal and sign language parallel corpus.

상기 추출부는 상기 구어 문장을 형태소, 문장 유형, 문장 태, 문장 시제 및 부정 표현으로 분석하여 상기 언어학적 자질들을 추출할 수 있다. The extraction unit may extract the linguistic qualities by analyzing the spoken sentence into a morpheme, a sentence type, a sentence form, a sentence tense, and a negative expression.

상기 결합부는 상기 구어 문장과 그에 대응하는 상기 언어학적 자질들을 병렬 인코딩하며, 인코딩된 벡터들을 하나의 벡터로 결합하여 상기 벡터화된 문장을 획득할 수 있다.The combiner may parallel encode the spoken sentence and the linguistic features corresponding thereto, and combine the encoded vectors into one vector to obtain the vectorized sentence.

상기 결합부는 상기 구어 문장의 단어(형태소)와 형태소 분석 결과, 문장 유형 결과, 문장 태 분석 결과, 문장 시제 분석 결과 및 부정 표현 분석 결과의 6개의 값을 병렬적으로 임베딩하며, 상기 6개의 임베딩 값을 결합하여 상기 벡터화된 문장을 획득할 수 있다. The combining unit embeds six values of the word (morpheme) and morpheme analysis result, sentence type result, sentence tone analysis result, sentence tense analysis result, and negative expression analysis result of the spoken sentence in parallel in parallel, and the six embedding values can be combined to obtain the vectorized sentence.

상기 출력부는 상기 인공신경망 번역 모델에 입력된 상기 벡터화된 문장을 인코더에 전달하며, 전달된 값을 주의 층에 의해 문맥 정보로 변환하여 디코더의 출력으로 사용할 수 있다. The output unit may transmit the vectorized sentence input to the artificial neural network translation model to the encoder, convert the transmitted value into context information by the attention layer, and use it as an output of the decoder.

상기 출력부는 상기 디코더의 출력 값으로 수지 정보와 비수지 정보를 포함하는 상기 수어 단어 시퀀스를 출력할 수 있다. The output unit may output the sign language word sequence including resin information and non-responsibility information as an output value of the decoder.

상기 학습부는 상기 구어 문장과 이에 대응하는 상기 수어 단어 시퀀스의 쌍을 나타내는 상기 구어 및 수어 병렬 말뭉치를 사용하여 상기 인공신경망 번역 모델을 학습시킬 수 있다. The learning unit may train the artificial neural network translation model by using the oral and sign language parallel corpus representing a pair of the spoken sentence and the sign language word sequence corresponding thereto.

본 발명의 실시예에 따르면, 구어에서 수어로의 번역 결과를 주의 기반 인공신경망 기계 번역 기술을 통해 제공할 수 있다. 이에 따라, 본 발명은 기존에 제공되는 수어로의 번역보다 좀 더 자연스럽고 높은 정확도의 번역 결과를 제공할 수 있다.According to an embodiment of the present invention, a translation result from spoken language to sign language can be provided through attention-based artificial neural network machine translation technology. Accordingly, the present invention can provide a translation result that is more natural and highly accurate than the conventionally provided translation into sign language.

또한, 본 발명의 실시예에 따르면, 구어 문장의 언어학적 분석결과를 자질로 제공함으로써, 수어에서 문법적인 정보를 담고 있는 비수지 표현을 예측하는데 도움을 줄 수 있다. In addition, according to an embodiment of the present invention, by providing the result of linguistic analysis of a spoken sentence as a feature, it can be helpful in predicting a non-responsible expression containing grammatical information in a sign language.

또한, 본 발명의 실시예에 따르면, 한국어 및 한국수어에 한정되지 않는 방법이며, 다른 국가의 구어 - 수어에 알맞은 언어학적 분석방법을 통해 동일한 결과를 제공할 수 있다. In addition, according to an embodiment of the present invention, the method is not limited to Korean and Korean sign language, and the same result can be provided through a linguistic analysis method suitable for the spoken language and sign language of other countries.

도 1은 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 방법의 동작 흐름도를 도시한 것이다.
도 2는 본 발명의 실시예에 따른 구어 문장에서 언어학적 자질들을 추출하는 프로세스를 도시한 것이다.
도 3은 본 발명의 실시예에 따른 언어학적 자질들을 병렬적으로 임베딩하여 결합하는 프로세스를 도시한 것이다.
도 4는 본 발명의 실시예에 따른 벡터화된 문장으로부터 수어 단어 시퀀스를 출력하는 프로세스를 도시한 것이다.
도 5는 본 발명의 실시예에 따른 구어 및 수어 병렬 말뭉치를 사용하여 인공신경망 번역 모델을 학습시키는 프로세스를 도시한 것이다.
도 6은 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 장치의 세부 구성을 블록도로 도시한 것이다.
1 is a flowchart illustrating an operation of a method for machine translation from spoken language to sign language according to an embodiment of the present invention.
2 illustrates a process for extracting linguistic features from a spoken sentence according to an embodiment of the present invention.
3 shows a process for embedding and combining linguistic features in parallel according to an embodiment of the present invention.
4 illustrates a process for outputting a sign language word sequence from a vectorized sentence according to an embodiment of the present invention.
5 illustrates a process for training an artificial neural network translation model using a verbal and sign language parallel corpus according to an embodiment of the present invention.
6 is a block diagram illustrating a detailed configuration of a machine translation apparatus from spoken language to sign language according to an embodiment of the present invention.

이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, embodiments according to the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited or limited by the examples. In addition, like reference numerals in each figure denote like members.

또한, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 시청자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. In addition, terms used in this specification are terms used to properly express preferred embodiments of the present invention, which may vary depending on the intention of a viewer or operator, or customs in the field to which the present invention belongs. Therefore, definitions of these terms should be made based on the contents throughout the present specification.

도 1은 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 방법의 동작 흐름도를 도시한 것이다.1 is a flowchart illustrating an operation of a method for machine translation from spoken language to sign language according to an embodiment of the present invention.

도 1의 단계는 도 6에 도시된 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 장치에 의해 수행된다.The step of FIG. 1 is performed by the machine translation device from spoken language to sign language according to the embodiment of the present invention shown in FIG. 6 .

도 1을 참조하면, 단계 110에서, 구어 문장에서 언어학적 자질들을 추출한다. 이하의 본 발명에서는 한국어에서 한국수어로의 기계 번역 과정을 설명하였으나, 한국어 및 한국수어에 한정되지 않는 방법이며, 다른 언어의 구어 - 수어에 알맞게 적용 가능하다. Referring to FIG. 1 , in step 110, linguistic features are extracted from the spoken sentence. In the present invention, the process of machine translation from Korean to Korean has been described, but the method is not limited to Korean and Korean sign language, and can be appropriately applied to spoken-sign language of other languages.

단계 110은 구어 문장을 형태소, 문장 유형, 문장 태, 문장 시제 및 부정 표현으로 분석하여 언어학적 자질들을 추출할 수 있다. 예를 들면, 단계 110은 한국어 문장에 해당하는 언어학적 분석 결과를 토대로, 형태소, 문장 유형, 문장 태, 문장 시제 및 부정 표현의 언어학적 자질들로 추출할 수 있다. In operation 110, linguistic qualities may be extracted by analyzing the spoken sentence into morphemes, sentence types, sentence tones, sentence tenses, and negative expressions. For example, in step 110, based on the linguistic analysis result corresponding to the Korean sentence, morphemes, sentence types, sentence tones, sentence tenses, and linguistic qualities of negative expressions may be extracted.

단계 120에서, 구어 문장 및 언어학적 자질들을 병렬 임베딩하여 하나의 벡터로 결합한다. In step 120, the spoken sentences and linguistic features are embedded in parallel and combined into a single vector.

단계 120은 구어 문장과 그에 대응하는 언어학적 자질들을 병렬 인코딩하며, 인코딩된 벡터들을 하나의 벡터로 결합하여 벡터화된 문장을 획득할 수 있다. In step 120, the spoken sentence and the linguistic features corresponding thereto are encoded in parallel, and the encoded vectors are combined into a single vector to obtain a vectorized sentence.

예를 들면, 단계 110에서 추출된 언어학적 자질들과 한국어 문장은 단계 120에서 인공신경망 번역 모델의 입력 값으로 제공하기 위해 병렬적으로 임베딩을 한 후, 하나의 벡터로 결합되어 단어(또는 형태소) 당 하나의 벡터로 표기될 수 있다. 보다 구체적으로, 단계 120은 한국어 문장의 단어(형태소)와 언어학적 자질들을 나타내는 형태소 분석 결과, 문장 유형 결과, 문장 태 분석 결과, 문장 시제 분석 결과 및 부정 표현 분석 결과의 6개의 값을 병렬적으로 임베딩하며, 6개의 임베딩 값을 결합하여 벡터화된 문장 또는 벡터화된 한국어 문장을 획득할 수 있다.For example, the linguistic features extracted in step 110 and the Korean sentence are embedded in parallel to provide them as input values of the artificial neural network translation model in step 120, and then combined into one vector to form a word (or morpheme) It can be expressed as one vector per. More specifically, in step 120, six values of a morpheme analysis result indicating a word (morpheme) and linguistic qualities of a Korean sentence, a sentence type result, a sentence tone analysis result, a sentence tense analysis result, and a negative expression analysis result are parallelly analyzed By embedding, a vectorized sentence or a vectorized Korean sentence can be obtained by combining six embedding values.

여기서, 상기 인공신경망 번역 모델은 기계 번역(machine translation)으로, 본 발명의 구어에서 수어로의 번역을 수행할 수 있다. Here, the artificial neural network translation model is machine translation, and may perform translation from spoken language to sign language of the present invention.

단계 130에서, 결합된 벡터에 의한 벡터화된 문장을 인공신경망 번역 모델에 입력하여 수어 단어 시퀀스를 출력한다. In step 130, the vectorized sentence by the combined vector is input to the artificial neural network translation model to output a sign language word sequence.

예를 들면, 단계 130은 벡터화된 한국어 문장을 인공신경망 번역 모델에 입력값으로 사용하여 한국어 문장에 대응되는 한국수어 단어 시퀀스를 출력할 수 있다. 보다 구체적으로, 단계 130은 인공신경망 번역 모델에 입력된 벡터화된 문장을 인코더에 전달하며, 전달된 값을 주의 층에 의해 문맥 정보로 변환하여 디코더의 출력으로 사용할 수 있다. 이에, 단계 130은 디코더의 출력 값으로 수지 정보와 비수지 정보를 포함하는 수어 단어 시퀀스를 출력할 수 있다. For example, step 130 may output a Korean sign language word sequence corresponding to the Korean sentence by using the vectorized Korean sentence as an input value to the artificial neural network translation model. More specifically, in step 130, the vectorized sentence input to the artificial neural network translation model is transmitted to the encoder, and the transmitted value is converted into context information by the attention layer to be used as an output of the decoder. Accordingly, step 130 may output a sign language word sequence including resin information and non-balance information as an output value of the decoder.

또한, 도 1에 도시된 바와 같이 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 방법은 단계 140을 더 포함할 수 있다.In addition, as shown in FIG. 1 , the method for machine translation from spoken language to sign language according to an embodiment of the present invention may further include step 140 .

단계 140은 구어 및 수어 병렬 말뭉치를 사용하여 주의 기반 인공신경망 번역 모델을 학습시킬 수 있다. Step 140 may train an attention-based neural network translation model using the verbal and sign language parallel corpus.

예를 들면, 단계 140은 한국어 문장과 이에 대응하는 한국수어 단어 시퀀스의 쌍을 나타내는 구어 및 수어 병렬 말뭉치를 사용하여 인공신경망 번역 모델을 학습시킬 수 있다. For example, in step 140 , the artificial neural network translation model may be trained using a parallel corpus of spoken and sign language representing pairs of Korean sentences and corresponding Korean sign language word sequences.

도 2는 본 발명의 실시예에 따른 구어 문장에서 언어학적 자질들을 추출하는 프로세스를 도시한 것이다.2 illustrates a process for extracting linguistic features from a spoken sentence according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 실시예에 따른 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치는 한국어 문장에서 언어학적 자질들을 추출하는 추출 프로세스(220)를 수행할 수 있다. Referring to FIG. 2 , an attention-based artificial neural network machine translation method from spoken language to sign language and an apparatus therefor according to an embodiment of the present invention may perform an extraction process 220 of extracting linguistic qualities from a Korean sentence.

예를 들면, 한국어 문장(210)이 다음과 같이 “나는 수어책을 발간했습니다.”로 제공되는 경우, 본 발명은 추출 프로세스(220)를 통해 형태소 분석(221), 문장 유형 분석(222), 문장 태 분석(223), 문장 시제 분석(224) 및 부정 표현 분석(225)의 총 다섯 가지 종류의 분석 단계를 수행하여 한국어 문장(210)에 대한 언어학적 자질들을 추출할 수 있다. For example, when the Korean sentence 210 is provided as “I have published a sign language book” as follows, the present invention performs morphological analysis 221, sentence type analysis 222, Linguistic qualities of the Korean sentence 210 may be extracted by performing a total of five types of analysis steps: sentence tone analysis 223 , sentence tense analysis 224 , and negative expression analysis 225 .

본 발명에서 형태소 분석 결과(231)를 사용하는 주 목적으로는 한국어 문장(210)의 구조를 파악하기 위함이며, 이를 통해 주어, 목적어, 대명사 등을 파악할 수 있다. 이를 활용하면 한국수어 표현 중 수향(손바닥의 방향 또는 손의 방향)이나 얼굴 방향을 파악하는데 도움이 된다. The main purpose of using the morpheme analysis result 231 in the present invention is to understand the structure of the Korean sentence 210, and through this, a subject, an object, a pronoun, and the like can be grasped. If you use this, it is helpful to understand the direction of the hand (the direction of the palm or the direction of the hand) or the direction of the face in Korean sign language expressions.

그 외에도, 형태소 분석 결과(231)는 문장 유형 분석(222), 문장 태 분석(223), 문장 시제 분석(224) 및 부정 표현 분석(225)에도 보조적으로 사용될 수 있다. In addition, the morpheme analysis result 231 may be used as an auxiliary to the sentence type analysis 222 , the sentence tone analysis 223 , the sentence tense analysis 224 , and the negative expression analysis 225 .

문장 유형 분석 결과(232)는 주로 평서문, 의문문, 명령문, 청유문 및 감탄문의 5가지 형으로 구분될 수 있는데, 이를 활용하면 수어의 문장 구조나 비수지 표현을 포함한 수어 단어를 예측할 수 있다. 예를 들어, 의문문의 경우에는 수어 단어 ‘무엇’과 함께 입을 ‘O’ 모양으로 벌리고, 눈썹은 올리는 비수지 표현이 함께 제공될 수 있다. 나아가, 명령문의 경우에는 눈 부릅 뜸, 입술 다묾, 강경한 얼굴 표정 등을 통합하여 나타낼 수 있으며, 청유문의 경우에는 간절한 얼굴 표정, 눈빛, 고개 움직임 등을 통합하여 나타낼 수 있고, 감탄문의 경우에는 얼굴에 감정 표현으로 나타낼 수 있다. The sentence type analysis result 232 can be mainly divided into five types of declarative sentences, interrogative sentences, command sentences, exclamation sentences, and exclamation sentences. By using these types, sign language words including sentence structure of sign language or non-signal expressions can be predicted. For example, in the case of an interrogative sentence, the sign language word 'what' and the non-resin expression of opening the mouth in an 'O' shape and raising the eyebrows may be provided. Furthermore, in the case of a command sentence, it can be expressed by integrating the eyes, lips, and strong facial expression, etc., in the case of a blue sentence, a desperate facial expression, eyes, head movement, etc. can be integrated and expressed, and in the case of an exclamation sentence, the face can be expressed. can be expressed as an expression of emotion.

문장 태 분석 결과(233)는 능동 또는 피동으로 나뉘는데, 이 경우 수향에 영향을 줄 수 있다. The sentence tone analysis result 233 is divided into active or passive, and in this case, it may affect the direction.

문장 시제 분석 결과(234)는 수어 단어 ‘끝’이라는 단어가 문장 끝에 붙거나, 얼굴을 상하로 끄덕이는 비수지 동작을 나타낼 수 있다.The sentence tense analysis result 234 may indicate that the sign language word 'end' is attached to the end of the sentence, or a non-significant motion of nodding the face up and down.

부정 표현 사용 여부(235)는 비수지 표현으로 자주 나타나는데, 고개 좌우로 움직임, 눈의 움직임, 입술의 움직임 등을 통합하여 나타낼 수 있다. Whether or not to use the negative expression 235 is frequently expressed as a non-significant expression, and may be expressed by integrating the left and right head movements, eye movements, and lip movements.

도 3은 본 발명의 실시예에 따른 언어학적 자질들을 병렬적으로 임베딩하여 결합하는 프로세스를 도시한 것이다.3 shows a process for embedding and combining linguistic features in parallel according to an embodiment of the present invention.

도 3을 참조하면, 본 발명의 실시예에 따른 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치는 한국어 문장과 추출된 언어학적 자질들을 병렬적으로 임베딩하여 결합하는 예시 프로세스(300)를 수행할 수 있다. Referring to FIG. 3 , an exemplary process 300 for embedding and combining a Korean sentence and extracted linguistic qualities in parallel in an attention-based artificial neural network machine translation method and apparatus from spoken language to sign language according to an embodiment of the present invention can be performed.

예를 들면, 한국어 문장(210)을 단위 단어 또는 형태소 단위로 나눈 것을 X={x1, x2, … , xn}이라고 하며, 여기서 n은 문장 내 단어 또는 형태소의 개수이다. xi는 추출 프로세스(220)에 의해 추출된 한국어 문장(210)의 언어학적 자질들과 함께 병렬 임베딩층(310)으로 전달되며, 병렬 임베딩층(310)에서 한국어 단어(형태소)와 형태소 분석 결과, 문장 유형 결과, 문장 태 분석 결과, 문장 시제 분석 결과 및 부정 표현 분석 결과의 총 6개의 언어학적 자질들 값이 병렬적으로 임베딩될 수 있다.For example, dividing the Korean sentence 210 into unit words or morphemes is X={x 1 , x 2 , ... , x n }, where n is the number of words or morphemes in the sentence. x i is transmitted to the parallel embedding layer 310 together with the linguistic qualities of the Korean sentence 210 extracted by the extraction process 220 , and the result of analyzing Korean words (morphemes) and morphemes in the parallel embedding layer 310 , a sentence type result, a sentence tone analysis result, a sentence tense analysis result, and a total of six linguistic quality values of a negative expression analysis result may be embedded in parallel.

이 때, 6개의 임베딩 값은 임베딩 결합층(320)으로 전달되고, 하기의 [수학식 1]과 같이 정의될 수 있다. At this time, the six embedding values are transferred to the embedding bonding layer 320 and may be defined as in [Equation 1] below.

[수학식 1][Equation 1]

Figure 112019073093646-pat00001
Figure 112019073093646-pat00001

여기서 fki는 i번째 단어(형태소)의 k번째 언어학적 자질을 나타내며, vi는 i번째 벡터화된 한국어 단어를 나타낸다. 이에, 본 발명은 벡터화된 한국어 단어 vi를 연속으로 이어 벡터화된 한국어 문장(330)을 획득할 수 있다. Here, f ki represents the k-th linguistic quality of the i-th word (morpheme), and v i represents the i-th vectorized Korean word. Accordingly, in the present invention, the vectorized Korean sentence 330 may be obtained by successively connecting the vectorized Korean word v i .

도 4는 본 발명의 실시예에 따른 벡터화된 문장으로부터 수어 단어 시퀀스를 출력하는 프로세스를 도시한 것이다.4 illustrates a process for outputting a sign language word sequence from a vectorized sentence according to an embodiment of the present invention.

도 4를 참조하면, 본 발명의 실시예에 따른 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치는 인공신경망 번역 모델을 사용하여 벡터화된 한국어 문장으로부터 한국수어 단어 시퀀스를 추출하는 출력 프로세스(400)를 수행할 수 있다. Referring to FIG. 4 , an attention-based neural network machine translation method from spoken language to sign language according to an embodiment of the present invention and an output process for extracting a Korean sign language word sequence from a vectorized Korean sentence using an artificial neural network translation model (400) can be performed.

예를 들면, 벡터화된 한국어 문장(330)이 인공신경망 번역 모델 내 입력으로 주어지면, 인코더(410)에 먼저 전달되고, 모든 전달된 값은 주의 층(430)에 의해 문맥 정보로 변환되며, 이를 디코더(420)의 출력(440)을 예상하는데 사용할 수 있다. 도 4에서 s는 출력 직전의 최종 은닉 층(hidden layer)을 나타내며, 이 출력 값은 다음 단어를 예측하는데 사용된다. For example, if the vectorized Korean sentence 330 is given as an input in the artificial neural network translation model, it is first transmitted to the encoder 410, and all transmitted values are converted into context information by the attention layer 430, which It can be used to predict the output 440 of the decoder 420 . In FIG. 4, s indicates the final hidden layer immediately before output, and this output value is used to predict the next word.

최종 출력 시퀀스 Y={y1, y2, … , yn}는 수어 단어 시퀀스(440)일 수 있다. 이 때 수어 단어는 글로스(gloss)라는 수어 단어의 표제어로 정의되며, 수어 글로스는 주로 수지 정보를 나타내는데 사용되지만 비수지 정보를 포함해서 표기될 수도 있다.Final output sequence Y={y 1 , y 2 , … , y n } may be a sign language word sequence 440 . At this time, the sign language is defined as a headword of a sign word called gloss, and the sign language gloss is mainly used to indicate the balance information, but may also be expressed including non-balance information.

본 발명은 최종 출력 값(440)을 수지 정보와 비수지 정보를 포함하는 수어 글로스의 시퀀스로 정의하며, 한국수어 단어 시퀀스를 출력할 수 있다. In the present invention, the final output value 440 is defined as a sequence of sign language gloss including resin information and non-balance information, and a Korean sign language word sequence can be output.

도 4의 인공신경망 번역 모델에서 RNN으로 사용된 셀은 통상적인 표기이며, 이는 GRU, LSTM 또는 Bi-LSTM로 표기 및 대체될 수 있다. A cell used as an RNN in the artificial neural network translation model of FIG. 4 is a conventional notation, and may be denoted and replaced by GRU, LSTM, or Bi-LSTM.

도 5는 본 발명의 실시예에 따른 구어 및 수어 병렬 말뭉치를 사용하여 인공신경망 번역 모델을 학습시키는 프로세스를 도시한 것이다.5 illustrates a process for training an artificial neural network translation model using a verbal and sign language parallel corpus according to an embodiment of the present invention.

도 5를 참조하면, 본 발명의 실시예에 따른 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치는 한국어 및 한국수어 병렬 말뭉치를 사용하여 주의 기반 인공신경망 번역 모델을 학습시키는 학습 프로세스를 수행할 수 있다.Referring to FIG. 5 , a method and apparatus for attention-based artificial neural network machine translation from spoken language to sign language according to an embodiment of the present invention is a learning process for learning an attention-based artificial neural network translation model using a parallel corpus of Korean and Korean sign language. can be done

본 발명은 인공신경망 번역 모델을 학습시키기 위해 한국어 문장(522)과 이에 대응하는 한국수어 단어 시퀀스(521) 쌍으로 이루어진 한국어 - 한국수어 병렬 말뭉치(510)를 사용한다.The present invention uses a Korean-Korean sign language parallel corpus 510 consisting of a pair of Korean sentences 522 and corresponding Korean sign language word sequences 521 to train an artificial neural network translation model.

이 때, 한국어 문장(522)은 도 2 내지 도 4의 프로세스를 통해 동일한 과정(530, 540)이 수행되며, 추출 프로세스(220), 예시 프로세스(300) 및 출력 프로세스(400)를 통해 획득된 벡터화된 한국어 단어와 한국수어 단어 시퀀스(521)를 각각 인코더 및 디코더에 전달하여 주의 기반 인공신경망 기계 번역 모델을 학습시킬 수 있다(550). At this time, the Korean sentence 522 is obtained through the same processes 530 and 540 through the processes of FIGS. 2 to 4 , and obtained through the extraction process 220 , the example process 300 , and the output process 400 . The vectorized Korean word and the Korean sign language word sequence 521 may be transmitted to the encoder and the decoder, respectively, to train the attention-based artificial neural network machine translation model ( 550 ).

학습이 완료되면, 본 발명은 도 1에 도시된 알고리즘과 같이 인공신경망 번역 모델을 사용할 수 있다. When learning is completed, the present invention may use an artificial neural network translation model like the algorithm shown in FIG. 1 .

도 6은 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 장치의 세부 구성을 블록도로 도시한 것이다.6 is a block diagram illustrating a detailed configuration of a machine translation apparatus from spoken language to sign language according to an embodiment of the present invention.

도 6을 참조하면, 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 장치는 주의 기반 인공신경망 기계 번역 모델을 사용하여 구어에서 수어로 번역한다.Referring to FIG. 6 , the apparatus for translation from spoken language to sign language according to an embodiment of the present invention translates from spoken language to sign language using an attention-based artificial neural network machine translation model.

이를 위해, 본 발명의 실시예에 따른 구어에서 수어로의 기계 번역 장치(600)는 추출부(610), 결합부(620) 및 출력부(630)를 포함하며, 학습부(640)를 더 포함할 수 있다. To this end, the machine translation apparatus 600 from spoken language to sign language according to an embodiment of the present invention includes an extractor 610 , a combiner 620 , and an output unit 630 , and further includes a learning unit 640 . may include

추출부(610)는 구어 문장에서 언어학적 자질들을 추출한다. The extraction unit 610 extracts linguistic features from spoken sentences.

추출부(610)는 구어 문장을 형태소, 문장 유형, 문장 태, 문장 시제 및 부정 표현으로 분석하여 언어학적 자질들을 추출할 수 있다. 예를 들면, 추출부(610)는 한국어 문장에 해당하는 언어학적 분석 결과를 토대로, 형태소, 문장 유형, 문장 태, 문장 시제 및 부정 표현의 언어학적 자질들로 추출할 수 있다.The extraction unit 610 may extract linguistic qualities by analyzing the spoken sentence into a morpheme, a sentence type, a sentence form, a sentence tense, and a negative expression. For example, the extraction unit 610 may extract morphemes, sentence types, sentence tones, sentence tenses, and linguistic qualities of negative expressions based on the linguistic analysis result corresponding to the Korean sentence.

결합부(620)는 구어 문장 및 언어학적 자질들을 병렬 임베딩하여 하나의 벡터로 결합한다. The combiner 620 embeds the spoken sentences and linguistic features in parallel and combines them into one vector.

결합부(620)는 구어 문장과 그에 대응하는 언어학적 자질들을 병렬 인코딩하며, 인코딩된 벡터들을 하나의 벡터로 결합하여 벡터화된 문장을 획득할 수 있다. The combiner 620 may parallel-encode a spoken sentence and linguistic features corresponding thereto, and may obtain a vectorized sentence by combining the encoded vectors into a single vector.

예를 들면, 추출부(610)에서 추출된 언어학적 자질들과 한국어 문장은 결합부(620)에서 인공신경망 번역 모델의 입력값으로 제공하기 위해 병렬적으로 임베딩을 한 후, 하나의 벡터로 결합되어 단어(또는 형태소) 당 하나의 벡터로 표기될 수 있다. 보다 구체적으로, 결합부(620)는 한국어 문장의 단어(형태소)와 언어학적 자질들을 나타내는 형태소 분석 결과, 문장 유형 결과, 문장 태 분석 결과, 문장 시제 분석 결과 및 부정 표현 분석 결과의 6개의 값을 병렬적으로 임베딩하며, 6개의 임베딩 값을 결합하여 벡터화된 문장 또는 벡터화된 한국어 문장을 획득할 수 있다. For example, the linguistic features and Korean sentences extracted by the extraction unit 610 are embedded in parallel to provide the input values of the artificial neural network translation model in the combiner 620, and then combined into one vector. and can be expressed as one vector per word (or morpheme). More specifically, the combining unit 620 converts six values of a morpheme analysis result indicating a word (morpheme) and linguistic qualities of a Korean sentence, a sentence type result, a sentence tone analysis result, a sentence tense analysis result, and a negative expression analysis result. By embedding in parallel, a vectorized sentence or vectorized Korean sentence can be obtained by combining six embedding values.

출력부(630)는 결합된 벡터에 의한 벡터화된 문장을 인공신경망 번역 모델에 입력하여 수어 단어 시퀀스를 출력한다. The output unit 630 outputs a sign language word sequence by inputting the sentence vectorized by the combined vector into the artificial neural network translation model.

예를 들면, 출력부(630)는 벡터화된 한국어 문장을 인공신경망 번역 모델에 입력값으로 사용하여 한국어 문장에 대응되는 한국수어 단어 시퀀스를 출력할 수 있다. 보다 구체적으로, 출력부(630)는 인공신경망 번역 모델에 입력된 벡터화된 문장을 인코더에 전달하며, 전달된 값을 주의 층에 의해 문맥 정보로 변환하여 디코더의 출력으로 사용할 수 있다. 이에, 출력부(630)는 디코더의 출력 값으로 수지 정보와 비수지 정보를 포함하는 수어 단어 시퀀스를 출력할 수 있다. For example, the output unit 630 may output a Korean sign language word sequence corresponding to the Korean sentence by using the vectorized Korean sentence as an input value to the artificial neural network translation model. More specifically, the output unit 630 may transmit the vectorized sentence input to the artificial neural network translation model to the encoder, convert the transmitted value into context information by the attention layer, and use it as an output of the decoder. Accordingly, the output unit 630 may output a sign language word sequence including resin information and non-responsibility information as an output value of the decoder.

학습부(640)는 구어 및 수어 병렬 말뭉치를 사용하여 주의 기반 인공신경망 번역 모델을 학습시킬 수 있다. The learning unit 640 may train the attention-based artificial neural network translation model using the verbal and sign language parallel corpus.

예를 들면, 학습부(640)는 구어 문장과 이에 대응하는 수어 단어 시퀀스의 쌍을 나타내는 구어 및 수어 병렬 말뭉치를 사용하여 인공신경망 번역 모델을 학습시킬 수 있다. For example, the learning unit 640 may train the artificial neural network translation model using a verbal and sign language parallel corpus representing a pair of a spoken sentence and a sign language word sequence corresponding thereto.

비록, 도 6의 장치에서 그 설명이 생략되었더라도, 본 발명에 따른 장치는 상기 도 1 내지 도 5에서 설명한 모든 내용을 포함할 수 있다는 것은 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.Although the description of the device of FIG. 6 is omitted, it is obvious to those skilled in the art that the device according to the present invention may include all the contents described with reference to FIGS. 1 to 5 .

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the devices and components described in the embodiments include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. Further, the processing device may access, store, manipulate, process, and generate data in response to the execution of software. For the convenience of understanding, although it is sometimes described that one processing device is used, one of ordinary skill in the art, the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to operate as desired or processed independently or collectively. You can command the device. Software and/or data may be interpreted by a processing device or, to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. , Or may be permanently or temporarily embodyed in a transmitted signal wave. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operation of the embodiment, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and drawings as described above, various modifications and variations can be made from the above description to those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as systems, structures, devices, circuits, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and those equivalent to the claims also fall within the scope of the claims to be described later.

Claims (16)

구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법에 있어서,
구어 문장에서 형태소, 문장 유형, 문장 태, 문장 시제 및 부정 표현으로 분석하여 언어학적 자질들을 추출하는 단계;
상기 구어 문장 및 상기 언어학적 자질들을 병렬 임베딩하여 하나의 벡터로 결합하는 단계; 및
상기 결합된 벡터에 의한 벡터화된 문장을 인공신경망 번역 모델에 입력하여 수어 단어 시퀀스를 출력하는 단계를 포함하되,
구어 및 수어 병렬 말뭉치를 사용하여 주의 기반 상기 인공신경망 번역 모델을 학습시키는 단계를 더 포함하며,
상기 하나의 벡터로 결합하는 단계는
상기 구어 문장의 단어(형태소)와 형태소 분석 결과, 문장 유형 결과, 문장 태 분석 결과, 문장 시제 분석 결과 및 부정 표현 분석 결과의 6개의 값을 병렬적으로 임베딩하며, 상기 6개의 임베딩 값을 결합하여 상기 벡터화된 문장을 획득하고,
상기 수어 단어 시퀀스를 출력하는 단계는
상기 인공신경망 번역 모델에 입력된 상기 벡터화된 문장을 인코더에 전달하며, 전달된 값을 주의 층에 의해 문맥 정보로 변환하여 디코더의 출력으로 사용하는, 구어에서 수어로의 기계 번역 방법.
In the attention-based neural network machine translation method from spoken language to sign language,
extracting linguistic qualities by analyzing morphemes, sentence types, sentence tones, sentence tenses, and negative expressions from spoken sentences;
combining the oral sentences and the linguistic features into a single vector by embedding them in parallel; and
and outputting a sign language word sequence by inputting the vectorized sentence by the combined vector into an artificial neural network translation model,
Further comprising the step of training the attention-based neural network translation model using a verbal and sign language parallel corpus,
The step of combining into one vector is
The six values of the word (morpheme) and morpheme analysis result, sentence type result, sentence tone analysis result, sentence tense analysis result, and negative expression analysis result of the spoken sentence are embedded in parallel, and the six embedding values are combined. obtaining the vectorized sentence,
The step of outputting the sign language word sequence is
A method for machine translation from spoken language to sign language, wherein the vectorized sentence input to the artificial neural network translation model is transmitted to an encoder, and the transmitted value is converted into context information by an attention layer and used as an output of a decoder.
삭제delete 삭제delete 제1항에 있어서,
상기 하나의 벡터로 결합하는 단계는
상기 구어 문장과 그에 대응하는 상기 언어학적 자질들을 병렬 인코딩하며, 인코딩된 벡터들을 하나의 벡터로 결합하여 상기 벡터화된 문장을 획득하는, 구어에서 수어로의 기계 번역 방법.
The method of claim 1,
The step of combining into one vector is
A method for machine translation from spoken language to sign language, comprising parallel encoding the spoken sentence and the linguistic features corresponding thereto, and combining the encoded vectors into one vector to obtain the vectorized sentence.
삭제delete 삭제delete 제1항에 있어서,
상기 수어 단어 시퀀스를 출력하는 단계는
상기 디코더의 출력 값으로 수지 정보와 비수지 정보를 포함하는 상기 수어 단어 시퀀스를 출력하는, 구어에서 수어로의 기계 번역 방법.
The method of claim 1,
The step of outputting the sign language word sequence is
and outputting the sign language word sequence including resin information and non-balance information as an output value of the decoder.
제1항에 있어서,
상기 인공신경망 번역 모델을 학습시키는 단계는
상기 구어 문장과 이에 대응하는 상기 수어 단어 시퀀스의 쌍을 나타내는 상기 구어 및 수어 병렬 말뭉치를 사용하여 상기 인공신경망 번역 모델을 학습시키는 것을 특징으로 하는, 구어에서 수어로의 기계 번역 방법.
The method of claim 1,
The step of training the artificial neural network translation model is
The method for machine translation from spoken language to sign language, characterized in that the artificial neural network translation model is trained by using the oral and sign language parallel corpus representing a pair of the spoken sentence and the sign language word sequence corresponding thereto.
구어에서 수어로의 주의 기반 인공신경망 기계 번역 장치에 있어서,
구어 문장에서 형태소, 문장 유형, 문장 태, 문장 시제 및 부정 표현으로 분석하여 언어학적 자질들을 추출하는 추출부;
상기 구어 문장 및 상기 언어학적 자질들을 병렬 임베딩하여 하나의 벡터로 결합하는 결합부; 및
상기 결합된 벡터에 의한 벡터화된 문장을 인공신경망 번역 모델에 입력하여 수어 단어 시퀀스를 출력하는 출력부를 포함하되,
구어 및 수어 병렬 말뭉치를 사용하여 주의 기반 상기 인공신경망 번역 모델을 학습시키는 학습부를 더 포함하며,
상기 결합부는
상기 구어 문장의 단어(형태소)와 형태소 분석 결과, 문장 유형 결과, 문장 태 분석 결과, 문장 시제 분석 결과 및 부정 표현 분석 결과의 6개의 값을 병렬적으로 임베딩하며, 상기 6개의 임베딩 값을 결합하여 상기 벡터화된 문장을 획득하고,
상기 출력부는
상기 인공신경망 번역 모델에 입력된 상기 벡터화된 문장을 인코더에 전달하며, 전달된 값을 주의 층에 의해 문맥 정보로 변환하여 디코더의 출력으로 사용하는, 구어에서 수어로의 기계 번역 장치.
In the attention-based artificial neural network machine translation apparatus from spoken language to sign language,
an extraction unit for extracting linguistic qualities by analyzing morphemes, sentence types, sentence tones, sentence tenses, and negative expressions from spoken sentences;
a combiner for parallel embedding the spoken sentence and the linguistic features and combining them into a single vector; and
An output unit for outputting a sign language word sequence by inputting the vectorized sentence by the combined vector into an artificial neural network translation model,
Further comprising a learning unit for learning the attention-based artificial neural network translation model using a verbal and sign language parallel corpus,
the coupling part
The six values of the word (morpheme) and morpheme analysis result, sentence type result, sentence tone analysis result, sentence tense analysis result, and negative expression analysis result of the spoken sentence are embedded in parallel, and the six embedding values are combined. obtaining the vectorized sentence,
the output unit
A machine translation apparatus from spoken language to sign language that transmits the vectorized sentence input to the artificial neural network translation model to an encoder, converts the transmitted value into context information by an attention layer, and uses it as an output of a decoder.
삭제delete 삭제delete 제9항에 있어서,
상기 결합부는
상기 구어 문장과 그에 대응하는 상기 언어학적 자질들을 병렬 인코딩하며, 인코딩된 벡터들을 하나의 벡터로 결합하여 상기 벡터화된 문장을 획득하는, 구어에서 수어로의 기계 번역 장치.
The method of claim 9,
the coupling part
A machine translation device from spoken language to sign language, which parallel encodes the spoken sentence and the linguistic features corresponding thereto, and combines the encoded vectors into one vector to obtain the vectorized sentence.
삭제delete 삭제delete 제9항에 있어서,
상기 출력부는
상기 디코더의 출력 값으로 수지 정보와 비수지 정보를 포함하는 상기 수어 단어 시퀀스를 출력하는, 구어에서 수어로의 기계 번역 장치.
The method of claim 9,
the output unit
and outputting the sign language word sequence including resin information and non-balance information as an output value of the decoder.
제9항에 있어서,
상기 학습부는
상기 구어 문장과 이에 대응하는 상기 수어 단어 시퀀스의 쌍을 나타내는 상기 구어 및 수어 병렬 말뭉치를 사용하여 상기 인공신경망 번역 모델을 학습시키는 것을 특징으로 하는, 구어에서 수어로의 기계 번역 장치.
The method of claim 9,
the learning unit
The machine translation apparatus from spoken language to sign language, characterized in that the artificial neural network translation model is trained using the oral and sign language parallel corpus representing the pair of the spoken sentence and the sign language word sequence corresponding thereto.
KR1020190086169A 2019-05-17 2019-07-17 Method and apparatus for spoken language to sign language translation using attention-based artificial neural machine translation approach KR102258906B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190057760 2019-05-17
KR1020190057760 2019-05-17

Publications (2)

Publication Number Publication Date
KR20200132619A KR20200132619A (en) 2020-11-25
KR102258906B1 true KR102258906B1 (en) 2021-06-01

Family

ID=73645231

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190086169A KR102258906B1 (en) 2019-05-17 2019-07-17 Method and apparatus for spoken language to sign language translation using attention-based artificial neural machine translation approach

Country Status (1)

Country Link
KR (1) KR102258906B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102370993B1 (en) * 2021-05-25 2022-03-07 주식회사 디블렌트 Artificial Intelligence sign language service system with real-time translation and communication based on neural network
CN113780059B (en) * 2021-07-24 2024-07-19 上海大学 Continuous sign language identification method based on multiple feature points
KR102571899B1 (en) * 2022-10-20 2023-08-30 주식회사 인피닉 Method for translate sign language text, and computer program recorded on record-medium for executing method thereof
KR102571902B1 (en) * 2023-03-09 2023-08-30 주식회사 인피닉 Method for translate sign language gloss using transformer, and computer program recorded on record-medium for executing method thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102061044B1 (en) 2013-04-30 2020-01-02 삼성전자 주식회사 Method and system for translating sign language and descriptive video service

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102342066B1 (en) * 2017-06-21 2021-12-22 삼성전자주식회사 Method and apparatus for machine translation using neural network and method for learning the appartus
KR102069692B1 (en) * 2017-10-26 2020-01-23 한국전자통신연구원 Neural machine translation method and apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102061044B1 (en) 2013-04-30 2020-01-02 삼성전자 주식회사 Method and system for translating sign language and descriptive video service

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
조정란 외, ‘수화번역시스템을 위한 인공신경망의 응용’, 한국컴퓨터정보학회 논문지 24(2), 2019.02.*

Also Published As

Publication number Publication date
KR20200132619A (en) 2020-11-25

Similar Documents

Publication Publication Date Title
KR102258906B1 (en) Method and apparatus for spoken language to sign language translation using attention-based artificial neural machine translation approach
KR102382499B1 (en) Translation method, target information determination method, related apparatus and storage medium
JP2023509031A (en) Translation method, device, device and computer program based on multimodal machine learning
KR102589637B1 (en) Method and apparatus for performing machine translation
WO2020215551A1 (en) Chinese speech synthesizing method, apparatus and device, storage medium
CN112487182A (en) Training method of text processing model, and text processing method and device
CN106227721B (en) Chinese Prosodic Hierarchy forecasting system
CN107731228A (en) The text conversion method and device of English voice messaging
CN107967262A (en) A kind of neutral net covers Chinese machine translation method
CN110162800A (en) The training method and device of translation model
KR102315830B1 (en) Emotional Classification Method in Dialogue using Word-level Emotion Embedding based on Semi-Supervised Learning and LSTM model
CN110196967A (en) Sequence labelling method and apparatus based on depth converting structure
JP6946842B2 (en) Model learners, converters, methods, and programs
KR20210044559A (en) Method and device for determining output token
CN111951781A (en) Chinese prosody boundary prediction method based on graph-to-sequence
CN111144140A (en) Zero-learning-based Chinese and Tai bilingual corpus generation method and device
CN111986687A (en) Bilingual emotion dialogue generation system based on interactive decoding
CN115719072A (en) Chapter-level neural machine translation method and system based on mask mechanism
CN113823259B (en) Method and device for converting text data into phoneme sequence
KR101929509B1 (en) Device and method for composing morpheme
CN113129862B (en) Voice synthesis method, system and server based on world-tacotron
KR102674639B1 (en) Electronic device for decrypting ciphertext using neural network model and controlling method thereof
CN112989845B (en) Chapter-level neural machine translation method and system based on routing algorithm
KR102501869B1 (en) Document-level sentiment classification method and apparatus based on importance of sentences
CN114694633A (en) Speech synthesis method, apparatus, device and storage medium

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant