KR20100068965A - Automatic interpretation apparatus and its method - Google Patents

Automatic interpretation apparatus and its method Download PDF

Info

Publication number
KR20100068965A
KR20100068965A KR1020080127491A KR20080127491A KR20100068965A KR 20100068965 A KR20100068965 A KR 20100068965A KR 1020080127491 A KR1020080127491 A KR 1020080127491A KR 20080127491 A KR20080127491 A KR 20080127491A KR 20100068965 A KR20100068965 A KR 20100068965A
Authority
KR
South Korea
Prior art keywords
information
voice
sentence
gender
speaker
Prior art date
Application number
KR1020080127491A
Other languages
Korean (ko)
Inventor
이일빈
조훈영
윤승
박준
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080127491A priority Critical patent/KR20100068965A/en
Publication of KR20100068965A publication Critical patent/KR20100068965A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

PURPOSE: A device and a method for automatically interpreting languages are provided to accurately improve translation using various information extracted from the input sound for the automatic translation. CONSTITUTION: A feeling state analyzer(106) transfers the feeling information through the feeling state judgment with regard to a first voice of a first language. A gender determiner(108) transmits gender information through the gender judgment with regard to the first voice. A voice recognizer(110) recognizes the first voice and transmits a first character of the first language. A sentence style determiner(112) transfers the sentence pattern information through the sentence pattern determination about the first character. A translation unit(114) translates the first character into a second character of a second language in reference with the feeling information. A voice synthesizer(116) synthesizes the second character with the second voice of the second language in reference with the speaker, feeling, gender, and sentence pattern information.

Description

자동 통역 장치 및 그 방법{AUTOMATIC INTERPRETATION APPARATUS AND ITS METHOD}Automatic interpretation device and its method {AUTOMATIC INTERPRETATION APPARATUS AND ITS METHOD}

본 발명은 자동 통역 장치에 관한 것으로, 더욱 상세하게는 입력된 음성을 원하는 다른 언어의 음성으로 출력하는데 적합한 자동 통역 장치 및 그 방법에 관한 것이다.The present invention relates to an automatic interpreter, and more particularly, to an automatic interpreter and a method suitable for outputting an inputted voice as a desired language.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술개발].The present invention is derived from research conducted as a part of the core technology development project of IT growth engine of the Ministry of Knowledge Economy and ICT. [Task management number: 2008-S-019-01, Task name: Portable Korean / English automatic interpretation] Technology development].

잘 알려진 바와 같이, 자동 통역 장치는 서로 다른 언어를 사용하는 사람들이 자신들의 모국어로도 의사소통을 할 수 있도록 하기 위한 장치로서, 음성 신호를 받아 음성 인식을 수행하고 그 결과를 제 2 의 언어로 자동 번역한 후에 그 결과를 다시 음성으로 합성하여 출력한다. 즉, 자동 통역 장치는 음성 인식, 자동 번역, 음성 합성 등의 기능을 수행한다.As is well known, the automatic interpreter is a device that allows people who speak different languages to communicate in their native language, which receives voice signals to perform speech recognition and the results in a second language. After the automatic translation, the result is synthesized by voice and output. That is, the automatic interpreter performs functions such as speech recognition, automatic translation, speech synthesis, and the like.

기존의 음성 합성 엔진에서는 주어진 문장의 의미를 추출하여 합성 시 필요 한 운율, 억양, 목소리 톤에 대한 정보를 획득하고 있는데, 이는 음성 합성 엔진에 텍스트 문장이 입력되기 때문이며, 실제 텍스트 문장만으로는 화자의 성별, 감정 상태나 발화 의도 등을 정확히 파악할 수가 없어 음성 합성 시에 그 표현력이 제한된다.The existing speech synthesis engine extracts the meaning of a given sentence and obtains information about the rhyme, intonation, and voice tone required for synthesis. This is because the text sentence is input to the speech synthesis engine. In addition, the emotional state or the intention to speak can not be accurately understood, and thus the expressive power is limited during speech synthesis.

또한, 기존의 자동 번역 엔진은 텍스트 문장을 대상으로 하기 때문에 번역 대상 문장이 문법적으로나 의미적으로 완벽하다는 가정을 하고 있지만, 음성 인식 엔진에서 자동 번역기에 넘겨주는 결과는 그러한 가정을 만족시키지 못하기 때문에, 음성 인식에서 나타나는 인식 오류가 번역에 악영향을 미쳐 번역 후에는 그 오류의 정도가 더욱 심해지는 현상이 나타난다. 이러한 문제를 해결하기 위하여 기존의 자동 통역 장치에서는 제 2 언어로 자동 번역한 결과를 다시 제 1 언어로 자동 번역하여 그 결과를 사용자에게 확인하게 함으로써 이러한 문제를 개선하려는 시도를 하고 있다.In addition, since the existing automatic translation engine targets text sentences, it is assumed that the sentence to be translated is grammatically and semantically perfect, but the result that the speech recognition engine passes to the automatic translator does not satisfy such assumption. In other words, the recognition error in speech recognition adversely affects the translation, so that the degree of the error becomes more severe after the translation. In order to solve this problem, the existing automatic interpreter attempts to improve such a problem by automatically translating the result automatically translated into the second language and confirming the result to the user.

하지만, 종래의 자동 통역 장치에서 설사 음성 인식 결과가 완벽하다고 가정하더라도 텍스트 문장만을 분석하여 이루어지는 번역에서는 합성 엔진에 대해 언급한 것과 마찬가지로 화자의 의도 등을 반영하고 문장의 중의성을 해결하는 데에는 한계가 있다.However, even if it is assumed that the result of speech recognition is perfect in the conventional automatic interpreter, the translation made by analyzing only text sentences has a limit in reflecting the speaker's intention and resolving the sentence's neutrality, as mentioned in the synthesis engine. have.

이러한 자동 통역 장치의 한계로는 크게 두가지가 있는데, 첫 번째는 자동 통역의 출력을 내는 음성 합성 엔진에서 자동 통역 장치의 입력으로 들어왔던 음성 신호의 특성을 활용하지 못하고 있고, 두 번째는 음성 인식의 결과인 텍스트 문장만으로 번역을 수행할 때 화자의 의도를 정확히 전달하지 못하는 한계가 있다는 것이다.There are two major limitations of the automatic interpreter. First, the speech synthesis engine that outputs the automatic interpreter does not utilize the characteristics of the speech signal that is input to the input of the automatic interpreter. There is a limitation in not accurately conveying the speaker's intention when performing translation with only the text sentence as a result.

이에 따라, 본 발명은 입력 음성에 대한 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 반영하여 원하는 언어의 음성으로 출력할 수 있는 자동 통역 장치 및 그 방법을 제공하고자 한다.Accordingly, an aspect of the present invention is to provide an automatic interpretation apparatus and method capable of outputting a voice in a desired language by reflecting speaker information, emotion information, gender information, and sentence information of an input voice.

일 관점에서 본 발명은, 입력된 제 1 언어의 제 1 음성에 대한 화자 인식 및 검증을 통해 그 화자 정보를 전달하는 화자 인식 검증부와, 상기 제 1 음성에 대한 감정 상태 판단을 통해 그 감정 정보를 전달하는 감정 상태 분석부와, 상기 제 1 음성에 대한 성별 감식을 통해 그 성별 정보를 전달하는 성별 감식부와, 상기 제 1 음성을 인식하여 상기 제 1 언어의 제 1 문자를 전달하는 음성 인식부와, 상기 전달되는 제 1 문자에 대한 문형 판단을 통해 그 문형 정보를 전달하는 문형 판단부와, 상기 전달되는 감정 정보를 참조하여 상기 제 1 문자를 제 2 언어의 제 2 문자로 번역하는 번역부와, 상기 제 2 문자를 상기 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 참조하여 상기 제 2 언어의 제 2 음성으로 합성한 후 출력하는 음성 합성부를 포함하는 자동 통역 장치를 제공한다.In one aspect, the present invention, a speaker recognition verification unit for transmitting the speaker information through the speaker recognition and verification of the first voice of the first language input, and the emotion information through the emotional state determination for the first voice An emotional state analysis unit for transmitting a; and a gender identification unit for transmitting the gender information through gender identification of the first voice; and a voice recognition for recognizing the first voice and delivering a first character of the first language. A sentence sentence determination unit configured to transfer sentence information through sentence sentence determination of the first character to be transmitted, and a translation to translate the first character into a second character of a second language with reference to the sentiment information. An automatic interpretation chapter including a speech synthesizer for synthesizing the second text into a second voice of the second language with reference to the speaker information, emotion information, gender information, and sentence pattern information; To provide

다른 관점에서 본 발명은, 입력된 제 1 언어의 제 1 음성에 대해 화자 인식 및 화자 검증, 감정 상태 판단, 성별 감식을 통해 그 화자 정보, 감정 정보 및 성별 정보를 각각 전달하는 단계와, 상기 제 1 음성을 인식하여 상기 제 1 언어의 제 1 문자를 전달하는 단계와, 상기 전달되는 제 1 문자에 대한 문형 판단을 통해 그 문형 정보를 전달하는 단계와, 상기 전달되는 감정 정보를 참조하여 상기 제 1 문자를 제 2 언어의 제 2 문자로 번역하는 단계와, 상기 제 2 문자를 상기 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 참조하여 상기 제 2 언어의 제 2 음성으로 합성한 후 출력하는 단계를 포함하는 자동 통역 방법을 제공한다.In another aspect, the present invention, the speaker information and the speaker verification, emotional state determination, gender identification for the first voice of the input first language, and transmitting the speaker information, emotion information and gender information, respectively, Recognizing a first voice and delivering a first character of the first language, and delivering the sentence information through the sentence determination of the transmitted first character, and by referring to the sent emotion information Translating one character into a second character of a second language; synthesizing the second character into a second voice of the second language with reference to the speaker information, emotion information, gender information, and sentence pattern information; Provides an automatic interpretation method comprising the steps.

본 발명은, 자동 통역 장치로 입력된 음성에서 다양한 정보를 추출하고 이를 자동 번역에 활용함으로써, 번역 정확도가 향상될 수 있다. 또한 음성에서 추출한 정보를 음성 합성 장치에서 활용함으로써, 합성음의 자연성이 개선될 수 있다.According to the present invention, translation accuracy may be improved by extracting various information from a voice input by an automatic interpreter and using the same for automatic translation. In addition, by utilizing the information extracted from the speech in the speech synthesis device, the naturalness of the synthesized sound can be improved.

따라서 자동통역 장치 전체의 출력에 대한 사용자의 만족도를 향상시킬 수 있는 효과가 있다.Therefore, there is an effect that can improve the user's satisfaction with the output of the entire automatic interpretation device.

본 발명은, 입력된 제 1 언어의 제 1 음성을 전처리하고, 음성 인식을 통해 제 1 언어의 제 1 문자로 출력한 후, 이를 제 2 언어의 제 2 문자로 번역하고, 화자 인식 및 화자 검증에 따른 화자 정보, 감정 상태 분석에 따른 감정 정보, 성별 감식에 따른 성별 정보 및 제 1 문자에 대한 문형 정보를 참조하여 제 2 언어의 제 2 음성으로 합성한 후 출력한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.The present invention preprocesses the first voice of the input first language, outputs the first voice of the first language through voice recognition, translates it into a second character of the second language, and recognizes the speaker and verifies the speaker. By referring to the speaker information, the emotional information according to the emotional state analysis, the gender information according to gender identification, and the sentence pattern information about the first character, the speech information is synthesized and outputted after the second voice of the second language. The problem in the prior art can be solved.

이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시 예에 따라 제 1 언어의 음성을 제 2 언어의 음성으로 출력하는데 적합한 자동 통역 장치의 블록 구성도로서, 전처리부(102), 화자 인식 검증부9104), 감정 상태 분석부(106), 성별 감식부(108), 음성 인식부(110), 문형 판단부(112), 번역부(114) 및 음성 합성부(116)를 포함한다.1 is a block diagram of an automatic interpretation device suitable for outputting a voice of a first language as a voice of a second language according to an embodiment of the present invention. The preprocessing unit 102, the speaker recognition verification unit 9104, and the emotional state analysis are shown. The unit 106, the gender identification unit 108, the speech recognition unit 110, the sentence determination unit 112, the translation unit 114, and the speech synthesis unit 116 are included.

도 1을 참조하면, 전처리부(102)는 제 1 언어의 제 1 음성이 입력되면 이러한 제 1 음성을 전처리하여 각종 특징들을 추출하여 전달하는데, 제 1 음성에 대한 화자 인식 및 화자 검증을 위한 특징을 추출하여 화자 인식 검증부(104)로 전달하고, 제 1 음성에 대한 감정 상태를 분석하기 위한 특징을 추출하여 감정 상태 분석부(106)로 전달하며, 제 1 음성에 대한 성별 감식을 위한 특징을 추출하여 성별 감식부(108)로 전달하며, 음성 인식을 위한 특징을 추출하여 이를 음성 인식부(110)로 전달한다.Referring to FIG. 1, when a first voice of a first language is input, the preprocessor 102 extracts and delivers various features by preprocessing the first voice. Features for speaker recognition and speaker verification of the first voice are provided. Extract and transfer the feature to the speaker recognition verification unit 104, and extract the feature for analyzing the emotional state of the first voice to the emotional state analyzer 106, and identify the gender for the first voice. Extract and transfer it to the gender recognition unit 108, and extract the feature for speech recognition and transfer it to the voice recognition unit 110.

그리고, 화자 인식 검증부(104)는 전처리부(102)로부터 전달되는 화자 인식 및 화자 검증을 위한 특징을 이용하여 화자 인식 및 화자 검증을 수행하는데, 화자 인식은 전달되는 특징을 이용하여 기 저장된 사용자 모델 중 어떤 화자 모델에 가 장 가까운지를 비교 분석한 후에, 그에 대응하는 화자 모델을 검출하는 것이고, 화자 검증은 전달되는 특징을 이용하여 검출된 화자 모델의 유사성을 비교 분석하여 그 화자 모델을 검증하는 것이다. 이러한 화자 인식 및 화자 검증이 완료되면 해당 화자 모델에 대한 화자 정보를 검출하여 음성 합성부(116)로 전달한다. 여기에서, 화자 정보는 선호하는 합성 스타일 정보로서, 예를 들어 사용자 ID, 선호 성우 ID, 합성 음성 속도, 음 높이(pitch), 음량(energy) 등을 포함할 수 있다.In addition, the speaker recognition verification unit 104 performs speaker recognition and speaker verification using features for speaker recognition and speaker verification transmitted from the preprocessor 102. After comparing and analyzing which speaker model is the closest to the speaker model, the corresponding speaker model is detected, and the speaker verification is performed by comparing the similarity of the detected speaker models using the delivered features to verify the speaker model. will be. When the speaker recognition and speaker verification are completed, the speaker information for the speaker model is detected and transmitted to the speech synthesis unit 116. In this case, the speaker information is preferred synthesis style information and may include, for example, a user ID, a preferred voice actor ID, a synthesized voice speed, a pitch, an energy, and the like.

또한, 감정 상태 분석부(106)는 전처리부(102)로부터 전달되는 감정 상태를 분석하기 위한 특징을 이용하여 감정 상태(예를 들면, 슬픔, 두려움, 분노, 기쁨, 지루함 등)를 판단하게 되는데, 이러한 판단 결과에 따른 감정 정보를 검출하여 번역부(114) 및 음성 합성부(116)로 전달한다. 여기에서, 감정 정보는 감정별 합성 스타일 정보로서, 예를 들어 감정 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보, 음량의 변화 정보 등을 포함할 수 있다.In addition, the emotional state analysis unit 106 determines the emotional state (for example, sadness, fear, anger, joy, boredom, etc.) by using a feature for analyzing the emotional state transmitted from the preprocessor 102. The emotion information based on the determination result is detected and transmitted to the translator 114 and the voice synthesizer 116. Here, the emotion information may include emotion-specific synthesis style information and may include, for example, emotion ID, synthesized voice speed, sentence height change information in a sentence, and volume change information.

한편, 성별 감식부(108)는 전처리부(102)로부터 전달되는 성별을 감식하기 위한 특징을 이용하여 성별을 판단하게 되는데, 이러한 판단 결과에 따른 성별 정보를 검출하여 음성 합성부(116)로 전달한다. 여기에서, 성별 정보는 예를 들면, 성별 ID와, 남성 음성 모델 또는 여성 음성 모델 등을 포함할 수 있다.On the other hand, the gender identification unit 108 determines the gender using a feature for identifying the gender transmitted from the preprocessing unit 102, and detects the gender information according to the determination result and transfers it to the voice synthesis unit 116. do. Here, the gender information may include, for example, a gender ID and a male voice model or a female voice model.

다음에, 음성 인식부(110)는 전처리부(102)로부터 전달되는 음성 인식을 위한 특징을 이용하여 입력된 제 1 음성을 인식하고, 인식 결과에 따른 제 1 언어의 제 1 문자(텍스트)를 출력하여 문형 판단부(112) 및 번역부(114)로 전달한다.Next, the voice recognition unit 110 recognizes the inputted first voice by using the feature for voice recognition transmitted from the preprocessor 102, and recognizes the first character (text) of the first language according to the recognition result. The output is transmitted to the sentence determination unit 112 and the translation unit 114.

그리고, 문형 판단부(112)는 음성 처리부(110)로부터 전달되는 제 1 문자에 대해 문형 데이터베이스를 이용하여 평서형, 의문형, 청유형, 명령형 등과 같은 문형을 판단하고, 이러한 판단 결과에 따른 문형 정보를 검출하여 음성 합성부(116)로 전달한다. 여기에서, 문형 정보는 문형 ID, 합성 음성 속도, 음 높이 변화 정보, 음량 변화 정보 등을 포함할 수 있다.In addition, the sentence determination unit 112 determines a sentence type such as a plain form, a question form, an appropriation type, a command type, and the like based on the sentence type database for the first character transmitted from the voice processing unit 110, and detects sentence pattern information according to the determination result. To the speech synthesis unit 116. Here, the sentence information may include sentence type ID, synthesized voice speed, pitch change information, volume change information, and the like.

또한, 번역부(114)는 음성 인식부(110)로부터 전달되는 제 1 문자를 감정 상태 분석부(106)로부터 전달되는 감정 정보를 참조하여 제 2 언어의 제 2 문자로 번역한 후, 이러한 제 2 문자를 음성 합성부(116)로 전달한다.In addition, the translator 114 translates the first character transmitted from the voice recognition unit 110 into the second character of the second language with reference to the emotion information transmitted from the emotional state analyzer 106, and then converts the first character transmitted from the voice recognition unit 110 into the second character of the second language. Two characters are transmitted to the speech synthesis unit 116.

다음에, 음성 합성부(116)는 화자 인식 검증부(104)로부터 전달되는 화자 정보와, 감정 상태 분석부(106)로부터 전달되는 감정 정보와, 성별 감식부(108)로부터 전달되는 성별 정보와, 문형 판단부(112)로부터 전달되는 문형 정보를 참조하여 번역부(114)로부터 전달되는 제 2 문자를 제 2 언어의 제 2 음성으로 합성한 후, 이러한 제 2 음성을 출력한다.Next, the speech synthesis unit 116 may include speaker information transmitted from the speaker recognition verification unit 104, emotion information transmitted from the emotional state analysis unit 106, and gender information transmitted from the gender identification unit 108. After synthesizing the second text transmitted from the translator 114 into the second voice of the second language with reference to the sentence information transmitted from the sentence determiner 112, the second voice is output.

다음에, 상술한 바와 같은 구성을 갖는 자동 통역 장치를 이용하여 입력된 제 1 언어의 제 1 음성을 전처리하고, 음성 인식을 통해 제 1 언어의 제 1 문자로 출력한 후, 이를 제 2 언어의 제 2 문자로 번역하고, 화자 인식 및 화자 검증에 따른 화자 정보, 감정 상태 분석에 따른 감정 정보, 성별 감식에 따른 성별 정보 및 제 1 문자에 대한 문형 정보를 참조하여 제 2 언어의 제 2 음성으로 합성한 후 출력하는 과정에 대해 설명한다. 이하에서는 사용자가 남자이고, 이름은‘사용자 1’이며,‘양파는 빼 주세요’라고 화난 목소리로 발성하였으며,‘사용자 1’은 자동 통역 장치에 등록된 사용자로 하여 설명한다.Next, the first voice of the first language input is preprocessed using the automatic interpretation device having the above-described configuration, and is output as the first character of the first language through voice recognition, and then the second voice is output of the second language. Translated into the second character and referring to the speaker information according to the speaker recognition and speaker verification, the emotion information according to the emotional state analysis, the gender information according to the gender identification, and the sentence pattern information about the first character, to the second voice of the second language. Explain the process of synthesizing and printing. In the following description, the user is a man, the name is 'User 1', 'Please remove onions', and the user is spoken with an angry voice.

도 2는 본 발명의 제 1 실시 예에 따라 입력된 제 1 언어의 제 1 음성을 제 2 언어의 제 2 음성으로 출력하는 과정을 도시한 플로우차트이다.2 is a flowchart illustrating a process of outputting a first voice of a first language input as a second voice of a second language according to a first embodiment of the present invention.

도 2를 참조하면, 전처리부(102)에서는 제 1 언어의 제 1 음성이 입력되면 이러한 제 1 음성을 전처리하여 각종 특징들(예를 들면, 화자 인식 및 화자 검증을 위한 특징, 감정 상태를 분석하기 위한 특징, 성별 감식을 위한 특징, 음성 인식을 위한 특징 등)을 추출하여 전달한다(단계202).Referring to FIG. 2, when the first voice of the first language is input, the preprocessor 102 preprocesses the first voice to analyze various features (for example, a feature for speaker recognition and speaker verification, and an emotional state). And features for gender identification, features for speech recognition, etc.) (step 202).

그리고, 화자 인식 검증부(104)에서는 전처리부(102)로부터 전달되는 화자 인식 및 화자 검증을 위한 특징을 이용하여 화자 인식 및 화자 검증을 수행한다(단계204). 여기에서, 화자 인식의 경우 전달되는 특징을 이용하여 기 저장된 사용자 모델 중 어떤 화자 모델에 가장 가까운지를 비교 분석한 후에, 그에 대응하는 화자 모델을 검출할 수 있고, 화자 검증의 경우 전달되는 특징을 이용하여 검출된 화자 모델의 유사성을 비교 분석하여 그 화자 모델을 검증할 수 있으며, 이러한 화자 인식 및 화자 검증에 따라 해당 화자 모델에 대한 화자 정보(예를 들면, 사용자 ID, 선호 성우 ID, 합성 음성 속도, 음 높이, 음량 등)를 검출하여 음성 합성부(116)로 전달한다.In addition, the speaker recognition verification unit 104 performs speaker recognition and speaker verification using features for speaker recognition and speaker verification transmitted from the preprocessor 102 (step 204). Here, in the case of speaker recognition, after comparing and analyzing which speaker model is closest to the previously stored user model by using the delivered feature, the corresponding speaker model may be detected, and in the case of speaker verification, the delivered feature is used. By comparing and analyzing the similarity of the detected speaker models, the speaker model can be verified, and the speaker information (for example, user ID, preferred voice actor ID, synthesized voice speed) for the speaker model according to the speaker recognition and speaker verification. Sound volume, volume, etc.) is detected and transmitted to the speech synthesis unit 116.

예를 들면, 발성한‘사용자 1’은 등록되어 있는 상태이기 때문에‘사용자 1’에 대응하는 사용자 모델에 따라‘사용자 1’로 인식될 수 있으며,‘사용자 1’의 사용자 모델을 주어진 특징과 비교 분석함으로써, 화자 인식을 통해 결정된‘사용자 1’이 자동 통역 장치를 이용하는 사용자인지의 여부를 판단하는 방식으로 화자 검증을 수행할 수 있다.For example, since the user '1' that is spoken is registered, it can be recognized as 'user 1' according to the user model corresponding to 'user 1', and the user model of 'user 1' is compared with a given feature. By analyzing, the speaker verification may be performed by determining whether 'user 1' determined through speaker recognition is a user who uses an automatic interpreter.

또한, 감정 상태 분석부(106)에서는 전처리부(102)로부터 전달되는 감정 상태를 분석하기 위한 특징을 이용하여 예를 들면, 슬픔, 두려움, 분노, 기쁨, 지루함 등과 같은 감정 상태를 판단한다(단계206). 이러한 판단 결과에 따른 감정 정보(예를 들면, 감정 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보, 음량의 변화 정보 등)를 검출하여 번역부(114) 및 음성 합성부(116)로 전달한다.In addition, the emotional state analysis unit 106 determines an emotional state, for example, sadness, fear, anger, joy, boredom, etc. by using a feature for analyzing the emotional state transmitted from the preprocessor 102 (step) 206). Emotion information (for example, emotion ID, synthesized voice speed, change in pitch level in a sentence, change in volume information, etc.) according to the determination result is detected and transmitted to the translator 114 and the voice synthesizer 116. .

예를 들면,‘사용자 1’은 화난 목소리로 발성하였으므로 감정 상태가 분노로 판단될 수 있으며,‘사용자 1’이 발성한 감정 상태가 분노로 판단되었기 때문에 그 감정 정보에는 예를 들면, 음량을 크게, 음 높이는 높게 음성 속도는 느리게 하는 등의 정보를 포함할 수 있다.For example, 'user 1' utters an angry voice, so the emotional state may be determined to be anger, and since the emotional state uttered by 'user 1' is judged to be anger, the emotional information may be loud, for example. For example, the information may include information such as a high pitch level and a slow voice rate.

한편, 성별 감식부(108)에서는 전처리부(102)로부터 전달되는 성별을 감식하기 위한 특징을 이용하여 성별을 판단한다(단계208) 이러한 판단 결과에 따른 성별 정보(예를 들면, 남성 음성 모델 또는 여성 음성 모델)를 검출하여 음성 합성부(116)로 전달한다.On the other hand, the gender identification unit 108 determines the gender by using a feature for identifying the gender transmitted from the preprocessing unit 102 (step 208) gender information (for example, a male voice model or A female voice model) is detected and transmitted to the voice synthesizer 116.

예를 들면,‘사용자 1’은 남성으로 가정하였으므로 성별이 남성으로 판단될 수 있으며,‘사용자 1’이 남성으로 판단되었기 때문에 그 성별 정보에는 예를 들면, 남성 음성 모델 등에 대한 정보를 포함할 수 있다.For example, since 'user 1' is assumed to be male, the gender may be determined to be male, and since 'user 1' is determined to be male, the gender information may include, for example, information about a male voice model. have.

다음에, 음성 인식부(110)에서는 전처리부(102)로부터 전달되는 음성 인식을 위한 특징을 이용하여 입력된 제 1 음성을 인식하고, 인식 결과에 따라 제 1 언어의 제 1 문자(텍스트)로 출력하여 문형 판단부(112) 및 번역부(114)로 전달한다(단계210).Next, the voice recognition unit 110 recognizes the inputted first voice using a feature for voice recognition transmitted from the preprocessor 102, and converts the first voice into a first character (text) of the first language according to the recognition result. The output is transmitted to the sentence determination unit 112 and the translation unit 114 (step 210).

그리고, 문형 판단부(112)에서는 음성 처리부(110)로부터 전달되는 제 1 문자에 대해 문형 데이터베이스를 이용하여 평서형, 의문형, 청유형, 명령형 등과 같은 문형을 판단한다(단계212). 이러한 판단 결과에 따른 문형 정보(예를 들면, 문형 ID, 합성 음성 속도, 음 높이 변화 정보, 음량 변화 정보 등)를 검출하여 음성 합성부(116)로 전달한다.In addition, the sentence determination unit 112 determines a sentence type such as a plain form, a question form, an appropriation type, a command type, and the like using the sentence database for the first character transmitted from the voice processing unit 110 (step 212). The sentence information (for example, sentence ID, synthesized speech speed, pitch change information, volume change information, etc.) according to the determination result is detected and transmitted to the speech synthesizer 116.

예를 들면, 음성 인식 결과로 출력된 제 1 문자가‘양파는 빼 주세요’라는 문장이 출력된 경우 평서형, 의문형, 청유형, 명령형 등 다양한 문형 데이터베이스를 이용하여 해당 문장을 청유형으로 판단할 수 있으며, 그 문형 정보에는 청유형의 경우 음량은 보통으로, 억양은 천천히 올라가는 억양, 음성 속도는 보통으로 설정된 정보를 포함할 수 있고, 명령형의 경우 큰 음량, 높낮이의 변화가 없는 억양, 음성 속도는 빠르게 하는 정보를 포함할 수 있다.For example, when the first character output as a result of speech recognition outputs a sentence “Please remove onions”, the sentence may be judged as an auditory type using a variety of sentence-type databases such as a plain text, a question type, a clear type, and a command type. The sentence information may include information in which the volume is normal, the accent is slowly rising, the voice speed is normal, and in the case of the command type, the loud volume, the accent without changing the height, and the speed of the voice are fast. It may include.

또한, 번역부(114)에서는 음성 인식부(110)로부터 전달되는 제 1 문자를 감정 상태 분석부(106)로부터 전달되는 감정 정보를 참조하여 제 2 언어의 제 2 문자로 번역한 후, 이러한 제 2 문자를 음성 합성부(116)로 전달한다(단계214).In addition, the translator 114 translates the first character transmitted from the voice recognition unit 110 into the second character of the second language with reference to the emotion information transmitted from the emotional state analyzer 106, and then converts the first character transmitted from the voice recognition unit 110 into the second character of the second language. The two characters are transmitted to the speech synthesis unit 116 (step 214).

예를 들면, 번역부(114)에서는 제 1 언어는 한국어, 제 2 언어는 영어이고, 한국어를 자동 통역하여 영어로 출력하고자 할 때‘양파는 빼 주세요’라고 발화된 문장의 경우에 감정 상태 분석부(106)로부터 전달되는 감정 정보에 따른 감정 상태가‘무감정’일 경우‘Would you go easy on onion. please?’라고 번역할 수 있지만, 상술한 바와 같이 판단된 감정 상태가‘분노’인 경우 예를 들어 명령형으로,‘Go easy on onion.’와 같이 번역할 수 있다.For example, in the translator 114, the first language is Korean, the second language is English, and the emotional state analysis is performed in the case of a sentence `` Please remove onions '' when the Korean language is automatically translated and output in English. If the emotional state according to the emotional information transmitted from the unit 106 is' no emotion ',' Would you go easy on onion. please? ”, but when the emotional state determined as described above is“ anger ”, for example, it may be translated as“ Go easy on onion. ”.

다음에, 음성 합성부(116)는 화자 인식 검증부(104)로부터 전달되는 화자 정보와, 감정 상태 분석부(106)로부터 전달되는 감정 정보와, 성별 감식부(108)로부터 전달되는 성별 정보와, 문형 판단부(112)로부터 전달되는 문형 정보를 참조하여 번역부(114)로부터 전달되는 제 2 문자를 제 2 언어의 제 2 음성으로 합성한 후, 이러한 제 2 음성을 출력한다(단계214).Next, the speech synthesis unit 116 may include speaker information transmitted from the speaker recognition verification unit 104, emotion information transmitted from the emotional state analysis unit 106, and gender information transmitted from the gender identification unit 108. After synthesizing the second text transmitted from the translator 114 into the second voice of the second language with reference to the sentence information transmitted from the sentence determiner 112, the second voice is output (step 214). .

예를 들면, 사용자가 남자이고, 이름은‘사용자 1’이며, ‘양파는 빼 주세요’라고 화난 목소리로 발성하였으며,‘사용자 1’은 자동 통역 장치에 등록된 사용자이기 때문에, 음성 합성부(116)에서는 화자 인식 검증부(104)로부터‘사용자 1’에 대응하는 화자 정보와, 감정 상태 분석부(106)로부터‘분노’에 대응하는 감정 정보와, 성별 감식부(108)로부터‘남성’에 대응하는 성별 정보와, 문형 판단부(112)로부터‘남성’에 대응하는 문형 정보를 각각 전달받아 번역부(114)로부터 전달되는 제 2 언어의 제 2 문자에 대해 각 정보를 참조하여 제 2 음성을 합성 출력할 수 있다.For example, because the user is a man, the name is 'User 1', 'Please remove the onion' in an angry voice, and 'User 1' is a registered user in the automatic interpretation device. ), Speaker information corresponding to 'user 1' from speaker recognition verification unit 104, emotion information corresponding to 'anger' from emotional state analysis unit 106, and 'male' from gender identification unit 108 The second voice is received with reference to the respective information about the second character of the second language received from the corresponding gender information and sentence information corresponding to 'male' from the sentence determination unit 112, respectively, and transmitted from the translation unit 114. Can be synthesized.

따라서, 입력된 제 1 음성을 인식하여 제 1 문자로 출력하고, 감정 정보를 참조하여 제 2 문자로 번역한 후, 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 참조하여 제 2 음성으로 합성하여 출력함으로써, 입력된 제 1 음성에 대한 각종 정보에 따라 제 2 음성을 합성하여 출력할 수 있다.Therefore, the inputted first voice is recognized and output as the first character, translated into the second character with reference to the emotion information, and then synthesized into the second voice with reference to the speaker information, the emotion information, the gender information, and the sentence pattern information. By outputting, it is possible to synthesize and output the second voice in accordance with various information on the input first voice.

다음에, 상술한 바와 같이 자동 통역 장치에서 제 1 음성에 대응하는 제 2 음성을 출력하는 과정에서 제 1 음성에 대한 화자 인식과 화자 검증을 통해 화자 모델을 결정하고, 이에 대응하는 화자 정보를 검출하여 전달하는 과정에 대해 설명 한다.Next, as described above, in the process of outputting the second voice corresponding to the first voice in the automatic interpreter, the speaker model is determined through speaker recognition and speaker verification of the first voice, and the corresponding speaker information is detected. Explain the process of delivery.

도 3은 본 발명의 제 2 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 화자 인증 및 화자 검증을 수행하는 과정을 도시한 플로우차트이다.3 is a flowchart illustrating a process of performing speaker authentication and speaker verification on a first voice of a first language input according to a second embodiment of the present invention.

도 3을 참조하면, 화자 인식 검증부(104)에서는 전처리부(102)로부터 화자 인식 및 화자 검증을 위한 특징이 전달되면(단계302), 전달되는 특징과 등록된 사용자에 대응하여 저장된 사용자 모델에 따라 어떤 사용자일 가능성이 가장 높은지 결정하는 방식으로 화자 인식을 수행한다(단계304). 여기에서, 발성한‘사용자 1’은 등록되어 있는 상태이기 때문에‘사용자 1’에 대응하는 사용자 모델에 따라‘사용자 1’로 인식될 수 있다.Referring to FIG. 3, when the speaker recognition verification unit 104 receives a feature for speaker recognition and speaker verification from the preprocessing unit 102 (step 302), the speaker recognition verification unit 104 stores the user model corresponding to the delivered feature and the registered user. Accordingly, speaker recognition is performed in a manner to determine which user is most likely (step 304). In this case, since the 'user 1' spoken is registered, it may be recognized as 'user 1' according to the user model corresponding to 'user 1'.

그리고, 화자 인식 검증부(104)에서는 전처리부(102)로부터 전달된 특징과‘사용자 1’의 사용자 모델을 비교 분석함으로써, 화자 인식을 통해 결정된‘사용자 1’이 자동 통역 장치를 이용하는 사용자인지의 여부를 판단하는 방식으로 화자 검증을 수행한다(단계306).In addition, the speaker recognition verification unit 104 compares and analyzes the feature transmitted from the preprocessing unit 102 and the user model of 'user 1' to determine whether the 'user 1' determined by the speaker recognition is a user who uses an automatic interpreter. Speaker verification is performed in a manner to determine whether or not (step 306).

다음에, 화자 인식 검증부(104)에서는 화자 검증이 완료된‘사용자 1’에 대응하는 선호 합성 스타일 정보, 즉 화자 정보를 사용자 ID 기반으로 검색한다(단계308). 여기에서, 사용자가 선호하는 합성 스타일을 나타내는 화자 정보는, 예를 들면, 사용자 ID, 선호 성우 ID, 합성 음성 속도, 음 높이, 음량 등을 포함할 수 있으며, 이러한 각각의 정보는 행렬, 벡터 등으로 표현될 수 있고, 이러한 각각의 정보는 사용자를 등록하면서 함께 저장될 수 있다.Next, the speaker recognition verification unit 104 retrieves the preferred synthesis style information corresponding to 'user 1', that is, speaker verification, based on the user ID based on the user ID (step 308). Here, the speaker information indicating the user's preferred synthesis style may include, for example, a user ID, a preferred voice actor ID, a synthesized voice speed, a pitch, a volume, and the like. Each piece of information may be stored together while registering a user.

이어서, 화자 인식 검증부(104)에서는 검색된 화자 정보를 추출한 후에 음성 합성부(116)로 전달한다(단계310).Subsequently, the speaker recognition verification unit 104 extracts the retrieved speaker information and transfers it to the speech synthesis unit 116 (step 310).

따라서, 전처리된 제 1 음성에 대한 화자 인식 및 화자 검증을 통해 사용자를 결정하고, 결정된 사용자에 대응하는 화자 정보를 검색 및 추출하여 이를 음성 합성에 이용할 수 있다.Accordingly, the user may be determined by speaker recognition and speaker verification of the preprocessed first voice, and the speaker information corresponding to the determined user may be searched and extracted and used for speech synthesis.

다음에, 상술한 바와 같이 자동 통역 장치에서 제 1 음성에 대응하는 제 2 음성을 출력하는 과정에서 제 1 음성에 대한 감정 상태를 판단하고, 이에 대응하는 감정 정보를 검출하여 전달하는 과정에 대해 설명한다.Next, as described above, in the process of outputting the second voice corresponding to the first voice by the automatic interpreter, the process of determining the emotional state of the first voice, and detecting and transmitting the corresponding emotion information will be described. do.

도 4는 본 발명의 제 3 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 감정 상태를 분석하는 과정을 도시한 플로우차트이다.FIG. 4 is a flowchart illustrating a process of analyzing an emotional state of a first voice of a first language input according to a third embodiment of the present invention.

도 4를 참조하면, 감정 상태 분석부(106)에서는 전처리부(102)로부터 감정 상태를 분석하기 위한 특징이 전달되면(단계402), 전달된 특징을 이용하여 무감정, 슬픔, 두려움, 분노, 기쁨, 지루함 등의 감정 상태 분석을 수행한다(단계404). 여기에서,‘사용자 1’은 화난 목소리로 발성하였으므로 감정 상태가 분노로 판단될 수 있다.Referring to FIG. 4, in the emotional state analyzing unit 106, when a feature for analyzing the emotional state is transmitted from the preprocessor 102 (step 402), the emotional state analysis unit 106 may use the transmitted feature to express emotion, sadness, fear, anger, An emotional state analysis such as joy and boredom is performed (step 404). Here, 'user 1' uttered with an angry voice, so the emotional state may be judged as anger.

그리고, 감정 상태 분석부(106)에서는 결정된 감정 상태에 대응하는 감정별 합성 스타일 정보, 즉 감정 정보를 감정 ID 기반으로 검색한다(단계406). 여기에서, 감정별 합성 스타일을 나타내는 감정 정보는, 예를 들어 감정 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보, 음량의 변화 정보 등을 포함할 수 있으며, 이러한 감정 정보는 자동 통역 장치의 저장 매체에 미리 구축되어 저장될 수 있다.In addition, the emotion state analyzer 106 searches for emotion-specific synthesis style information corresponding to the determined emotion state, that is, emotion information based on the emotion ID (step 406). Here, the emotion information indicating the emotion-specific synthesis style may include, for example, emotion ID, synthesized voice speed, sentence height change information in a sentence, volume change information, and the like, and the emotion information may be stored in the automatic interpreter. The media may be built in advance and stored.

다음에, 감정 상태 분석부(106)에서는 검색된 감정 정보를 추출하여 이를 번 역부(114) 및 음성 합성부(116)로 전달한다(단계408). 여기에서,‘사용자 1’이 발성한 감정 상태가 분노로 판단되었기 때문에 그 감정 정보는 예를 들면, 음량을 크게, 음 높이는 높게 음성 속도는 느리게 하는 등의 정보를 포함할 수 있다.Next, the emotional state analyzer 106 extracts the retrieved emotional information and transmits the retrieved emotional information to the translation unit 114 and the speech synthesis unit 116 (step 408). Here, since the emotional state uttered by “user 1” is determined to be anger, the emotional information may include information such as loudness, high pitch, and slow voice speed.

따라서, 전처리된 제 1 음성에 대한 감정 상태 분석을 통해 감정 상태를 판단하고, 판단된 감정 상태에 대응하는 감정 정보를 검색 및 추출하여 이를 번역 및 음성 합성에 이용할 수 있다.Therefore, the emotional state may be determined by analyzing the emotional state of the preprocessed first voice, and the emotional information corresponding to the determined emotional state may be searched and extracted and used for translation and speech synthesis.

다음에, 상술한 바와 같이 자동 통역 장치에서 제 1 음성에 대응하는 제 2 음성을 출력하는 과정에서 제 1 음성에 대한 성별을 감식하고, 이에 대응하는 성별 정보를 검출하여 전달하는 과정에 대해 설명한다.Next, as described above, in the process of outputting the second voice corresponding to the first voice by the automatic interpreter, a process of identifying the gender of the first voice and detecting and transmitting the gender information corresponding thereto will be described. .

도 5는 본 발명의 제 4 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 성별 감식을 수행하는 과정을 도시한 플로우차트이다.FIG. 5 is a flowchart illustrating a process of performing gender identification on a first voice of a first language input according to a fourth embodiment of the present invention.

도 5를 참조하면, 성별 감식부(108)에서는 전처리부(102)로부터 성별을 감식하기 위한 특징이 전달되면(단계502), 전달된 특징을 이용하여 남성 또는 여성을 감식하는 성별 감식을 수행한다(단계504). 여기에서,‘사용자 1’은 남성으로 가정하였으므로 성별이 남성으로 판단될 수 있다.Referring to FIG. 5, when a feature for identifying a gender is transmitted from the preprocessing unit 102 (step 502), the gender identification unit 108 performs gender identification for identifying a male or a female using the transferred feature. (Step 504). Here, since 'user 1' is assumed to be male, the gender may be determined to be male.

그리고, 성별 감식부(108)에서는 결정된 성별에 대응하는 성별 합성 스타일 정보, 즉 성별 정보를 성별 ID 기반으로 검색한다(단계506). 여기에서, 성별 합성 스타일을 나타내는 성별 정보는, 예를 들면, 성별 ID, 남성 음성 모델, 여성 음성 모델 등을 포함할 수 있으며, 이러한 성별 정보는 자동 통역 장치의 저장 매체에 미리 구축되어 저장될 수 있다.In operation 506, the gender identification unit 108 searches for gender synthesis style information corresponding to the determined gender, that is, gender information based on the gender ID. Here, the gender information indicating the gender synthesis style may include, for example, a gender ID, a male voice model, a female voice model, and the like, and the gender information may be pre-built and stored in a storage medium of the automatic interpreter. have.

다음에, 성별 감식부(106)에서는 검색된 성별 정보를 추출하여 이를 음성 합성부(116)로 전달한다(단계508). 여기에서,‘사용자 1’이 남성으로 판단되었기 때문에 그 성별 정보는 예를 들면, 남성 음성 모델 등에 대한 정보를 포함할 수 있다.Next, the gender identification unit 106 extracts the retrieved gender information and transfers it to the speech synthesis unit 116 (step 508). Here, since 'user 1' is determined to be male, the gender information may include, for example, information about a male voice model.

따라서, 전처리된 제 1 음성에 대한 성별 감식을 통해 성별을 판단하고, 판단된 성별에 대응하는 성별 정보를 검색 및 추출하여 이를 음성 합성에 이용할 수 있다.Accordingly, the gender may be determined through gender recognition on the preprocessed first voice, and the gender information corresponding to the determined gender may be searched and extracted and used for voice synthesis.

다음에, 상술한 바와 같이 자동 통역 장치에서 제 1 음성에 대응하는 제 2 음성을 출력하는 과정에서 제 1 문자에 대한 문형을 비교 분석하여 해당 문형을 판단하고, 이에 대응하는 문형 정보를 검출하여 전달하는 과정에 대해 설명한다.Next, as described above, in the process of outputting the second voice corresponding to the first voice, the automatic interpreter compares and analyzes the sentence type of the first character to determine the sentence type, and detects and transmits the sentence information corresponding thereto. Explain the process.

도 6은 본 발명의 제 5 실시 예에 따라 제 1 언어의 제 1 문자에 대한 문형을 판단하는 과정을 도시한 플로우차트이다.6 is a flowchart illustrating a process of determining a sentence pattern for a first character of a first language according to a fifth embodiment of the present invention.

도 6을 참조하면, 문형 판단부(112)에서는 음성 인식부(110)로부터 출력되는 제 1 언어의 제 1 문자가 전달되면(단계602), 이러한 제 1 문자에 대해 문형 데이터베이스를 이용하여 발화된 문형을 판단한다(단계604). 예를 들면, 음성 인식 결과로 출력된 제 1 문자가‘양파는 빼 주세요’라는 문장이 출력된 경우 평서형, 의문형, 청유형, 명령형 등 다양한 문형 데이터베이스를 이용하여 해당 문장을 청유형으로 판단할 수 있다.Referring to FIG. 6, when the sentence type determination unit 112 transmits the first character of the first language output from the speech recognition unit 110 (step 602), the sentence type speech is uttered using a sentence database. The sentence pattern is determined (step 604). For example, when the first character output as a result of speech recognition outputs a sentence “Please remove onions”, the sentence may be judged as an approve type using various sentence-type databases such as a plain form, a question form, an appropriation type, and a command type.

그리고, 문형 판단부(112)에서는 판단된 문형을 결정한다(단계606). 여기에서,‘양파는 빼 주세요’라는 문장은 상대적으로 판단하기 쉬운 문장으로, 판단된 문형을 청유형으로 그 문형을 결정할 수 있지만,‘맑음 또는 구름 조금’등과 같이 해당 문형을 판단하기 어려운 경우 문형을 판단하거나 결정하는 과정이 상대적으로 어렵기 때문에 문형 판단 및 결정에 실패할 수 있고, 이 경우 이에 대응하는 문형 정보는 음성 합성부(116)에 전달하지 않을 수도 있다.Then, the sentence determination unit 112 determines the determined sentence pattern (step 606). Here, the sentence `` Please remove the onion '' is a relatively easy sentence, and can determine the sentence type by the clear sentence type, but if it is difficult to judge the sentence type, such as 'light or cloudy little' Because the judgment or determination process is relatively difficult, sentence determination and determination may fail, and in this case, sentence information corresponding thereto may not be transmitted to the speech synthesis unit 116.

다음에, 문형 판단부(112)에서는 결정된 문형에 대응하는 문형별 합성 스타일 정보인 문형 정보를 문형 ID 기반으로 검색한다(단계608). 여기에서, 문형별 합성 스타일인 문형 정보는, 예를 들어 문형 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보, 음량 변화 정보 등을 포함할 수 있으며, 이러한 문형 정보는 벡터 형식으로 문형별로 등록되어 저장될 수 있다.Next, the sentence type determination unit 112 retrieves sentence type information, that is, sentence type synthesis style information corresponding to the determined sentence type, based on the sentence type ID (step 608). Here, the sentence pattern information, which is a sentence-style synthesizing style, may include, for example, a sentence ID, a synthesized voice speed, a change in pitch level in a sentence, a volume change information, and the like, and the sentence information is registered by sentence type in a vector format. Can be stored.

이어서, 문형 판단부(112)에서는 검색된 문형 정보를 추출하여 음성 합성부(116)에 전달한다(단계610). 여기에서, 문형 정보는, 예를 들어 청유형의 경우 음량은 보통으로, 억양은 천천히 올라가는 억양, 음성 속도는 보통으로 설정된 정보를 포함할 수 있고, 명령형의 경우 큰 음량, 높낮이의 변화가 없는 억양, 음성 속도는 빠르게 하는 정보를 포함할 수 있다.Subsequently, the sentence determining unit 112 extracts the retrieved sentence information and transmits the retrieved sentence information to the speech synthesis unit 116 (step 610). Here, the sentence pattern information may include, for example, information set to a normal volume, an accent rising slowly, and an audio speed to normal in the case of an auditory type, and a loud volume, an intonation without changing the height in the case of a command type, Voice speed may include information that speeds up.

따라서, 음성 인식된 제 1 언어의 제 1 문자에 대한 문형 판단을 통해 판단된 문형에 대응하는 문형 정보를 검색 및 추출하여 이를 음성 합성에 이용할 수 있다.Therefore, the sentence pattern information corresponding to the sentence pattern determined through sentence pattern determination on the first character of the first recognized speech language may be searched and extracted and used for speech synthesis.

상술한 바와 같이 자동 통역 장치는 화자 인식 및 검증 결과, 감정 판단 결과, 문형 판단 결과, 성별 판단 결과 등을 음성 합성에 활용하게 되며, 각 결과에서 얻어지는 음성 합성 스타일이 충돌을 일으킬 경우 다양한 방법으로 각 정보를 조합할 수 있다. 즉, 화자 인식 및 검증 결과, 감정 판단 결과, 문형 판단 결과, 성별 판단 결과 중 어떠한 정보를 우선시 할 것인지 우선 순위를 정할 수 있으며, 각각의 정보에 대한 신뢰도를 음성 합성에 반영함으로써, 신뢰도 기반으로 각 정보를 조합할 수도 있고, 다른 정보를 보낼 각각의 경우에 따른 결정 트리(Decision tree)를 사전에 구축하여 정보 조합에 활용할 수 있다.As described above, the automatic interpretation device utilizes speaker recognition and verification results, emotion judgment results, sentence sentence judgment results, gender judgment results, and the like for speech synthesis. Information can be combined. That is, prioritizing which information among speaker recognition and verification results, emotion judgment results, sentence sentence judgment results, and gender judgment results can be prioritized can be prioritized, and the reliability of each information is reflected in the speech synthesis. The information can be combined, or a decision tree for each case to send different information can be constructed in advance and used for the information combination.

이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.In the foregoing description, various embodiments of the present invention have been described and described. However, the present invention is not necessarily limited thereto, and a person having ordinary skill in the art to which the present invention pertains can make various changes without departing from the technical spirit of the present invention. It will be readily appreciated that branch substitutions, modifications and variations are possible.

도 1은 본 발명의 실시 예에 따라 제 1 언어의 음성을 제 2 언어의 음성으로 출력하는데 적합한 자동 통역 장치의 블록 구성도,1 is a block diagram of an automatic interpretation device suitable for outputting a voice of a first language as a voice of a second language according to an embodiment of the present invention;

도 2는 본 발명의 제 1 실시 예에 따라 입력된 제 1 언어의 제 1 음성을 제 2 언어의 제 2 음성으로 출력하는 과정을 도시한 플로우차트,2 is a flowchart illustrating a process of outputting a first voice of a first language input as a second voice of a second language according to a first embodiment of the present invention;

도 3은 본 발명의 제 2 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 화자 인증 및 화자 검증을 수행하는 과정을 도시한 플로우차트,3 is a flowchart illustrating a process of performing speaker authentication and speaker verification for a first voice of a first language input according to a second embodiment of the present invention;

도 4는 본 발명의 제 3 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 감정 상태를 분석하는 과정을 도시한 플로우차트,4 is a flowchart illustrating a process of analyzing an emotional state of a first voice of a first language input according to a third embodiment of the present invention;

도 5는 본 발명의 제 4 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 성별 감식을 수행하는 과정을 도시한 플로우차트,5 is a flowchart illustrating a process of performing gender identification on a first voice of a first language input according to a fourth embodiment of the present invention;

도 6은 본 발명의 제 5 실시 예에 따라 제 1 언어의 제 1 문자에 대한 문형을 판단하는 과정을 도시한 플로우차트.6 is a flowchart illustrating a process of determining a sentence pattern for a first character of a first language according to a fifth embodiment of the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

102 : 전처리부 104 : 화자 인식 검증부102: preprocessor 104: speaker recognition verification unit

106 : 감정 상태 분석부 108 : 성별 감식부106: emotional state analysis unit 108: gender identification unit

110 : 음성 인식부 112 : 문형 판단부110: speech recognition unit 112: sentence determination unit

114 : 번역부 116 : 음성 합성부114: translation unit 116: speech synthesis unit

Claims (10)

입력된 제 1 언어의 제 1 음성에 대한 화자 인식 및 검증을 통해 그 화자 정보를 전달하는 화자 인식 검증부와,A speaker recognition verification unit for delivering speaker information through speaker recognition and verification of the first voice of the first language inputted therein; 상기 제 1 음성에 대한 감정 상태 판단을 통해 그 감정 정보를 전달하는 감정 상태 분석부와,An emotional state analyzing unit which transmits the emotional information by determining the emotional state of the first voice; 상기 제 1 음성에 대한 성별 감식을 통해 그 성별 정보를 전달하는 성별 감식부와,A gender identification unit configured to transfer gender information through gender identification of the first voice; 상기 제 1 음성을 인식하여 상기 제 1 언어의 제 1 문자를 전달하는 음성 인식부와,A voice recognition unit recognizing the first voice and transferring a first character of the first language; 상기 전달되는 제 1 문자에 대한 문형 판단을 통해 그 문형 정보를 전달하는 문형 판단부와,A sentence determination unit configured to transfer sentence information through sentence determination on the first character to be transmitted; 상기 전달되는 감정 정보를 참조하여 상기 제 1 문자를 제 2 언어의 제 2 문자로 번역하는 번역부와,A translation unit for translating the first character into a second character of a second language with reference to the sentiment information; 상기 제 2 문자를 상기 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 참조하여 상기 제 2 언어의 제 2 음성으로 합성한 후 출력하는 음성 합성부A voice synthesizer for synthesizing the second text into a second voice of the second language with reference to the speaker information, emotion information, gender information, and sentence pattern information. 를 포함하는 자동 통역 장치.Automatic interpretation device comprising a. 제 1 항에 있어서,The method of claim 1, 상기 화자 정보는, 사용자 ID, 선호 성우 ID, 합성 음성 속도, 음 높이 및 음량을 포함하는 자동 통역 장치.And the speaker information includes a user ID, a preferred voice actor ID, a synthesized voice speed, a pitch, and a volume. 제 1 항에 있어서,The method of claim 1, 상기 감정 정보는, 감정 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보 및 음량의 변화 정보를 포함하는 자동 통역 장치.And the emotion information includes emotion ID, synthesized voice speed, sentence height change information, and volume change information. 제 1 항에 있어서,The method of claim 1, 상기 성별 정보는, 성별 ID와, 남성 음성 모델 또는 여성 음성 모델을 포함하는 자동 통역 장치.The gender information, a gender ID, automatic interpretation device including a male voice model or a female voice model. 제 1 항에 있어서,The method of claim 1, 상기 문형 정보는, 문형 ID, 합성 음성 속도, 음 높이 변화 정보 및 음량 변화 정보를 포함하는 자동 통역 장치.The sentence-form information, automatic sentence interpretation device including a sentence ID, synthesized speech speed, pitch change information and volume change information. 입력된 제 1 언어의 제 1 음성에 대해 화자 인식 및 화자 검증, 감정 상태 판단, 성별 감식을 통해 그 화자 정보, 감정 정보 및 성별 정보를 각각 전달하는 단계와,Delivering the speaker information, the emotion information, and the gender information to the first voice of the input first language through speaker recognition, speaker verification, emotional state determination, and gender identification; 상기 제 1 음성을 인식하여 상기 제 1 언어의 제 1 문자를 전달하는 단계와,Recognizing the first voice and delivering a first character of the first language; 상기 전달되는 제 1 문자에 대한 문형 판단을 통해 그 문형 정보를 전달하는 단계와,Delivering the sentence information through sentence determination on the first character to be transmitted; 상기 전달되는 감정 정보를 참조하여 상기 제 1 문자를 제 2 언어의 제 2 문자로 번역하는 단계와,Translating the first character into a second character of a second language with reference to the sentiment information; 상기 제 2 문자를 상기 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 참조하여 상기 제 2 언어의 제 2 음성으로 합성한 후 출력하는 단계Synthesizing the second character into a second voice of the second language with reference to the speaker information, emotion information, gender information, and sentence pattern information and outputting the synthesized second voice; 를 포함하는 자동 통역 방법.Automatic interpretation method comprising a. 제 6 항에 있어서,The method of claim 6, 상기 화자 정보는, 사용자 ID, 선호 성우 ID, 합성 음성 속도, 음 높이 및 음량을 포함하는 자동 통역 방법.The speaker information includes a user ID, a preferred voice actor ID, a synthesized voice speed, a pitch, and a volume. 제 6 항에 있어서,The method of claim 6, 상기 감정 정보는, 감정 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보 및 음량의 변화 정보를 포함하는 자동 통역 방법.And the emotion information includes emotion ID, synthesized voice speed, sentence height change information, and volume change information. 제 6 항에 있어서,The method of claim 6, 상기 성별 정보는, 성별 ID와, 남성 음성 모델 또는 여성 음성 모델을 포함하는 자동 통역 방법.The gender information includes a gender ID and a male voice model or a female voice model. 제 6 항에 있어서,The method of claim 6, 상기 문형 정보는, 문형 ID, 합성 음성 속도, 음 높이 변화 정보 및 음량 변화 정보를 포함하는 자동 통역 방법.The sentence-form information, the sentence interpretation, automatic speech interpretation method including the synthesized speech speed, pitch change information and volume change information.
KR1020080127491A 2008-12-15 2008-12-15 Automatic interpretation apparatus and its method KR20100068965A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080127491A KR20100068965A (en) 2008-12-15 2008-12-15 Automatic interpretation apparatus and its method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080127491A KR20100068965A (en) 2008-12-15 2008-12-15 Automatic interpretation apparatus and its method

Publications (1)

Publication Number Publication Date
KR20100068965A true KR20100068965A (en) 2010-06-24

Family

ID=42367140

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080127491A KR20100068965A (en) 2008-12-15 2008-12-15 Automatic interpretation apparatus and its method

Country Status (1)

Country Link
KR (1) KR20100068965A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292499B2 (en) 2013-04-08 2016-03-22 Electronics And Telecommunications Research Institute Automatic translation and interpretation apparatus and method
CN107731232A (en) * 2017-10-17 2018-02-23 深圳市沃特沃德股份有限公司 Voice translation method and device
US10108606B2 (en) 2016-03-03 2018-10-23 Electronics And Telecommunications Research Institute Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice
US10216729B2 (en) 2013-08-28 2019-02-26 Electronics And Telecommunications Research Institute Terminal device and hands-free device for hands-free automatic interpretation service, and hands-free automatic interpretation service method
US10614170B2 (en) 2016-09-26 2020-04-07 Samsung Electronics Co., Ltd. Method of translating speech signal and electronic device employing the same
CN111837178A (en) * 2018-03-14 2020-10-27 倍播看科技有限公司 Speech processing system and method for processing speech signal
KR20200144521A (en) * 2018-01-11 2020-12-29 네오사피엔스 주식회사 Method and apparatus for voice translation using a multilingual text-to-speech synthesis model

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292499B2 (en) 2013-04-08 2016-03-22 Electronics And Telecommunications Research Institute Automatic translation and interpretation apparatus and method
US10216729B2 (en) 2013-08-28 2019-02-26 Electronics And Telecommunications Research Institute Terminal device and hands-free device for hands-free automatic interpretation service, and hands-free automatic interpretation service method
US10108606B2 (en) 2016-03-03 2018-10-23 Electronics And Telecommunications Research Institute Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice
US10614170B2 (en) 2016-09-26 2020-04-07 Samsung Electronics Co., Ltd. Method of translating speech signal and electronic device employing the same
CN107731232A (en) * 2017-10-17 2018-02-23 深圳市沃特沃德股份有限公司 Voice translation method and device
WO2019075829A1 (en) * 2017-10-17 2019-04-25 深圳市沃特沃德股份有限公司 Voice translation method and apparatus, and translation device
KR20200144521A (en) * 2018-01-11 2020-12-29 네오사피엔스 주식회사 Method and apparatus for voice translation using a multilingual text-to-speech synthesis model
US11810548B2 (en) 2018-01-11 2023-11-07 Neosapience, Inc. Speech translation method and system using multilingual text-to-speech synthesis model
CN111837178A (en) * 2018-03-14 2020-10-27 倍播看科技有限公司 Speech processing system and method for processing speech signal
CN111837178B (en) * 2018-03-14 2024-06-18 倍播看科技有限公司 Speech processing system and method for processing speech signal

Similar Documents

Publication Publication Date Title
KR102525209B1 (en) Simultaneous interpretation system for generating a synthesized voice similar to the native talker&#39;s voice and method thereof
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US11093110B1 (en) Messaging feedback mechanism
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
WO2014048113A1 (en) Voice recognition method and device
JPH0850498A (en) Method and apparatus for comversion of voice into text
WO2007022058A2 (en) Processing of synchronized pattern recognition data for creation of shared speaker-dependent profile
JP2013206253A (en) Machine translation device, method and program
KR20100068965A (en) Automatic interpretation apparatus and its method
US11715472B2 (en) Speech-processing system
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
KR101424193B1 (en) System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition
JP2015201215A (en) Machine translation device, method, and program
KR100669241B1 (en) System and method of synthesizing dialog-style speech using speech-act information
Oura et al. Unsupervised cross-lingual speaker adaptation for HMM-based speech synthesis
CN115176309A (en) Speech processing system
KR20160138613A (en) Method for auto interpreting using emoticon and apparatus using the same
US11564194B1 (en) Device communication
Tripathi et al. Multilingual and multimode phone recognition system for Indian languages
KR101765154B1 (en) Method for convert voice to cyber sign language
NO318112B1 (en) Speech-to-speech conversion system and method
Pranjol et al. Bengali speech recognition: An overview

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application