KR20100068965A - Automatic interpretation apparatus and its method - Google Patents
Automatic interpretation apparatus and its method Download PDFInfo
- Publication number
- KR20100068965A KR20100068965A KR1020080127491A KR20080127491A KR20100068965A KR 20100068965 A KR20100068965 A KR 20100068965A KR 1020080127491 A KR1020080127491 A KR 1020080127491A KR 20080127491 A KR20080127491 A KR 20080127491A KR 20100068965 A KR20100068965 A KR 20100068965A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- voice
- sentence
- gender
- speaker
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013519 translation Methods 0.000 claims abstract description 21
- 238000012546 transfer Methods 0.000 claims abstract description 11
- 230000002996 emotional effect Effects 0.000 claims description 51
- 230000008451 emotion Effects 0.000 claims description 41
- 238000012795 verification Methods 0.000 claims description 40
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 description 38
- 238000003786 synthesis reaction Methods 0.000 description 38
- 238000004458 analytical method Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 10
- 241000234282 Allium Species 0.000 description 8
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 206010048909 Boredom Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 자동 통역 장치에 관한 것으로, 더욱 상세하게는 입력된 음성을 원하는 다른 언어의 음성으로 출력하는데 적합한 자동 통역 장치 및 그 방법에 관한 것이다.The present invention relates to an automatic interpreter, and more particularly, to an automatic interpreter and a method suitable for outputting an inputted voice as a desired language.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술개발].The present invention is derived from research conducted as a part of the core technology development project of IT growth engine of the Ministry of Knowledge Economy and ICT. [Task management number: 2008-S-019-01, Task name: Portable Korean / English automatic interpretation] Technology development].
잘 알려진 바와 같이, 자동 통역 장치는 서로 다른 언어를 사용하는 사람들이 자신들의 모국어로도 의사소통을 할 수 있도록 하기 위한 장치로서, 음성 신호를 받아 음성 인식을 수행하고 그 결과를 제 2 의 언어로 자동 번역한 후에 그 결과를 다시 음성으로 합성하여 출력한다. 즉, 자동 통역 장치는 음성 인식, 자동 번역, 음성 합성 등의 기능을 수행한다.As is well known, the automatic interpreter is a device that allows people who speak different languages to communicate in their native language, which receives voice signals to perform speech recognition and the results in a second language. After the automatic translation, the result is synthesized by voice and output. That is, the automatic interpreter performs functions such as speech recognition, automatic translation, speech synthesis, and the like.
기존의 음성 합성 엔진에서는 주어진 문장의 의미를 추출하여 합성 시 필요 한 운율, 억양, 목소리 톤에 대한 정보를 획득하고 있는데, 이는 음성 합성 엔진에 텍스트 문장이 입력되기 때문이며, 실제 텍스트 문장만으로는 화자의 성별, 감정 상태나 발화 의도 등을 정확히 파악할 수가 없어 음성 합성 시에 그 표현력이 제한된다.The existing speech synthesis engine extracts the meaning of a given sentence and obtains information about the rhyme, intonation, and voice tone required for synthesis. This is because the text sentence is input to the speech synthesis engine. In addition, the emotional state or the intention to speak can not be accurately understood, and thus the expressive power is limited during speech synthesis.
또한, 기존의 자동 번역 엔진은 텍스트 문장을 대상으로 하기 때문에 번역 대상 문장이 문법적으로나 의미적으로 완벽하다는 가정을 하고 있지만, 음성 인식 엔진에서 자동 번역기에 넘겨주는 결과는 그러한 가정을 만족시키지 못하기 때문에, 음성 인식에서 나타나는 인식 오류가 번역에 악영향을 미쳐 번역 후에는 그 오류의 정도가 더욱 심해지는 현상이 나타난다. 이러한 문제를 해결하기 위하여 기존의 자동 통역 장치에서는 제 2 언어로 자동 번역한 결과를 다시 제 1 언어로 자동 번역하여 그 결과를 사용자에게 확인하게 함으로써 이러한 문제를 개선하려는 시도를 하고 있다.In addition, since the existing automatic translation engine targets text sentences, it is assumed that the sentence to be translated is grammatically and semantically perfect, but the result that the speech recognition engine passes to the automatic translator does not satisfy such assumption. In other words, the recognition error in speech recognition adversely affects the translation, so that the degree of the error becomes more severe after the translation. In order to solve this problem, the existing automatic interpreter attempts to improve such a problem by automatically translating the result automatically translated into the second language and confirming the result to the user.
하지만, 종래의 자동 통역 장치에서 설사 음성 인식 결과가 완벽하다고 가정하더라도 텍스트 문장만을 분석하여 이루어지는 번역에서는 합성 엔진에 대해 언급한 것과 마찬가지로 화자의 의도 등을 반영하고 문장의 중의성을 해결하는 데에는 한계가 있다.However, even if it is assumed that the result of speech recognition is perfect in the conventional automatic interpreter, the translation made by analyzing only text sentences has a limit in reflecting the speaker's intention and resolving the sentence's neutrality, as mentioned in the synthesis engine. have.
이러한 자동 통역 장치의 한계로는 크게 두가지가 있는데, 첫 번째는 자동 통역의 출력을 내는 음성 합성 엔진에서 자동 통역 장치의 입력으로 들어왔던 음성 신호의 특성을 활용하지 못하고 있고, 두 번째는 음성 인식의 결과인 텍스트 문장만으로 번역을 수행할 때 화자의 의도를 정확히 전달하지 못하는 한계가 있다는 것이다.There are two major limitations of the automatic interpreter. First, the speech synthesis engine that outputs the automatic interpreter does not utilize the characteristics of the speech signal that is input to the input of the automatic interpreter. There is a limitation in not accurately conveying the speaker's intention when performing translation with only the text sentence as a result.
이에 따라, 본 발명은 입력 음성에 대한 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 반영하여 원하는 언어의 음성으로 출력할 수 있는 자동 통역 장치 및 그 방법을 제공하고자 한다.Accordingly, an aspect of the present invention is to provide an automatic interpretation apparatus and method capable of outputting a voice in a desired language by reflecting speaker information, emotion information, gender information, and sentence information of an input voice.
일 관점에서 본 발명은, 입력된 제 1 언어의 제 1 음성에 대한 화자 인식 및 검증을 통해 그 화자 정보를 전달하는 화자 인식 검증부와, 상기 제 1 음성에 대한 감정 상태 판단을 통해 그 감정 정보를 전달하는 감정 상태 분석부와, 상기 제 1 음성에 대한 성별 감식을 통해 그 성별 정보를 전달하는 성별 감식부와, 상기 제 1 음성을 인식하여 상기 제 1 언어의 제 1 문자를 전달하는 음성 인식부와, 상기 전달되는 제 1 문자에 대한 문형 판단을 통해 그 문형 정보를 전달하는 문형 판단부와, 상기 전달되는 감정 정보를 참조하여 상기 제 1 문자를 제 2 언어의 제 2 문자로 번역하는 번역부와, 상기 제 2 문자를 상기 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 참조하여 상기 제 2 언어의 제 2 음성으로 합성한 후 출력하는 음성 합성부를 포함하는 자동 통역 장치를 제공한다.In one aspect, the present invention, a speaker recognition verification unit for transmitting the speaker information through the speaker recognition and verification of the first voice of the first language input, and the emotion information through the emotional state determination for the first voice An emotional state analysis unit for transmitting a; and a gender identification unit for transmitting the gender information through gender identification of the first voice; and a voice recognition for recognizing the first voice and delivering a first character of the first language. A sentence sentence determination unit configured to transfer sentence information through sentence sentence determination of the first character to be transmitted, and a translation to translate the first character into a second character of a second language with reference to the sentiment information. An automatic interpretation chapter including a speech synthesizer for synthesizing the second text into a second voice of the second language with reference to the speaker information, emotion information, gender information, and sentence pattern information; To provide
다른 관점에서 본 발명은, 입력된 제 1 언어의 제 1 음성에 대해 화자 인식 및 화자 검증, 감정 상태 판단, 성별 감식을 통해 그 화자 정보, 감정 정보 및 성별 정보를 각각 전달하는 단계와, 상기 제 1 음성을 인식하여 상기 제 1 언어의 제 1 문자를 전달하는 단계와, 상기 전달되는 제 1 문자에 대한 문형 판단을 통해 그 문형 정보를 전달하는 단계와, 상기 전달되는 감정 정보를 참조하여 상기 제 1 문자를 제 2 언어의 제 2 문자로 번역하는 단계와, 상기 제 2 문자를 상기 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 참조하여 상기 제 2 언어의 제 2 음성으로 합성한 후 출력하는 단계를 포함하는 자동 통역 방법을 제공한다.In another aspect, the present invention, the speaker information and the speaker verification, emotional state determination, gender identification for the first voice of the input first language, and transmitting the speaker information, emotion information and gender information, respectively, Recognizing a first voice and delivering a first character of the first language, and delivering the sentence information through the sentence determination of the transmitted first character, and by referring to the sent emotion information Translating one character into a second character of a second language; synthesizing the second character into a second voice of the second language with reference to the speaker information, emotion information, gender information, and sentence pattern information; Provides an automatic interpretation method comprising the steps.
본 발명은, 자동 통역 장치로 입력된 음성에서 다양한 정보를 추출하고 이를 자동 번역에 활용함으로써, 번역 정확도가 향상될 수 있다. 또한 음성에서 추출한 정보를 음성 합성 장치에서 활용함으로써, 합성음의 자연성이 개선될 수 있다.According to the present invention, translation accuracy may be improved by extracting various information from a voice input by an automatic interpreter and using the same for automatic translation. In addition, by utilizing the information extracted from the speech in the speech synthesis device, the naturalness of the synthesized sound can be improved.
따라서 자동통역 장치 전체의 출력에 대한 사용자의 만족도를 향상시킬 수 있는 효과가 있다.Therefore, there is an effect that can improve the user's satisfaction with the output of the entire automatic interpretation device.
본 발명은, 입력된 제 1 언어의 제 1 음성을 전처리하고, 음성 인식을 통해 제 1 언어의 제 1 문자로 출력한 후, 이를 제 2 언어의 제 2 문자로 번역하고, 화자 인식 및 화자 검증에 따른 화자 정보, 감정 상태 분석에 따른 감정 정보, 성별 감식에 따른 성별 정보 및 제 1 문자에 대한 문형 정보를 참조하여 제 2 언어의 제 2 음성으로 합성한 후 출력한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.The present invention preprocesses the first voice of the input first language, outputs the first voice of the first language through voice recognition, translates it into a second character of the second language, and recognizes the speaker and verifies the speaker. By referring to the speaker information, the emotional information according to the emotional state analysis, the gender information according to gender identification, and the sentence pattern information about the first character, the speech information is synthesized and outputted after the second voice of the second language. The problem in the prior art can be solved.
이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시 예에 따라 제 1 언어의 음성을 제 2 언어의 음성으로 출력하는데 적합한 자동 통역 장치의 블록 구성도로서, 전처리부(102), 화자 인식 검증부9104), 감정 상태 분석부(106), 성별 감식부(108), 음성 인식부(110), 문형 판단부(112), 번역부(114) 및 음성 합성부(116)를 포함한다.1 is a block diagram of an automatic interpretation device suitable for outputting a voice of a first language as a voice of a second language according to an embodiment of the present invention. The preprocessing
도 1을 참조하면, 전처리부(102)는 제 1 언어의 제 1 음성이 입력되면 이러한 제 1 음성을 전처리하여 각종 특징들을 추출하여 전달하는데, 제 1 음성에 대한 화자 인식 및 화자 검증을 위한 특징을 추출하여 화자 인식 검증부(104)로 전달하고, 제 1 음성에 대한 감정 상태를 분석하기 위한 특징을 추출하여 감정 상태 분석부(106)로 전달하며, 제 1 음성에 대한 성별 감식을 위한 특징을 추출하여 성별 감식부(108)로 전달하며, 음성 인식을 위한 특징을 추출하여 이를 음성 인식부(110)로 전달한다.Referring to FIG. 1, when a first voice of a first language is input, the
그리고, 화자 인식 검증부(104)는 전처리부(102)로부터 전달되는 화자 인식 및 화자 검증을 위한 특징을 이용하여 화자 인식 및 화자 검증을 수행하는데, 화자 인식은 전달되는 특징을 이용하여 기 저장된 사용자 모델 중 어떤 화자 모델에 가 장 가까운지를 비교 분석한 후에, 그에 대응하는 화자 모델을 검출하는 것이고, 화자 검증은 전달되는 특징을 이용하여 검출된 화자 모델의 유사성을 비교 분석하여 그 화자 모델을 검증하는 것이다. 이러한 화자 인식 및 화자 검증이 완료되면 해당 화자 모델에 대한 화자 정보를 검출하여 음성 합성부(116)로 전달한다. 여기에서, 화자 정보는 선호하는 합성 스타일 정보로서, 예를 들어 사용자 ID, 선호 성우 ID, 합성 음성 속도, 음 높이(pitch), 음량(energy) 등을 포함할 수 있다.In addition, the speaker
또한, 감정 상태 분석부(106)는 전처리부(102)로부터 전달되는 감정 상태를 분석하기 위한 특징을 이용하여 감정 상태(예를 들면, 슬픔, 두려움, 분노, 기쁨, 지루함 등)를 판단하게 되는데, 이러한 판단 결과에 따른 감정 정보를 검출하여 번역부(114) 및 음성 합성부(116)로 전달한다. 여기에서, 감정 정보는 감정별 합성 스타일 정보로서, 예를 들어 감정 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보, 음량의 변화 정보 등을 포함할 수 있다.In addition, the emotional
한편, 성별 감식부(108)는 전처리부(102)로부터 전달되는 성별을 감식하기 위한 특징을 이용하여 성별을 판단하게 되는데, 이러한 판단 결과에 따른 성별 정보를 검출하여 음성 합성부(116)로 전달한다. 여기에서, 성별 정보는 예를 들면, 성별 ID와, 남성 음성 모델 또는 여성 음성 모델 등을 포함할 수 있다.On the other hand, the
다음에, 음성 인식부(110)는 전처리부(102)로부터 전달되는 음성 인식을 위한 특징을 이용하여 입력된 제 1 음성을 인식하고, 인식 결과에 따른 제 1 언어의 제 1 문자(텍스트)를 출력하여 문형 판단부(112) 및 번역부(114)로 전달한다.Next, the
그리고, 문형 판단부(112)는 음성 처리부(110)로부터 전달되는 제 1 문자에 대해 문형 데이터베이스를 이용하여 평서형, 의문형, 청유형, 명령형 등과 같은 문형을 판단하고, 이러한 판단 결과에 따른 문형 정보를 검출하여 음성 합성부(116)로 전달한다. 여기에서, 문형 정보는 문형 ID, 합성 음성 속도, 음 높이 변화 정보, 음량 변화 정보 등을 포함할 수 있다.In addition, the
또한, 번역부(114)는 음성 인식부(110)로부터 전달되는 제 1 문자를 감정 상태 분석부(106)로부터 전달되는 감정 정보를 참조하여 제 2 언어의 제 2 문자로 번역한 후, 이러한 제 2 문자를 음성 합성부(116)로 전달한다.In addition, the
다음에, 음성 합성부(116)는 화자 인식 검증부(104)로부터 전달되는 화자 정보와, 감정 상태 분석부(106)로부터 전달되는 감정 정보와, 성별 감식부(108)로부터 전달되는 성별 정보와, 문형 판단부(112)로부터 전달되는 문형 정보를 참조하여 번역부(114)로부터 전달되는 제 2 문자를 제 2 언어의 제 2 음성으로 합성한 후, 이러한 제 2 음성을 출력한다.Next, the
다음에, 상술한 바와 같은 구성을 갖는 자동 통역 장치를 이용하여 입력된 제 1 언어의 제 1 음성을 전처리하고, 음성 인식을 통해 제 1 언어의 제 1 문자로 출력한 후, 이를 제 2 언어의 제 2 문자로 번역하고, 화자 인식 및 화자 검증에 따른 화자 정보, 감정 상태 분석에 따른 감정 정보, 성별 감식에 따른 성별 정보 및 제 1 문자에 대한 문형 정보를 참조하여 제 2 언어의 제 2 음성으로 합성한 후 출력하는 과정에 대해 설명한다. 이하에서는 사용자가 남자이고, 이름은‘사용자 1’이며,‘양파는 빼 주세요’라고 화난 목소리로 발성하였으며,‘사용자 1’은 자동 통역 장치에 등록된 사용자로 하여 설명한다.Next, the first voice of the first language input is preprocessed using the automatic interpretation device having the above-described configuration, and is output as the first character of the first language through voice recognition, and then the second voice is output of the second language. Translated into the second character and referring to the speaker information according to the speaker recognition and speaker verification, the emotion information according to the emotional state analysis, the gender information according to the gender identification, and the sentence pattern information about the first character, to the second voice of the second language. Explain the process of synthesizing and printing. In the following description, the user is a man, the name is 'User 1', 'Please remove onions', and the user is spoken with an angry voice.
도 2는 본 발명의 제 1 실시 예에 따라 입력된 제 1 언어의 제 1 음성을 제 2 언어의 제 2 음성으로 출력하는 과정을 도시한 플로우차트이다.2 is a flowchart illustrating a process of outputting a first voice of a first language input as a second voice of a second language according to a first embodiment of the present invention.
도 2를 참조하면, 전처리부(102)에서는 제 1 언어의 제 1 음성이 입력되면 이러한 제 1 음성을 전처리하여 각종 특징들(예를 들면, 화자 인식 및 화자 검증을 위한 특징, 감정 상태를 분석하기 위한 특징, 성별 감식을 위한 특징, 음성 인식을 위한 특징 등)을 추출하여 전달한다(단계202).Referring to FIG. 2, when the first voice of the first language is input, the
그리고, 화자 인식 검증부(104)에서는 전처리부(102)로부터 전달되는 화자 인식 및 화자 검증을 위한 특징을 이용하여 화자 인식 및 화자 검증을 수행한다(단계204). 여기에서, 화자 인식의 경우 전달되는 특징을 이용하여 기 저장된 사용자 모델 중 어떤 화자 모델에 가장 가까운지를 비교 분석한 후에, 그에 대응하는 화자 모델을 검출할 수 있고, 화자 검증의 경우 전달되는 특징을 이용하여 검출된 화자 모델의 유사성을 비교 분석하여 그 화자 모델을 검증할 수 있으며, 이러한 화자 인식 및 화자 검증에 따라 해당 화자 모델에 대한 화자 정보(예를 들면, 사용자 ID, 선호 성우 ID, 합성 음성 속도, 음 높이, 음량 등)를 검출하여 음성 합성부(116)로 전달한다.In addition, the speaker
예를 들면, 발성한‘사용자 1’은 등록되어 있는 상태이기 때문에‘사용자 1’에 대응하는 사용자 모델에 따라‘사용자 1’로 인식될 수 있으며,‘사용자 1’의 사용자 모델을 주어진 특징과 비교 분석함으로써, 화자 인식을 통해 결정된‘사용자 1’이 자동 통역 장치를 이용하는 사용자인지의 여부를 판단하는 방식으로 화자 검증을 수행할 수 있다.For example, since the user '1' that is spoken is registered, it can be recognized as 'user 1' according to the user model corresponding to 'user 1', and the user model of 'user 1' is compared with a given feature. By analyzing, the speaker verification may be performed by determining whether 'user 1' determined through speaker recognition is a user who uses an automatic interpreter.
또한, 감정 상태 분석부(106)에서는 전처리부(102)로부터 전달되는 감정 상태를 분석하기 위한 특징을 이용하여 예를 들면, 슬픔, 두려움, 분노, 기쁨, 지루함 등과 같은 감정 상태를 판단한다(단계206). 이러한 판단 결과에 따른 감정 정보(예를 들면, 감정 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보, 음량의 변화 정보 등)를 검출하여 번역부(114) 및 음성 합성부(116)로 전달한다.In addition, the emotional
예를 들면,‘사용자 1’은 화난 목소리로 발성하였으므로 감정 상태가 분노로 판단될 수 있으며,‘사용자 1’이 발성한 감정 상태가 분노로 판단되었기 때문에 그 감정 정보에는 예를 들면, 음량을 크게, 음 높이는 높게 음성 속도는 느리게 하는 등의 정보를 포함할 수 있다.For example, 'user 1' utters an angry voice, so the emotional state may be determined to be anger, and since the emotional state uttered by 'user 1' is judged to be anger, the emotional information may be loud, for example. For example, the information may include information such as a high pitch level and a slow voice rate.
한편, 성별 감식부(108)에서는 전처리부(102)로부터 전달되는 성별을 감식하기 위한 특징을 이용하여 성별을 판단한다(단계208) 이러한 판단 결과에 따른 성별 정보(예를 들면, 남성 음성 모델 또는 여성 음성 모델)를 검출하여 음성 합성부(116)로 전달한다.On the other hand, the
예를 들면,‘사용자 1’은 남성으로 가정하였으므로 성별이 남성으로 판단될 수 있으며,‘사용자 1’이 남성으로 판단되었기 때문에 그 성별 정보에는 예를 들면, 남성 음성 모델 등에 대한 정보를 포함할 수 있다.For example, since 'user 1' is assumed to be male, the gender may be determined to be male, and since 'user 1' is determined to be male, the gender information may include, for example, information about a male voice model. have.
다음에, 음성 인식부(110)에서는 전처리부(102)로부터 전달되는 음성 인식을 위한 특징을 이용하여 입력된 제 1 음성을 인식하고, 인식 결과에 따라 제 1 언어의 제 1 문자(텍스트)로 출력하여 문형 판단부(112) 및 번역부(114)로 전달한다(단계210).Next, the
그리고, 문형 판단부(112)에서는 음성 처리부(110)로부터 전달되는 제 1 문자에 대해 문형 데이터베이스를 이용하여 평서형, 의문형, 청유형, 명령형 등과 같은 문형을 판단한다(단계212). 이러한 판단 결과에 따른 문형 정보(예를 들면, 문형 ID, 합성 음성 속도, 음 높이 변화 정보, 음량 변화 정보 등)를 검출하여 음성 합성부(116)로 전달한다.In addition, the
예를 들면, 음성 인식 결과로 출력된 제 1 문자가‘양파는 빼 주세요’라는 문장이 출력된 경우 평서형, 의문형, 청유형, 명령형 등 다양한 문형 데이터베이스를 이용하여 해당 문장을 청유형으로 판단할 수 있으며, 그 문형 정보에는 청유형의 경우 음량은 보통으로, 억양은 천천히 올라가는 억양, 음성 속도는 보통으로 설정된 정보를 포함할 수 있고, 명령형의 경우 큰 음량, 높낮이의 변화가 없는 억양, 음성 속도는 빠르게 하는 정보를 포함할 수 있다.For example, when the first character output as a result of speech recognition outputs a sentence “Please remove onions”, the sentence may be judged as an auditory type using a variety of sentence-type databases such as a plain text, a question type, a clear type, and a command type. The sentence information may include information in which the volume is normal, the accent is slowly rising, the voice speed is normal, and in the case of the command type, the loud volume, the accent without changing the height, and the speed of the voice are fast. It may include.
또한, 번역부(114)에서는 음성 인식부(110)로부터 전달되는 제 1 문자를 감정 상태 분석부(106)로부터 전달되는 감정 정보를 참조하여 제 2 언어의 제 2 문자로 번역한 후, 이러한 제 2 문자를 음성 합성부(116)로 전달한다(단계214).In addition, the
예를 들면, 번역부(114)에서는 제 1 언어는 한국어, 제 2 언어는 영어이고, 한국어를 자동 통역하여 영어로 출력하고자 할 때‘양파는 빼 주세요’라고 발화된 문장의 경우에 감정 상태 분석부(106)로부터 전달되는 감정 정보에 따른 감정 상태가‘무감정’일 경우‘Would you go easy on onion. please?’라고 번역할 수 있지만, 상술한 바와 같이 판단된 감정 상태가‘분노’인 경우 예를 들어 명령형으로,‘Go easy on onion.’와 같이 번역할 수 있다.For example, in the
다음에, 음성 합성부(116)는 화자 인식 검증부(104)로부터 전달되는 화자 정보와, 감정 상태 분석부(106)로부터 전달되는 감정 정보와, 성별 감식부(108)로부터 전달되는 성별 정보와, 문형 판단부(112)로부터 전달되는 문형 정보를 참조하여 번역부(114)로부터 전달되는 제 2 문자를 제 2 언어의 제 2 음성으로 합성한 후, 이러한 제 2 음성을 출력한다(단계214).Next, the
예를 들면, 사용자가 남자이고, 이름은‘사용자 1’이며, ‘양파는 빼 주세요’라고 화난 목소리로 발성하였으며,‘사용자 1’은 자동 통역 장치에 등록된 사용자이기 때문에, 음성 합성부(116)에서는 화자 인식 검증부(104)로부터‘사용자 1’에 대응하는 화자 정보와, 감정 상태 분석부(106)로부터‘분노’에 대응하는 감정 정보와, 성별 감식부(108)로부터‘남성’에 대응하는 성별 정보와, 문형 판단부(112)로부터‘남성’에 대응하는 문형 정보를 각각 전달받아 번역부(114)로부터 전달되는 제 2 언어의 제 2 문자에 대해 각 정보를 참조하여 제 2 음성을 합성 출력할 수 있다.For example, because the user is a man, the name is 'User 1', 'Please remove the onion' in an angry voice, and 'User 1' is a registered user in the automatic interpretation device. ), Speaker information corresponding to 'user 1' from speaker
따라서, 입력된 제 1 음성을 인식하여 제 1 문자로 출력하고, 감정 정보를 참조하여 제 2 문자로 번역한 후, 화자 정보, 감정 정보, 성별 정보 및 문형 정보를 참조하여 제 2 음성으로 합성하여 출력함으로써, 입력된 제 1 음성에 대한 각종 정보에 따라 제 2 음성을 합성하여 출력할 수 있다.Therefore, the inputted first voice is recognized and output as the first character, translated into the second character with reference to the emotion information, and then synthesized into the second voice with reference to the speaker information, the emotion information, the gender information, and the sentence pattern information. By outputting, it is possible to synthesize and output the second voice in accordance with various information on the input first voice.
다음에, 상술한 바와 같이 자동 통역 장치에서 제 1 음성에 대응하는 제 2 음성을 출력하는 과정에서 제 1 음성에 대한 화자 인식과 화자 검증을 통해 화자 모델을 결정하고, 이에 대응하는 화자 정보를 검출하여 전달하는 과정에 대해 설명 한다.Next, as described above, in the process of outputting the second voice corresponding to the first voice in the automatic interpreter, the speaker model is determined through speaker recognition and speaker verification of the first voice, and the corresponding speaker information is detected. Explain the process of delivery.
도 3은 본 발명의 제 2 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 화자 인증 및 화자 검증을 수행하는 과정을 도시한 플로우차트이다.3 is a flowchart illustrating a process of performing speaker authentication and speaker verification on a first voice of a first language input according to a second embodiment of the present invention.
도 3을 참조하면, 화자 인식 검증부(104)에서는 전처리부(102)로부터 화자 인식 및 화자 검증을 위한 특징이 전달되면(단계302), 전달되는 특징과 등록된 사용자에 대응하여 저장된 사용자 모델에 따라 어떤 사용자일 가능성이 가장 높은지 결정하는 방식으로 화자 인식을 수행한다(단계304). 여기에서, 발성한‘사용자 1’은 등록되어 있는 상태이기 때문에‘사용자 1’에 대응하는 사용자 모델에 따라‘사용자 1’로 인식될 수 있다.Referring to FIG. 3, when the speaker
그리고, 화자 인식 검증부(104)에서는 전처리부(102)로부터 전달된 특징과‘사용자 1’의 사용자 모델을 비교 분석함으로써, 화자 인식을 통해 결정된‘사용자 1’이 자동 통역 장치를 이용하는 사용자인지의 여부를 판단하는 방식으로 화자 검증을 수행한다(단계306).In addition, the speaker
다음에, 화자 인식 검증부(104)에서는 화자 검증이 완료된‘사용자 1’에 대응하는 선호 합성 스타일 정보, 즉 화자 정보를 사용자 ID 기반으로 검색한다(단계308). 여기에서, 사용자가 선호하는 합성 스타일을 나타내는 화자 정보는, 예를 들면, 사용자 ID, 선호 성우 ID, 합성 음성 속도, 음 높이, 음량 등을 포함할 수 있으며, 이러한 각각의 정보는 행렬, 벡터 등으로 표현될 수 있고, 이러한 각각의 정보는 사용자를 등록하면서 함께 저장될 수 있다.Next, the speaker
이어서, 화자 인식 검증부(104)에서는 검색된 화자 정보를 추출한 후에 음성 합성부(116)로 전달한다(단계310).Subsequently, the speaker
따라서, 전처리된 제 1 음성에 대한 화자 인식 및 화자 검증을 통해 사용자를 결정하고, 결정된 사용자에 대응하는 화자 정보를 검색 및 추출하여 이를 음성 합성에 이용할 수 있다.Accordingly, the user may be determined by speaker recognition and speaker verification of the preprocessed first voice, and the speaker information corresponding to the determined user may be searched and extracted and used for speech synthesis.
다음에, 상술한 바와 같이 자동 통역 장치에서 제 1 음성에 대응하는 제 2 음성을 출력하는 과정에서 제 1 음성에 대한 감정 상태를 판단하고, 이에 대응하는 감정 정보를 검출하여 전달하는 과정에 대해 설명한다.Next, as described above, in the process of outputting the second voice corresponding to the first voice by the automatic interpreter, the process of determining the emotional state of the first voice, and detecting and transmitting the corresponding emotion information will be described. do.
도 4는 본 발명의 제 3 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 감정 상태를 분석하는 과정을 도시한 플로우차트이다.FIG. 4 is a flowchart illustrating a process of analyzing an emotional state of a first voice of a first language input according to a third embodiment of the present invention.
도 4를 참조하면, 감정 상태 분석부(106)에서는 전처리부(102)로부터 감정 상태를 분석하기 위한 특징이 전달되면(단계402), 전달된 특징을 이용하여 무감정, 슬픔, 두려움, 분노, 기쁨, 지루함 등의 감정 상태 분석을 수행한다(단계404). 여기에서,‘사용자 1’은 화난 목소리로 발성하였으므로 감정 상태가 분노로 판단될 수 있다.Referring to FIG. 4, in the emotional
그리고, 감정 상태 분석부(106)에서는 결정된 감정 상태에 대응하는 감정별 합성 스타일 정보, 즉 감정 정보를 감정 ID 기반으로 검색한다(단계406). 여기에서, 감정별 합성 스타일을 나타내는 감정 정보는, 예를 들어 감정 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보, 음량의 변화 정보 등을 포함할 수 있으며, 이러한 감정 정보는 자동 통역 장치의 저장 매체에 미리 구축되어 저장될 수 있다.In addition, the
다음에, 감정 상태 분석부(106)에서는 검색된 감정 정보를 추출하여 이를 번 역부(114) 및 음성 합성부(116)로 전달한다(단계408). 여기에서,‘사용자 1’이 발성한 감정 상태가 분노로 판단되었기 때문에 그 감정 정보는 예를 들면, 음량을 크게, 음 높이는 높게 음성 속도는 느리게 하는 등의 정보를 포함할 수 있다.Next, the
따라서, 전처리된 제 1 음성에 대한 감정 상태 분석을 통해 감정 상태를 판단하고, 판단된 감정 상태에 대응하는 감정 정보를 검색 및 추출하여 이를 번역 및 음성 합성에 이용할 수 있다.Therefore, the emotional state may be determined by analyzing the emotional state of the preprocessed first voice, and the emotional information corresponding to the determined emotional state may be searched and extracted and used for translation and speech synthesis.
다음에, 상술한 바와 같이 자동 통역 장치에서 제 1 음성에 대응하는 제 2 음성을 출력하는 과정에서 제 1 음성에 대한 성별을 감식하고, 이에 대응하는 성별 정보를 검출하여 전달하는 과정에 대해 설명한다.Next, as described above, in the process of outputting the second voice corresponding to the first voice by the automatic interpreter, a process of identifying the gender of the first voice and detecting and transmitting the gender information corresponding thereto will be described. .
도 5는 본 발명의 제 4 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 성별 감식을 수행하는 과정을 도시한 플로우차트이다.FIG. 5 is a flowchart illustrating a process of performing gender identification on a first voice of a first language input according to a fourth embodiment of the present invention.
도 5를 참조하면, 성별 감식부(108)에서는 전처리부(102)로부터 성별을 감식하기 위한 특징이 전달되면(단계502), 전달된 특징을 이용하여 남성 또는 여성을 감식하는 성별 감식을 수행한다(단계504). 여기에서,‘사용자 1’은 남성으로 가정하였으므로 성별이 남성으로 판단될 수 있다.Referring to FIG. 5, when a feature for identifying a gender is transmitted from the preprocessing unit 102 (step 502), the
그리고, 성별 감식부(108)에서는 결정된 성별에 대응하는 성별 합성 스타일 정보, 즉 성별 정보를 성별 ID 기반으로 검색한다(단계506). 여기에서, 성별 합성 스타일을 나타내는 성별 정보는, 예를 들면, 성별 ID, 남성 음성 모델, 여성 음성 모델 등을 포함할 수 있으며, 이러한 성별 정보는 자동 통역 장치의 저장 매체에 미리 구축되어 저장될 수 있다.In
다음에, 성별 감식부(106)에서는 검색된 성별 정보를 추출하여 이를 음성 합성부(116)로 전달한다(단계508). 여기에서,‘사용자 1’이 남성으로 판단되었기 때문에 그 성별 정보는 예를 들면, 남성 음성 모델 등에 대한 정보를 포함할 수 있다.Next, the
따라서, 전처리된 제 1 음성에 대한 성별 감식을 통해 성별을 판단하고, 판단된 성별에 대응하는 성별 정보를 검색 및 추출하여 이를 음성 합성에 이용할 수 있다.Accordingly, the gender may be determined through gender recognition on the preprocessed first voice, and the gender information corresponding to the determined gender may be searched and extracted and used for voice synthesis.
다음에, 상술한 바와 같이 자동 통역 장치에서 제 1 음성에 대응하는 제 2 음성을 출력하는 과정에서 제 1 문자에 대한 문형을 비교 분석하여 해당 문형을 판단하고, 이에 대응하는 문형 정보를 검출하여 전달하는 과정에 대해 설명한다.Next, as described above, in the process of outputting the second voice corresponding to the first voice, the automatic interpreter compares and analyzes the sentence type of the first character to determine the sentence type, and detects and transmits the sentence information corresponding thereto. Explain the process.
도 6은 본 발명의 제 5 실시 예에 따라 제 1 언어의 제 1 문자에 대한 문형을 판단하는 과정을 도시한 플로우차트이다.6 is a flowchart illustrating a process of determining a sentence pattern for a first character of a first language according to a fifth embodiment of the present invention.
도 6을 참조하면, 문형 판단부(112)에서는 음성 인식부(110)로부터 출력되는 제 1 언어의 제 1 문자가 전달되면(단계602), 이러한 제 1 문자에 대해 문형 데이터베이스를 이용하여 발화된 문형을 판단한다(단계604). 예를 들면, 음성 인식 결과로 출력된 제 1 문자가‘양파는 빼 주세요’라는 문장이 출력된 경우 평서형, 의문형, 청유형, 명령형 등 다양한 문형 데이터베이스를 이용하여 해당 문장을 청유형으로 판단할 수 있다.Referring to FIG. 6, when the sentence
그리고, 문형 판단부(112)에서는 판단된 문형을 결정한다(단계606). 여기에서,‘양파는 빼 주세요’라는 문장은 상대적으로 판단하기 쉬운 문장으로, 판단된 문형을 청유형으로 그 문형을 결정할 수 있지만,‘맑음 또는 구름 조금’등과 같이 해당 문형을 판단하기 어려운 경우 문형을 판단하거나 결정하는 과정이 상대적으로 어렵기 때문에 문형 판단 및 결정에 실패할 수 있고, 이 경우 이에 대응하는 문형 정보는 음성 합성부(116)에 전달하지 않을 수도 있다.Then, the
다음에, 문형 판단부(112)에서는 결정된 문형에 대응하는 문형별 합성 스타일 정보인 문형 정보를 문형 ID 기반으로 검색한다(단계608). 여기에서, 문형별 합성 스타일인 문형 정보는, 예를 들어 문형 ID, 합성 음성 속도, 문장 내 음 높이 변화 정보, 음량 변화 정보 등을 포함할 수 있으며, 이러한 문형 정보는 벡터 형식으로 문형별로 등록되어 저장될 수 있다.Next, the sentence
이어서, 문형 판단부(112)에서는 검색된 문형 정보를 추출하여 음성 합성부(116)에 전달한다(단계610). 여기에서, 문형 정보는, 예를 들어 청유형의 경우 음량은 보통으로, 억양은 천천히 올라가는 억양, 음성 속도는 보통으로 설정된 정보를 포함할 수 있고, 명령형의 경우 큰 음량, 높낮이의 변화가 없는 억양, 음성 속도는 빠르게 하는 정보를 포함할 수 있다.Subsequently, the
따라서, 음성 인식된 제 1 언어의 제 1 문자에 대한 문형 판단을 통해 판단된 문형에 대응하는 문형 정보를 검색 및 추출하여 이를 음성 합성에 이용할 수 있다.Therefore, the sentence pattern information corresponding to the sentence pattern determined through sentence pattern determination on the first character of the first recognized speech language may be searched and extracted and used for speech synthesis.
상술한 바와 같이 자동 통역 장치는 화자 인식 및 검증 결과, 감정 판단 결과, 문형 판단 결과, 성별 판단 결과 등을 음성 합성에 활용하게 되며, 각 결과에서 얻어지는 음성 합성 스타일이 충돌을 일으킬 경우 다양한 방법으로 각 정보를 조합할 수 있다. 즉, 화자 인식 및 검증 결과, 감정 판단 결과, 문형 판단 결과, 성별 판단 결과 중 어떠한 정보를 우선시 할 것인지 우선 순위를 정할 수 있으며, 각각의 정보에 대한 신뢰도를 음성 합성에 반영함으로써, 신뢰도 기반으로 각 정보를 조합할 수도 있고, 다른 정보를 보낼 각각의 경우에 따른 결정 트리(Decision tree)를 사전에 구축하여 정보 조합에 활용할 수 있다.As described above, the automatic interpretation device utilizes speaker recognition and verification results, emotion judgment results, sentence sentence judgment results, gender judgment results, and the like for speech synthesis. Information can be combined. That is, prioritizing which information among speaker recognition and verification results, emotion judgment results, sentence sentence judgment results, and gender judgment results can be prioritized can be prioritized, and the reliability of each information is reflected in the speech synthesis. The information can be combined, or a decision tree for each case to send different information can be constructed in advance and used for the information combination.
이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.In the foregoing description, various embodiments of the present invention have been described and described. However, the present invention is not necessarily limited thereto, and a person having ordinary skill in the art to which the present invention pertains can make various changes without departing from the technical spirit of the present invention. It will be readily appreciated that branch substitutions, modifications and variations are possible.
도 1은 본 발명의 실시 예에 따라 제 1 언어의 음성을 제 2 언어의 음성으로 출력하는데 적합한 자동 통역 장치의 블록 구성도,1 is a block diagram of an automatic interpretation device suitable for outputting a voice of a first language as a voice of a second language according to an embodiment of the present invention;
도 2는 본 발명의 제 1 실시 예에 따라 입력된 제 1 언어의 제 1 음성을 제 2 언어의 제 2 음성으로 출력하는 과정을 도시한 플로우차트,2 is a flowchart illustrating a process of outputting a first voice of a first language input as a second voice of a second language according to a first embodiment of the present invention;
도 3은 본 발명의 제 2 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 화자 인증 및 화자 검증을 수행하는 과정을 도시한 플로우차트,3 is a flowchart illustrating a process of performing speaker authentication and speaker verification for a first voice of a first language input according to a second embodiment of the present invention;
도 4는 본 발명의 제 3 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 감정 상태를 분석하는 과정을 도시한 플로우차트,4 is a flowchart illustrating a process of analyzing an emotional state of a first voice of a first language input according to a third embodiment of the present invention;
도 5는 본 발명의 제 4 실시 예에 따라 입력된 제 1 언어의 제 1 음성에 대한 성별 감식을 수행하는 과정을 도시한 플로우차트,5 is a flowchart illustrating a process of performing gender identification on a first voice of a first language input according to a fourth embodiment of the present invention;
도 6은 본 발명의 제 5 실시 예에 따라 제 1 언어의 제 1 문자에 대한 문형을 판단하는 과정을 도시한 플로우차트.6 is a flowchart illustrating a process of determining a sentence pattern for a first character of a first language according to a fifth embodiment of the present invention.
<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>
102 : 전처리부 104 : 화자 인식 검증부102: preprocessor 104: speaker recognition verification unit
106 : 감정 상태 분석부 108 : 성별 감식부106: emotional state analysis unit 108: gender identification unit
110 : 음성 인식부 112 : 문형 판단부110: speech recognition unit 112: sentence determination unit
114 : 번역부 116 : 음성 합성부114: translation unit 116: speech synthesis unit
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080127491A KR20100068965A (en) | 2008-12-15 | 2008-12-15 | Automatic interpretation apparatus and its method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080127491A KR20100068965A (en) | 2008-12-15 | 2008-12-15 | Automatic interpretation apparatus and its method |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20100068965A true KR20100068965A (en) | 2010-06-24 |
Family
ID=42367140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080127491A KR20100068965A (en) | 2008-12-15 | 2008-12-15 | Automatic interpretation apparatus and its method |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20100068965A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9292499B2 (en) | 2013-04-08 | 2016-03-22 | Electronics And Telecommunications Research Institute | Automatic translation and interpretation apparatus and method |
CN107731232A (en) * | 2017-10-17 | 2018-02-23 | 深圳市沃特沃德股份有限公司 | Voice translation method and device |
US10108606B2 (en) | 2016-03-03 | 2018-10-23 | Electronics And Telecommunications Research Institute | Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice |
US10216729B2 (en) | 2013-08-28 | 2019-02-26 | Electronics And Telecommunications Research Institute | Terminal device and hands-free device for hands-free automatic interpretation service, and hands-free automatic interpretation service method |
US10614170B2 (en) | 2016-09-26 | 2020-04-07 | Samsung Electronics Co., Ltd. | Method of translating speech signal and electronic device employing the same |
CN111837178A (en) * | 2018-03-14 | 2020-10-27 | 倍播看科技有限公司 | Speech processing system and method for processing speech signal |
KR20200144521A (en) * | 2018-01-11 | 2020-12-29 | 네오사피엔스 주식회사 | Method and apparatus for voice translation using a multilingual text-to-speech synthesis model |
-
2008
- 2008-12-15 KR KR1020080127491A patent/KR20100068965A/en not_active Application Discontinuation
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9292499B2 (en) | 2013-04-08 | 2016-03-22 | Electronics And Telecommunications Research Institute | Automatic translation and interpretation apparatus and method |
US10216729B2 (en) | 2013-08-28 | 2019-02-26 | Electronics And Telecommunications Research Institute | Terminal device and hands-free device for hands-free automatic interpretation service, and hands-free automatic interpretation service method |
US10108606B2 (en) | 2016-03-03 | 2018-10-23 | Electronics And Telecommunications Research Institute | Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice |
US10614170B2 (en) | 2016-09-26 | 2020-04-07 | Samsung Electronics Co., Ltd. | Method of translating speech signal and electronic device employing the same |
CN107731232A (en) * | 2017-10-17 | 2018-02-23 | 深圳市沃特沃德股份有限公司 | Voice translation method and device |
WO2019075829A1 (en) * | 2017-10-17 | 2019-04-25 | 深圳市沃特沃德股份有限公司 | Voice translation method and apparatus, and translation device |
KR20200144521A (en) * | 2018-01-11 | 2020-12-29 | 네오사피엔스 주식회사 | Method and apparatus for voice translation using a multilingual text-to-speech synthesis model |
US11810548B2 (en) | 2018-01-11 | 2023-11-07 | Neosapience, Inc. | Speech translation method and system using multilingual text-to-speech synthesis model |
CN111837178A (en) * | 2018-03-14 | 2020-10-27 | 倍播看科技有限公司 | Speech processing system and method for processing speech signal |
CN111837178B (en) * | 2018-03-14 | 2024-06-18 | 倍播看科技有限公司 | Speech processing system and method for processing speech signal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102525209B1 (en) | Simultaneous interpretation system for generating a synthesized voice similar to the native talker's voice and method thereof | |
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
US7937262B2 (en) | Method, apparatus, and computer program product for machine translation | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US11093110B1 (en) | Messaging feedback mechanism | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
WO2014048113A1 (en) | Voice recognition method and device | |
JPH0850498A (en) | Method and apparatus for comversion of voice into text | |
WO2007022058A2 (en) | Processing of synchronized pattern recognition data for creation of shared speaker-dependent profile | |
JP2013206253A (en) | Machine translation device, method and program | |
KR20100068965A (en) | Automatic interpretation apparatus and its method | |
US11715472B2 (en) | Speech-processing system | |
US20220180864A1 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
KR101424193B1 (en) | System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition | |
JP2015201215A (en) | Machine translation device, method, and program | |
KR100669241B1 (en) | System and method of synthesizing dialog-style speech using speech-act information | |
Oura et al. | Unsupervised cross-lingual speaker adaptation for HMM-based speech synthesis | |
CN115176309A (en) | Speech processing system | |
KR20160138613A (en) | Method for auto interpreting using emoticon and apparatus using the same | |
US11564194B1 (en) | Device communication | |
Tripathi et al. | Multilingual and multimode phone recognition system for Indian languages | |
KR101765154B1 (en) | Method for convert voice to cyber sign language | |
NO318112B1 (en) | Speech-to-speech conversion system and method | |
Pranjol et al. | Bengali speech recognition: An overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |