KR20110100079A - System and method for synthesizing voice of multi-language - Google Patents
System and method for synthesizing voice of multi-language Download PDFInfo
- Publication number
- KR20110100079A KR20110100079A KR1020100019167A KR20100019167A KR20110100079A KR 20110100079 A KR20110100079 A KR 20110100079A KR 1020100019167 A KR1020100019167 A KR 1020100019167A KR 20100019167 A KR20100019167 A KR 20100019167A KR 20110100079 A KR20110100079 A KR 20110100079A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- dialogue
- sentence
- speaker
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000002194 synthesizing effect Effects 0.000 title claims description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 80
- 230000002996 emotional effect Effects 0.000 claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 42
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 42
- 230000008451 emotion Effects 0.000 claims description 22
- 238000001308 synthesis method Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 6
- 241000287127 Passeridae Species 0.000 description 5
- 230000000153 supplemental effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 등장인물에 대한 정보를 수집하고, 개별 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 등의 단계적 분석을 통해 대화의 흐름과 발화의 내용에 적절하도록 대화체의 억양 및 감정상태를 구현하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법이 개시된다. 이를 위하여 화자 정보 분석부, 성우 데이터베이스 선택부, 감정상태 분석부, 및 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법을 제공한다. 본 발명에 의하면, 단일 화자의 음성을 청취 하는 것에서 벗어나, 문장의 화자나 감정상태에 따라 음성 출력을 달리할 뿐만 아니라 각 등장인물에 어울리는 음성을 출력하여 사용자에게 보다 자연스럽고 현실감 있는 낭독이나 대화를 제공할 수 있는 효과를 가진다. 그리고 입력된 문장이 다국어로 구성되어도 자연스러운 낭독이나 대화를 제공할 수 있다.The present invention collects information about a character, predicts a dialogue from an individual sentence, and predicts speaker information of each dialogue based on the dialogue characteristics of the dialogue, the information about the front and rear sentences of the dialogue, and the information on the character. Disclosed are a multilingual speech synthesis system and method using sentence information before and after a dialogue that implements intonation and emotional state of the dialogue so as to be appropriate for the flow of the dialogue and the contents of the speech through a stepwise analysis. To this end, there is provided a multilingual speech synthesis system and method using sentence information before and after a dialogue including a speaker information analyzer, a voice actor database selector, an emotional state analyzer, and a speech synthesizer. According to the present invention, apart from listening to a single speaker's voice, not only the voice output is changed according to the speaker or the emotional state of the sentence, but also the voice suitable for each character can be output to the user for more natural and realistic reading or conversation. Has the effect to provide. And even if the input sentence is composed of multiple languages can provide a natural reading or dialogue.
Description
본 발명은 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법에 관한 것으로, 보다 상세하게는 입력된 문장에 대하여 대화체가 포함되어 있는 경우에 대화의 흐름과 발화의 내용에 적절하면서 자연스럽게 다양한 대화체의 억양 및 감정상태를 구현하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법에 관한 것이다.
The present invention relates to a multilingual speech synthesis system and method using sentence information before and after a dialogue. More specifically, when a dialogue is included in an input sentence, the intonation of the dialogue is naturally appropriate for the flow of the dialogue and the contents of the speech. And a multilingual speech synthesis system and method using sentence information before and after a dialogue that implements an emotional state.
음성합성 시스템(Text-to-Speech system)은 입력 문장(텍스트)을 인간이 들을 수 있는 음성으로 변환하여 출력하는 장치로써, 도 1에 도시된 바와 같이 전처리부(preprocessing module : 110), 언어처리부(linguistic module : 120), 운율처리부(prosodic module : 130), 및 합성음 생성부(speech generator : 140)로 구성된다.A text-to-speech system is a device that converts an input sentence (text) into a human-readable voice and outputs it. As shown in FIG. 1, a preprocessing
상기와 같이 구성되는 종래의 음성합성 시스템은, 먼저 전처리부(110)에 의해 입력 문장에 대한 정규화(normalization)가 이루어지면, 언어처리부(120)가 입력 문장에 대해 형태소 분석(morphological analysis)이나 구문 분석(syntactic parsing)을 수행하고 발음 변환(grapheme-to-phoneme conversion)을 수행한다.In the conventional speech synthesis system configured as described above, first, when the normalization is performed on the input sentence by the
이어서, 운율처리부(130)가 억양구를 찾아내어 억양구나 문장 전체에 억양을 부여하거나 끊어 읽기(phrasing) 강도를 할당하면, 합성음 생성부(140)가 운율 처리된 입력 문장의 합성음을 생성하여 출력한다.Subsequently, when the
그러나 상기와 같이 작동하는 음성합성 시스템은 대화의 의미에 대한 고려가 없이 문장 단위로 형태소 분석 및 구문 분석을 실시하여 억양구를 찾아냄으로써, 억양을 부여하거나 끊어 읽기 구간을 부여하여 운율 구현을 하도록 되어 있기 때문에, 낭독체 음성을 합성하기 위한 방법으로는 적당하나, 여러 화자의 다양한 감정이나 태도를 나타내는 대화체 문장을 합성하는 데에는 한계가 있다.However, the voice synthesis system that operates as described above finds the accent by performing morphological analysis and syntax analysis on a sentence basis without considering the meaning of the conversation, and implements rhyme by granting an accent or giving a reading section. As a method for synthesizing the reading voice, it is suitable, but there is a limit in synthesizing the dialogue sentences representing various emotions and attitudes of various speakers.
왜냐하면 이러한 대화 음성에는 전후 발화 내용에 따라 같은 문장이라도 다른 억양으로 표현되는 경우가 많기 때문이다.This is because such dialogue voices are often expressed in different accents even in the same sentence, depending on the contents of the postwar speech.
한국어의 예를 들면, ‘네’, ‘아니’, ‘그러세요’, ‘글쎄’ 등과 같은 단어들이 있는데, 이들은 다른 맥락에서 서로 다른 억양을 통해 다른 의미를 나타내도록 쓰이고 있다. 그 가운데 응답어로 쓰이는 ‘네’의 경우를 예로 들면, 상대방의 질문에 대한 긍정의 대답으로 사용된 것인지, 단지 선행 발화(preceding utterance)에 대한 인지의 표시로 사용된 것인지에 따라 다른 억양으로 발화된다.In Korean, for example, there are words such as '네', '아니', '그러세요', and 'well well', which are used to represent different meanings through different accents in different contexts. For example, in the case of 'yes', which is used as a response word, it is uttered in different accents depending on whether it is used as a positive answer to the other person's question or merely as an indication of recognition for the preceding utterance.
이러한 표현들의 다양한 억양이 그 맥락 혹은 의미에 따라 적절하게 표현되지 않을 경우 발화 의도를 이해하기 어렵고, 결과적으로 대화 음성의 자연성이 감소될 수 있다.
If the various intonations of these expressions are not properly expressed according to the context or meaning, it is difficult to understand the intention of speech, and as a result, the naturalness of the conversational voice may be reduced.
이에, 최근에는 복수 종류의 음성데이터(예를 들면, 남성, 여성, 아이, 노인 등의 음성데이터)를 성우 데이터베이스에 미리 등록하고, 입력되는 텍스트 정보의 내용 등에 따라서 적합한 음성데이터를 선택하고, 선택한 음성데이터를 이용하여 합성 음성을 생성하는 기술들이 개발되고 있다.In recent years, a plurality of types of voice data (for example, voice data such as men, women, children, and the elderly) are registered in advance in a voice actor database, and voice data suitable for the content of the input text information is selected and selected. Techniques for generating synthesized speech using speech data have been developed.
이러한 일예로써, 일본 특허 공개 공보 제2000-339137호(2000년12월8일 공개)에는 텍스트 데이터를 음성 출력하기 위한 음성 데이터를 각 범주마다 각각 기억하고 있는 음성 데이터 기억부와, 수신한 전자 메일에 근거해 발신자가 상기 범주의 어느 쪽에 속할까를 결정하는 범주 결정부와, 결정된 범주의 음성 데이터를 텍스트 데이터의 음성 출력용으로 선택해 음성 출력하는 음성 신호 출력부 및 스피커를 가지는 전자 메일 수신 시스템에 대한 기술이 개시되어 있다. As one example, Japanese Patent Laid-Open No. 2000-339137 (published on December 8, 2000) includes a voice data storage unit for storing voice data for voice output of text data for each category, and received e-mail. For an e-mail receiving system having a category determination unit for determining which of the categories the caller belongs to, and a voice signal output unit and a speaker for selecting and outputting voice data of the determined category for voice output of text data based on Techniques are disclosed.
상기 전자 메일 수신 시스템은 자연스러운 합성 음성을 얻을 수 있지만, 이것을 실현하기 위해서 복수 종류의 음성데이터를 성우 데이터베이스에 등록해야 한다. 그러나 상기 복수 종류의 음성데이터는 메모리나 CPU 등의 하드웨어 자원에 큰 제약이 부과되어 있는 휴대 단말기 등에 저장할 수 없기 때문에, 결국 휴대 단말기 등에서는 다양한 음질의 합성 음성을 생성할 수 없다는 문제가 있다.
The electronic mail receiving system can obtain a natural synthesized voice, but in order to realize this, a plurality of kinds of voice data must be registered in the voice actor database. However, since the plural kinds of voice data cannot be stored in a portable terminal or the like, which is imposed largely on hardware resources such as a memory or a CPU, there is a problem in that the portable terminal or the like cannot generate synthesized voices of various sound quality.
따라서, 본 발명의 제 1 목적은 문장 입력과 음성 출력이 가능한 모든 기기에 본 음성 합성 시스템을 적용할 수 있을 뿐만 아니라, 대화체에 대한 화자 매치의 정확도를 높일 수 있도록 문장 전체를 분석하여 대화체의 억양 및 감정상태를 자연스럽게 구현할 수 있는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템을 제공하는데 있다.Accordingly, the first object of the present invention is not only to apply the speech synthesis system to all devices capable of sentence input and speech output, but also to analyze the entire sentence so as to increase the accuracy of speaker matching for the dialogue. And it provides a multilingual speech synthesis system using sentence information before and after the dialogue that can naturally implement the emotional state.
또한, 본 발명의 제 2 목적은 문장 전체를 분석하여 대화체에 적절한 화자 정보를 예측하고, 상기 화자 정보를 다양한 보이스폰트 및 감정상태가 저장된 데이터베이스를 이용하여 합성음을 생성함으로써, 문장의 의미에 맞도록 대화체의 억양 및 감정상태를 다양하고 자연스럽게 구현하는 앞뒤 문장정보를 이용한 다국어 음성합성 방법을 제공하는데 있다.
In addition, the second object of the present invention is to analyze the whole sentence to predict the speaker information appropriate for the conversation, and to generate the synthesized sound using the database stored the various voice fonts and emotional state, to match the meaning of the sentence It is to provide a multilingual speech synthesis method using front and back sentence information that variously and naturally embodies the intonation and emotion state of a conversational body.
상술한 본 발명의 제 1 목적을 달성하기 위하여, 본 발명의 일실시예에서는 입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하고, 각 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 화자 정보 분석부; 상기 화자 정보 분석부로부터 공급된 화자 예측정보를 바탕으로 각 문장의 화자에 부합되는 음성정보를 지정된 성우 DB로부터 추출하는 성우 DB 선택부; 상기 성우 DB 선택부로부터 공급된 정보 중 각 대화체 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 감정상태 분석부; 및 상기 성우 DB 및 감정 DB로부터 추출된 음성정보를 합성하여 출력하는 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템을 제공한다. In order to achieve the first object of the present invention described above, an embodiment of the present invention analyzes the entire sentence inputted to collect information about the characters, to predict the dialogue from each sentence, and the dialogue characteristics of the dialogue A speaker information analyzer for predicting speaker information of each conversation based on information on the front and rear sentences of the conversation and information on the characters; A voice actor DB selection unit for extracting voice information corresponding to the speaker of each sentence from a specified voice actor DB based on speaker prediction information supplied from the speaker information analyzer; From the information provided from the voice actor DB selection unit, the key word of the sentence that represents the emotional state is collected from each conversation information, the emotional state is analyzed through the key word, and the voice information corresponding to the emotional state is determined from the designated emotion DB. Emotional state analysis unit for extracting; And it provides a multilingual speech synthesis system using the front and rear sentence information including a speech synthesis unit for synthesizing and outputting the speech information extracted from the voice actor DB and the emotion DB.
또한, 본 발명의 제 2 목적을 달성하기 위하여, 본 발명의 일실시예에서는 (ⅰ) 등장인물 정보 수집 모듈을 통해 입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하는 단계; (ⅱ) 문체 분석 모듈을 통해 입력된 전체 문장을 분석하여 대화체를 예측하는 단계; (ⅲ) 상기 문체 분석 모듈로부터 상기 대화체에 대한 정보가 공급되면 앞뒤 문장정보 수집 모듈을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 단계; (ⅳ) 상기 앞뒤 문장정보 수집 모듈로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 단계; (ⅴ) 상기 발화자 특성 분석 모듈로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부를 통해 상기 화자 정보에 부합되는 음성을 지정된 성우 DB로부터 추출하는 단계; (ⅵ) 상기 성우 DB 선택부로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부를 통해 각 대화체로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 단계; 및 (ⅶ) 상기 감정상태 분석부로부터 성우 DB 및 감정 DB로부터 추출된 음성정보가 공급되면, 음성합성부를 통해 합성하여 출력하는 단계를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법을 제공한다.
In addition, in order to achieve the second object of the present invention, an embodiment of the present invention comprises the steps of (i) collecting information on the character by analyzing the entire sentence input through the character information collection module; (Ii) predicting the dialogue by analyzing the entire sentence input through the stylistic analysis module; (Iii) analyzing the front and rear sentences of each dialog through the front and rear sentence information collection module when information about the dialogue is supplied from the style analysis module and collecting supplementary data for determining the speaker information of the corresponding dialogue; (Iii) When the information on the dialogue and the supplementary data are supplied from the front and rear sentence information collection module, the dialogue characteristics are extracted by analyzing the dialogue through the speaker characteristic analysis module, and the dialogue characteristics and the supplementary data and Analyzing the characters to predict speaker information for each conversation object; (Iv) extracting a voice corresponding to the speaker information from a designated voice actor DB through the voice actor DB selection unit, when speaker information for each conversation object is supplied from the speaker characteristic analysis module; (Iii) When the speaker information of each conversation is supplied from the voice actor DB selection unit, the keyword of the sentence representing the emotional state is collected from each dialogue through the emotional state analysis unit, and the emotional state is analyzed using the keyword. Extracting voice information corresponding to the emotional state from a specified emotion DB; And (iii) when the voice information extracted from the voice actor DB and the emotion DB from the emotional state analysis unit is supplied, and synthesized through the speech synthesis unit provides a multilingual speech synthesis method using the front and rear sentence information.
본 발명에 의하면, 단일 화자의 음성을 청취 하는 것에서 벗어나, 문장의 감정상태에 따라 음성 출력을 달리할 뿐만 아니라 각 등장인물에 어울리는 음성을 출력하여 사용자에게 보다 자연스럽고 현실감 있는 낭독이나 대화를 제공할 수 있다. According to the present invention, apart from listening to a single speaker's voice, not only the voice output is changed according to the emotional state of the sentence, but also the voice suitable for each character can be output to provide a more natural and realistic reading or conversation to the user. Can be.
또한, 본 발명은 음성합성 시스템에서 입력된 대화 텍스트에 대하여 대화의 흐름과 발화의 내용에 부합하면서도 자연스럽고 다양한 대화체의 억양을 구현할 수 있다. 나아가, 각 대화체에 대한 합성음 생성방법이 개별 문장에 대한 대화체의 정보만을 분석하는 것이 아닌, 전체 문장의 정보도 고려하므로, 대화의 흐름과 발화의 내용에 적절하면서 자연스러운 합성음을 생성할 수 있다.In addition, the present invention can implement the intonation of the natural and diverse conversational body while matching the flow of the conversation and the contents of the speech with respect to the dialogue text input from the speech synthesis system. Furthermore, since the method of generating the synthesized sound for each conversational body not only analyzes the information of the conversational body for the individual sentence but also considers the information of the entire sentence, it is possible to generate a natural and sounded sound appropriate for the flow of the conversation and the content of the speech.
또한, 본 발명은 메모리나 CPU 등 하드웨어 자원에 대한 제약을 최소화 할 수 있도록 은닉 마코브 모델(Hidden Markov mode : HMM)기반 TTS 시스템 방식을 통해 구축된 성우 데이터베이스(이하, "DB"라고 한다.)를 사용하여 소용량 하드웨어를 사용하는 텔레매틱스 기술에도 자유롭게 적용할 수 있다. 따라서, 하드웨어의 제약이 있는 개인용 휴대기기, 전자사전, 인터넷 신문, 학습용 기기, 차량 탑재용 단말기 등과 같은 소용량 시스템에서도 HMM 기반 TTS 시스템을 이용하여 합성음을 생성할 수 있다. In addition, the present invention is a voice actor database (hereinafter, referred to as "DB") constructed through the Hidden Markov model (HMM) based TTS system to minimize the constraints on hardware resources such as memory or CPU. It is also possible to freely adapt to telematics technology using small hardware. Therefore, even in small-capacity systems such as personal portable devices, electronic dictionaries, Internet newspapers, learning devices, vehicle-mounted terminals, and the like, the synthesized sound may be generated using the HMM-based TTS system.
또한, 본 발명은 어린이들을 위한 동화 구연 시스템이나 다국어 학습 시스템, 또는 시각장애인들을 위한 텍스트의 음성화 시스템에 적용되면 각 등장인물에 어울리는 음성을 표현할 수 있어, 보다 사실감 있고 자연스러운 이야기의 전달이 가능하다. In addition, when the present invention is applied to a storytelling system for children, a multilingual learning system, or a text speech system for the visually impaired, a voice suitable for each character can be expressed, thereby enabling a more realistic and natural story transmission.
또한, 본 발명은 시나리오 및 장치 관리를 하는 음성 미들웨어 시스템에 적용될 수 있어 효율적인 다국어 음성 지원이 가능하며, 차량용 단말기에서의 인터넷 정보, SMS 등에도 적용이 가능하여 사용자 친화적인 시스템 구현이 가능하다. 즉, 본 발명은 단일 언어가 아닌 다양한 언어 처리가 가능하고, 새로운 언어를 추가할 경우에도 음성 미들웨어 시스템을 통해 시나리오나 장치, 모듈이 통합적으로 관리될 수 있기 때문에 다국어 음성 구현이 가능하다.
In addition, the present invention can be applied to a voice middleware system that manages scenarios and devices to enable efficient multilingual voice support, and to be applied to Internet information, SMS, etc. in a vehicle terminal, thereby enabling user-friendly system implementation. That is, the present invention is capable of processing a variety of languages instead of a single language, and even when adding a new language, multilingual voices can be implemented because scenarios, devices, and modules can be integrated and managed through a voice middleware system.
도 1은 종래의 음성합성 시스템을 나타내는 구성도이다.
도 2는 본 발명의 일실시 예에 따른 음성합성 시스템을 설명하기 위한 구성도이다.
도 3은 본 발명에 따른 언어 분석 판단부와 화자 정보 분석부를 구성하는 각 모듈의 역할을 구체적으로 설명하기 위한 텍스트 예문이다.
도 4는 본 발명의 일실시 예에 따른 음성합성 방법을 설명하기 위한 흐름도이다.1 is a block diagram showing a conventional speech synthesis system.
2 is a block diagram illustrating a speech synthesis system according to an embodiment of the present invention.
3 is a text example sentence for explaining in detail the role of each module constituting the language analysis determination unit and the speaker information analysis unit according to the present invention.
4 is a flowchart illustrating a speech synthesis method according to an embodiment of the present invention.
이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예들에 의한 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템(이하, “음성합성 시스템”이라 한다.)을 상세하게 설명한다.
Hereinafter, a multilingual speech synthesis system (hereinafter, referred to as a "voice synthesis system") using sentence information before and after a dialogue according to preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 2는 본 발명의 일실시예에 따른 음성합성 시스템을 설명하기 위한 구성도이다. 2 is a block diagram illustrating a speech synthesis system according to an embodiment of the present invention.
도 2를 참조하면, 본 발명의 일실시예에 의한 음성합성 시스템은 대화체가 포함된 단일 문장이 아닌 입력된 전체 문장을 단계적으로 분석하여 대화체의 화자 정보를 예측하는 화자 정보 분석부(30)와, 상기 예측된 화자 정보에 부합되는 음성정보를 지정된 성우 DB(100)로부터 추출하는 성우 DB 선택부(40)와, 상기 대화체의 핵심어를 바탕으로 등장인물의 감정상태를 분석하며 상기 감정상태에 부합되는 음성정보를 지정된 감정 DB(200)로부터 추출하는 감정상태 분석부(50), 및 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성 정보를 합성하여 출력하는 음성합성부(60)를 포함한다.Referring to FIG. 2, the speech synthesis system according to an embodiment of the present invention includes a speaker
이러한 음성합성 시스템은 퍼스널 컴퓨터 등의 일반적인 정보 처리 장치나 휴대전화, PHS(Personal Handyphone System), PDA(Personal Digital Assistance), 전자사전, 학습용 기기, 차량 탑재용 단말기 등 텍스트를 입력하여 음성 출력이 가능한 모든 기기에 적용할 수 있다.
Such a voice synthesis system is capable of outputting voices by inputting text such as general information processing devices such as personal computers, mobile phones, personal handyphone systems (PHS), personal digital assistants (PDAs), electronic dictionaries, learning devices, and vehicle-mounted terminals. Applicable to all devices.
이하, 도면을 참조하여 각 구성요소별로 보다 구체적으로 설명한다. Hereinafter, each component will be described in more detail with reference to the drawings.
먼저 본 발명의 일실시예에 의한 음성합성 시스템은 입력부(10)를 포함한다. First, the speech synthesis system according to an embodiment of the present invention includes an
상기 입력부(10)는 조작부(미도시) 등을 통해 입력된 전체 문장을 이용하여 텍스트 데이터를 추출하고, 상기 텍스트 데이터를 상기 화자 정보 분석부(30)로 공급하는 역할을 수행한다. 여기서, 입력부(10)는 공지된 기술에 해당하므로, 상세한 설명은 생략하기로 한다.
The
필요에 따라, 도 2에 도시된 바와 같이 상기 입력부(10)와 화자 정보 분석부(30) 사이에는 언어 분석 판단부(20)를 더 포함할 수 있다. If necessary, as shown in FIG. 2, a language analysis determination unit 20 may be further included between the
상기 언어 분석 판단부(20)는 입력부(10)로부터 제공된 텍스트 데이터를 분석하여 상기 텍스트 데이터를 구성하는 언어가 어떤 언어(한국어, 영어, 일어, 중국어 등)에 해당되는지를 판단하는 역할을 수행한다. The language analysis determiner 20 analyzes the text data provided from the
특정 양태로서, 본 발명에 따른 언어 분석 판단부(20)는 텍스트 데이터를 구성하는 문장의 전체적인 형태를 분석하거나 상기 문장의 어근, 어간, 어미의 결합구조를 분석하여 해당 언어를 판단한다.
In a particular aspect, the language analysis determiner 20 according to the present invention analyzes the overall form of a sentence constituting the text data or analyzes the structure of the root, stem, and mother of the sentence to determine the corresponding language.
그리고 본 발명에 따른 음성합성 시스템은 화자 정보 분석부(30)를 포함한다.And the speech synthesis system according to the present invention includes a speaker
상기 화자 정보 분석부(30)는 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 등장인물에 대한 정보를 수집하고, 각 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 역할을 수행한다. 여기서, 문장은 대화체와 낭독체로 구분한다.The speaker
이때, 상기 화자 정보 분석부(30)는 입력된 전체 문장에 대화체가 연속으로 위치하면 문장 전체에 대한 화자의 수를 예측하고, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측할 수 있다.In this case, the speaker
일실시 양태로써, 본 발명에 따른 화자 정보 분석부(30)는 등장인물 정보 수집 모듈(31), 문체 분석 모듈(32), 발화자 특성 분석 모듈(33), 앞뒤 문장정보 수집 모듈(34), 연속 대화체 화자 예측 모듈(35)로 이루어질 수 있다.In one embodiment, the speaker
보다 구체적으로, 상기 등장인물 정보 수집 모듈(31)은 입력부(10) 또는 언어 분석 판단부(20)에 연결되어 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 등장인물들에 대한 정보, 예를 들면 등장인물의 명칭, 등장인물의 나이 및 직업 등 문장 내에서 파악할 수 있는 정보를 수집하는 역할을 수행한다. 이때, 상기 등장인물 정보 수집 모듈(31)은 입력된 문장의 전체로부터 문장의 구성요소 중 조사와 형태소 등을 제외한 고유명사와 명사 등을 별도로 추출하고, 상기 고유명사와 명사의 추출된 빈도수를 조사하여 빈도수가 높은 고유명사와 명사에 가중치를 부여함으로써, 각 등장인물들에 대한 중요도를 나눌 수 있다.More specifically, the character
필요에 따라, 상기 등장인물 정보 수집 모듈(31)은 도서정보 DB를 이용하여 등장인물에 대한 정보를 수집할 수도 있다. 여기서, 도서정보 DB란 기존에 존재하는 유명 서적들을 중심으로 도서명, 등장인물 등의 기본정보를 저장해 놓은 DB를 의미한다.
If necessary, the character
상기 문체 분석 모듈(32)은 입력부(10) 또는 언어 분석 판단부(20)에 연결되어 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 대화체를 예측하는 것이다. 구체적으로, 서적에서 대화체의 시작과 끝을 알리는 특정 기호들, 예를 들면 “ ”, -, ‘ ’, ... 등을 이용하여 대화체를 낭독체와 구분한다. 여기서, 문체 분석 모듈(32)은 입력된 전체 문장을 대화체와 낭독체로 나누는 역할을 수행한다. The
그러나 특정 기호들을 이용하여 문장으로부터 대화체를 구분하는 것은 100%의 정확성을 가지지 못한다. 이에, 상기 문체 분석 모듈(32)은 대화체와 낭독체를 확정적으로 양분하는 것이 아니라, 상기 특정 기호들을 통해 개별 문장이 대화체에 가까운 문장인지 아니면 낭독체에 가까운 문장인지를 판단하는 역할을 수행한다. However, it is not 100% accurate to distinguish a conversation from a sentence using certain symbols. Thus, the
따라서, 문체 분석 모듈(32)을 통해 낭독체에 해당되는 문장이라고 분석되어도 상기 문장은 발화자 특성 분석 모듈(33), 앞뒤 문장정보 수집 모듈(34), 연속 대화체 화자 예측 모듈(35)을 통해 대화체의 문장에 해당되는지의 여부를 추가적으로 분석한다.
Therefore, even if it is analyzed as a sentence corresponding to the reading body through the
상기 앞뒤 문장정보 수집 모듈(34)은 문체 분석 모듈(32)에 연결되며, 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집한다. 여기서, 상기 보충자료는 대화체에 대한 적절한 화자를 판단하는데 도움이 될 만한 것이나, 화자의 상태, 주변 환경 등 음성합성을 할 때 영향을 미칠 수 있는 모든 정보를 의미한다.
The front and rear sentence
상기 발화자 특성 분석 모듈(33)은 앞뒤 문장정보 수집 모듈(34)에 연결되어 상기 앞뒤 문장정보 수집 모듈(34)로부터 분석된 정보를 공급받고, 상기 대화체의 대화 특성, 예를 들면, 말투, 맺음말의 종류, 호칭사용 등을 분석하여 대화체의 화자 정보를 예측한다. 필요에 따라, 상기 발화자 특성 분석 모듈(33)은 문체 분석 모듈(32)에 연결되어 상기 문체 분석 모듈(32)로부터 직접 대화체에 대한 정보를 공급받을 수도 있다.The speaker
그리고 발화자 특성 분석 모듈(33)은 등장인물 정보 수집 모듈(31)에 연결되며, 상기 화자 정보를 상기 등장인물 정보 수집 모듈(31)로부터 공급받은 등장인물에 대한 정보와 비교하여 일치성이 있는 화자 정보에 가중치를 부여한다. 이때, 가중치는 대화체에 부여하는 것이 바람직하다. The speaker
필요에 따라, 상기 등장인물에 대한 정보는 등장인물 정보 수집 모듈(31)로부터 문체 분석 모듈(32) 및 앞뒤 문장정보 수집 모듈(34)을 거쳐 발화자 특성 분석 모듈(33)로 공급될 수도 있다.
If necessary, the information on the character may be supplied from the character
상기 연속 대화체 화자 예측 모듈(35)은 앞뒤 문장정보 수집 모듈(34)로부터 공급된 정보, 즉 보충자료를 통해 연속된 대화체가 수집되면, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측한다. The continuous dialogue
이와 같이, 상기 연속 대화체 화자 예측 모듈(35)은 연속된 각 대화체에 대한 화자 정보를 비교하고 분석함으로써, 가중치가 낮은 문장의 화자 매치 정확도를 높일 수 있게 된다. 다시 말해, 연속 대화체 화자 예측 모듈(35)은 화자 판단의 근거 자료가 부족한 대화체에 대하여 상기 대화체의 앞뒤 대화체를 비교하고 분석하여 판단 자료를 보충해 줌으로써, 연속된 대화체의 화자 유형 판단에 대한 정확도를 향상시키는 역할을 수행한다.
As described above, the continuous dialogue
도 3은 본 발명에 따른 언어 분석 판단부(20)와 화자 정보 분석부(30)를 구성하는 각 모듈의 역할을 구체적으로 설명하기 위한 텍스트 예문이다.3 is a text example sentence for explaining in detail the role of each module constituting the language analysis determination unit 20 and the speaker
도 3과 같은 텍스트가 입력되면, 언어 분석 판단부(20)를 통해 입력된 문장이 ‘한국어’로 구성되어 있다는 것을 판단한 후, 상기 등장인물 정보 수집 모듈(31)을 통과하여 얻게 되는 최소 정보는 “등장인물의 수 : 3, 등장인물 : 흰둥이 강아지, 강아지 똥, 참새”이다.When the text as shown in FIG. 3 is input, after determining that the sentence input through the language analysis determining unit 20 is composed of 'Korean', the minimum information obtained by passing through the character
그리고 상기 텍스트가 문체 분석 모듈(32)로 공급되면, 상기 문체 분석 모듈(32)은 공급된 텍스트를 분석하여, 특정 기호가 기재되어 있는 4번째 문장 "똥! 똥! 에그, 더러워."와 6번째 문장 "내가 더럽다고?"를 대화체로 구분한다. Then, when the text is supplied to the
또한, 앞뒤 문장정보 수집 모듈(34)은 상기 문체 분석 모듈(32)로부터 대화체(4번째, 6번째 문장)에 대한 정보를 공급받으면, 상기 대화체의 앞뒤 문장(3번째, 5번째, 7번째 문장)에 대한 보충자료를 수집한다.In addition, when the front and rear sentence
또한, 발화자 특성 분석 모듈(33)은 상기 앞뒤 문장정보 수집 모듈(34)로부터 대화체에 대한 정보와 상기 보충자료를 공급받으면, 대화체의 특성을 분석하여 대화 특성을 추출하고, 상기 대화 특성과 보충자료를 분석하여 각 대화체의 화자 정보를 예측한다. In addition, when the speaker
보다 구체적으로, 앞뒤 문장정보 수집 모듈(34)에서 반영하는 가중치를 ‘100’으로 한다면, [④ "똥! 똥! 에그, 더러워."]의 문장은 3번째 문장 및 5번째 문장으로부터 수집된 등장인물 ‘참새’에 가중치 ‘100’을 부여하며, [⑥ "내가 더럽다고?"]의 문장은 5번째 문장 및 7번째 문장으로부터 수집된 등장인물 ‘강아지 똥’에 가중치 ‘100’을 부여한다.More specifically, if the weight reflected by the front and rear sentence
이때, 5번째 문장 [⑤ 참새는 쫑알거리며 멀리 날아갔습니다.]는 ‘..갔습니다.’,‘..떠났습니다.’, '..멀어집니다.’와 같이 대화에서 제외되는 서술부가 기재되어 있으므로, 5번째 문장의 등장인물 ‘참새’에 대한 가중치는 부여하지 않는다. 이와 같이, 앞뒤 문장을 파악할 때, 등장인물이 언급 되는지 만을 보는 것이 아닌, 주요 서술부를 분석하면 등장인물의 자세나 행동에 대한 정보를 얻을 수 있게 된다.At this time, the fifth sentence [⑤ Sparrow flew away with a grainy] is a description that is excluded from the conversation, such as' .. has gone ',' .. has left ',' .. However, no weight is given to the character 'sparrow' in the fifth sentence. Thus, when grasping the front and back sentences, it is possible to obtain information about the character's posture or behavior by analyzing the main narrative, not just seeing if the character is mentioned.
따라서, 본 발명에 따른 화자 정보 분석부는 4번째 문장의 화자를 참새로 예측하고, 6번째 문장의 화자를 강아지 똥으로 예측한다. Therefore, the speaker information analyzer according to the present invention predicts the speaker of the fourth sentence as a sparrow, and predicts the speaker of the sixth sentence as a dog poop.
이와 같이, 전체 문장 중 대화체가 포함된 각각의 개별 문장을 별도로 분석하여 각 대화체에 적절한 화자 정보를 분석하는 종래 기술과 달리, 본 발명에 따른 음성합성 시스템은 입력되는 전체 문장을 단계적으로 분석하여 해당 대화체에 대한 화자 정보를 분석하므로, 자연스럽고 현실감 있게 합성음을 생성할 수 있다.
As described above, unlike the prior art of analyzing each individual sentence including a dialogue among all sentences separately and analyzing speaker information appropriate for each dialogue, the speech synthesis system according to the present invention analyzes the entire sentence input step by step. By analyzing the speaker information about the dialogue, it is possible to generate synthesized sounds in a natural and realistic manner.
또한, 본 발명의 일실시예에 의한 음성합성 시스템은 성우 DB 선택부(40)를 포함한다.In addition, the voice synthesis system according to an embodiment of the present invention includes a voice
상기 성우 DB 선택부(40)는 상기 화자 정보 분석부(30)로부터 공급된 화자 정보를 바탕으로 각 대화체의 화자 정보에 부합되는 음성정보를 지정된 성우 DB(100)로부터 추출하는 역할을 수행한다. 즉, 언어 분석 판단부(20)를 통해 입력된 전체 문장을 구성하는 언어가 ‘한국어’로 판단되면, 성우 DB 선택부(40)는 지정된 성우 DB(100)로부터 ‘한국어’에 대한 음성정보를 추출한다. 이와 반대로, 언어 분석 판단부(20)를 통해 입력된 전체 문장을 구성하는 언어가 ‘영어’로 판단되면, 성우 DB 선택부(40)는 지정된 성우 DB(100)로부터 ‘영어’에 대한 음성정보를 추출한다.The voice
한편, 성우 DB(100)는 코퍼스 기반 TTS 시스템뿐만 아니라 HMM 기반 TTS 시스템 방식을 통해 구축된 것을 사용할 수 있다. 이때, 성우 DB(100)는 두 개 이상의 보이스 폰트가 저장될 수 있다. 여기서, 코퍼스 기반 TTS 시스템과 HMM 기반 TTS 시스템은 공지된 기술에 해당하므로, 상세한 설명은 생략하기로 한다.
On the other hand, the
또한, 본 발명의 일실시예에 의한 음성합성 시스템은 감정상태 분석부(50)를 포함한다.In addition, the speech synthesis system according to an embodiment of the present invention includes an emotional state analysis unit 50.
상기 감정상태 분석부(50)는 상기 화자 정보 분석부(30)로부터 공급된 각 대화체에 대한 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 각 대화체의 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출하는 역할을 수행한다. 여기서, 핵심어는 감정상태의 카테고리별 단어와 횟수 혹은 빈도, 감탄사, 관용어, 부호 등을 의미한다. The emotional state analyzing unit 50 collects key words of sentences that may indicate an emotional state from information on each conversational body supplied from the speaker
보다 구체적으로, 상기 핵심어를 긍정, 보통, 부정의 카테고리로 나누어 특정 카테고리에 해당되는 단어의 빈도수에 따라 문장의 감정상태에 따른 적합한 목소리 종류를 선택한다. 여기서 긍정은 기쁨, 즐거움 등의 표현을 부정은 슬픔, 두려움 등의 표현을 포함한다.More specifically, the key word is divided into positive, normal, and negative categories to select a suitable voice type according to the emotional state of the sentence according to the frequency of words corresponding to a specific category. Here, positive includes expressions of joy, joy, and negative expressions of sadness, fear, etc.
즉, 감정상태 분석부(50)는 입력되는 문장이 낭독체인지 대화체인지 구분하고, 대화체이면 핵심어를 분석하여 문장의 감정상태를 긍정, 보통, 부정의 카테고리로 구분하여 적합한 음성 종류를 선택한다. 예를 들면, 긍정적인 문장이면 기쁜 목소리가 선택되도록 명령하고, 부정적인 문장이면 슬픈 목소리가 선택되도록 명령하는 것이다.
That is, the emotional state analyzing unit 50 classifies whether the input sentence is a reading or conversational body, and if it is a dialogue, the emotional state of the sentence is classified into categories of positive, normal, and negative to select an appropriate voice type. For example, if the sentence is positive, the joyful voice is ordered. If the sentence is negative, the sad voice is ordered.
또한, 본 발명의 일실시예에 의한 음성합성 시스템은 음성합성부(60)를 포함한다.In addition, the speech synthesis system according to an embodiment of the present invention includes a
상기 음성합성부(60)는 상기 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보를 합성하여 출력하는 역할을 수행한다.The
본 발명에 따른 음성합성부(60)는 낭독체 음성과 대화체 음성의 목소리 종류를 달리하여 한 가지 목소리의 음성이 출력되는 것이 아니라 서로 다른 목소리로 출력할 수 있다. 즉, 음성합성 시스템으로 입력된 문장을, 문장의 내용에 따라 남자 목소리, 여자 목소리로 구분하여 마치 대화를 나누는 것처럼 출력할 수 있다.
The
본 발명에 따른 음성합성 시스템은 개인용 휴대기기, 전자사전, 인터넷 신문, 학습용 기기, 차량 탑재용 단말기, 텔레매틱스용 기기(오토 PC) 등에 적용될 수 있다. 이와 같이, 임베디드 시스템이나 음성인식 및 다양한 모듈들의 통합적인 제공이 필요한 기기인 경우 각 모듈들을 미들웨어 시스템에서 통합적으로 관리하여 본 발명에 따른 음성합성 시스템을 효율적으로 동작시킬 수 있다. 따라서, 본 발명을 텔레매틱스용 기기 등에 사용하면 상기 텔레매틱스용 기기 등은 다국어 음성 지원이 가능하게 된다.
The speech synthesis system according to the present invention can be applied to personal portable devices, electronic dictionaries, Internet newspapers, learning devices, vehicle-mounted terminals, telematics devices (auto PCs), and the like. As such, in the case of an embedded system or a device requiring an integrated provision of voice recognition and various modules, each module may be integratedly managed in a middleware system to efficiently operate the voice synthesis system according to the present invention. Therefore, when the present invention is used for a telematics device or the like, the telematics device or the like can support multilingual voices.
도 4는 본 발명의 일실시예에 따른 음성합성 방법을 설명하기 위한 흐름도이다.4 is a flowchart illustrating a speech synthesis method according to an embodiment of the present invention.
도 4를 참조하면, 본 발명에 따른 음성합성 방법은 먼저 대화체, 낭독체, 또는 대화체 및 낭독체로 이루어진 문장이 본 발명에 따른 음성합성 시스템으로 입력되면, 입력부(10)를 통해 상기 문장 전체로부터 텍스트 데이터를 추출하는 제 1 단계(S10)를 포함한다.
Referring to FIG. 4, in the speech synthesis method according to the present invention, when a sentence consisting of a dialogue body, a reading body, or a dialogue body and a reading body is first input to the speech synthesis system according to the present invention, the text from the whole sentence through the
다음으로, 등장인물에 대한 정보를 수집하는 제 2 단계(S20)를 포함한다.Next, a second step (S20) of collecting information about the character.
본 단계(S20)에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 등장인물 정보 수집 모듈(31)을 통해 분석하여 등장인물, 인물의 나이, 직업 등 문장 내에서 파악할 수 있는 인물 정보들을 수집하며, 최종적으로 등장하는 인물의 수와 그 등장인물의 정보를 예측한다.
In this step (S20) by analyzing the text data for the entire sentence supplied from the
필요에 따라, 상기 제 1 단계(S10)와 제 2 단계(S20) 사이에는 텍스트 데이터를 구성하는 언어를 판단하는 단계(미도시)를 더 포함할 수 있다. If necessary, the method may further include determining a language constituting text data between the first step S10 and the second step S20 (not shown).
본 단계에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 언어 분석 판단부(20)를 통해 분석하여 텍스트 데이터를 구성하는 언어가 어떤 언어(한국어, 영어, 중국어 등)인지를 판단한다.
In this step, the text data for the entire sentence supplied from the
다음으로, 상기 입력된 전체 문장을 분석하여 대화체를 예측하는 제 3 단계(S30)를 포함한다.Next, a third step (S30) for predicting the dialogue by analyzing the entire sentence entered.
본 단계(S30)에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 문체 분석 모듈(32)을 통해 분석하여 개별 문장에 대한 특정 기호들의 노출 빈도수에 대한 정보를 수집하고, 이를 통해 개별 문장이 대화체에 해당하는지, 아니면 낭독체에 해당하는지를 분석한다. 이때, 특정 기호들의 노출 빈도수에 따라 각 대화체 또는 낭독체에 가중치를 차별적으로 부여할 수도 있다. 즉, 특정 기호들이 문장에 하나 또는 둘 이상 존재하는 것으로 판단되면 상기 문장은 대화체에 해당하는 것으로 구분하며, 특정 기호 한 개가 존재하는 경우보다 두 개 이상 존재하는 경우에 높은 가중치를 부여한다.In this step (S30) to analyze the text data for the entire sentence supplied from the
여기서, 상기 전체 문장에 대한 텍스트 데이터는 입력부(10)로부터 직접 공급될 수 있지만, 등장인물 정보 수집 모듈(31)을 거쳐 공급될 수도 있다.
Here, the text data for the entire sentence may be directly supplied from the
다음으로, 상기 대화체가 예측되면 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 제 4 단계(S40)를 포함한다.Next, when the conversation is predicted, a fourth step (S40) of analyzing the front and rear sentences of each conversation to collect supplemental data for determining the speaker information of the conversation.
본 단계(S40)에서는 문체 분석 모듈(32)로부터 대화체에 대한 정보가 공급되면, 앞뒤 문장정보 수집 모듈(34)을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집한다. 상기 보충자료는 음성을 합성할 때 화자의 매치 정확도에 영향을 미칠 수 있도록 가중치를 부여한다.
In this step (S40), when the information about the dialogue is supplied from the
다음으로, 상기 대화체 분석을 통하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 제 5 단계(S50)를 포함한다.Next, a fifth step (S50) of extracting a dialogue characteristic through the dialogue analysis, analyzing the dialogue characteristic, the supplementary data, and the character to predict speaker information for each dialogue body is performed.
본 단계(S50)에서는 앞뒤 문장정보 수집 모듈(34)로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈(33)을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 등장인물 정보 수집 모듈(31)로부터 수집된 등장인물에 대한 정보를 분석하여 각 대화체에 대한 화자 정보를 예측한다.In the step (S50), when the information about the dialogue and the supplementary data are supplied from the sentence
즉, 대화 특성의 기준으로 말투, 맺음말의 종류, 호칭사용 등을 분석하며, 등장인물 정보 수집 모듈(31)에서 예측된 등장인물에 대한 정보와 비교하여 일치성이 높은 등장인물에 가중치를 부여한다. 이와 같이, 텍스트 데이터가 등장인물 정보 수집 모듈(31)을 거친 후 발화자 특성 분석 모듈(33)을 거치는 과정을 통해, 각 대화체에 나타난 정보에 상기 대화체의 주변 정보를 부가함으로써, 대화체에 대한 화자 매치 정확도를 향상시킬 수 있게 된다.
That is, it analyzes the tone, the type of ending, the use of a name, etc. as a criterion of the dialogue characteristics, and weights the characters with high concordance in comparison with the information about the characters predicted in the character
다음으로, 각 대화체에 대한 화자 정보가 예측되면, 상기 화자 정보에 부합되는 음성을 지정된 성우 DB(100)로부터 추출하는 제 6 단계(S70)를 포함한다.Next, when the speaker information for each conversation is predicted, a sixth step S70 of extracting a voice corresponding to the speaker information from the designated
본 단계(S70)에서는 상기 발화자 특성 분석 모듈(33)로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부(30)를 통해 상기 화자 정보에 적합한 음성을 지정하여 성우 DB(100)로부터 추출한다.
In the present step (S70), when the speaker information for each conversation body is supplied from the talker
본 발명은 상기 화자 정보를 예측하는 단계와 음성을 지정된 성우 DB(100)로부터 추출하는 단계 사이에 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측하는 단계(S65)가 포함될 수 있다. 이때, 본 단계(S65)는 상기 대화체의 앞뒤 문장 분석을 통해 연속되는 대화체가 수집되는 경우(S60)에만 동작한다.The present invention includes a step of comparing and analyzing the speaker information of each conversational body continuously between the step of predicting the speaker information and the step of extracting the voice from the designated
본 단계(S65)에서는 발화자 특성 분석 모듈(33)로부터 각 대화체에 대한 화자 정보를 공급받고, 앞뒤 문장정보 수집 모듈(34)로부터 보충자료를 공급받아 연속 대화체 화자 예측 모듈(35)을 통해 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측한다.In this step (S65) receives the speaker information for each conversation from the speaker
본 단계(S65)에서 텍스트 데이터가 상기 연속 대화체 화자 예측 모듈(35)을 거칠 때에는 모든 문장의 가중치가 매겨져 있다. 연속하는 대화체 중 일정한 가중치에 미달되는 즉, 문장의 특성 정보가 낮은 연속 대화체의 경우, 앞뒤 문장정보 수집 모듈(34)을 통해 수집된 정보를 이용하여 최소의 발화자 수를 예측할 수 있다. 또한, 연속된 각 대화체의 화자 정보를 비교하고 분석하는 과정을 통해 상대적으로 가중치가 낮은 문장의 인물 매치 정확도를 높일 수 있게 된다.
When text data passes through the continuous dialog
다음으로, 각 대화체로부터 감정상태를 나타낼 수 있는 개별 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출하는 제 7 단계(S80)를 포함한다. Next, a key word of an individual sentence representing an emotional state is collected from each conversation body, an emotional state is analyzed using the key word, and the voice information corresponding to the emotional state is extracted from a designated
본 단계(S80)에서는 성우 DB 선택부(40)로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부(50)를 통해 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출한다.
In the present step (S80), when the speaker information for each conversation body is supplied from the voice
다음으로, 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보를 합성하여 음성으로 출력하는 제 8 단계(S90)를 포함한다.Next, an eighth step S90 of synthesizing the voice information extracted from the
본 단계(S90)에서는 감정상태 분석부(50)에 의해 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보가 공급되면, 음성합성부(60)를 통해 텍스트 데이터에 대한 합성음을 생성하고, 스피커 등을 통해 음성으로 출력한다.
In the step S90, when the voice information extracted from the
이와 같이, 상기 제 2 단계(S20) 내지 제 5 단계(S50)는 화자 정보 분석부(30)를 통해 문장의 발화자를 정확히 예측하는 단계이며, 상기 제 6 단계(S70)는 발화자에 알맞은 성우 DB(100)를 선택하는 단계이다. 그리고 제 7 단계(S80)는 음성을 합성하기 전 문장의 감정상태 분석하여 감정 상태와 일치하는 감정 DB(200)를 선택하는 단계이며, 제 8 단계(S90)는 입력된 문장에 대한 합성음을 생성하는 단계이다.
As such, the second step (S20) to the fifth step (S50) is a step of accurately predicting the speaker of the sentence through the speaker
한편, 상술한 본 발명의 실시 예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, DB 크기의 축소로 인해 임베디드 단말기에 적용이 가능하고, 이로 인해 텔레매틱스용 기기 및 휴대 기기에서 사용이 가능하며, 그 외 다양한 분야에서 적용이 가능하다.
Meanwhile, the above-described embodiments of the present invention can be written as a program that can be executed in a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable recording medium. In addition, due to the reduction of the DB size can be applied to the embedded terminal, it can be used in telematics devices and portable devices, it can be applied in various other fields.
이상에서 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
Although the above has been described with reference to the preferred embodiment of the present invention, those skilled in the art can variously modify and change the present invention without departing from the spirit and scope of the present invention described in the claims below. It will be appreciated.
10 : 입력부 20 : 언어 분석 판단부
30 : 화자 정보 분석부 31 : 등장인물 정보 수집 모듈
32 : 문체 분석 모듈 33 : 발화자 특성 분석 모듈
34 : 앞뒤 문장정보 수집 모듈 35 : 연속 대화체 화자 예측 모듈
40 : 성우 DB 선택부 50 : 감정상태 분석부
60 : 음성합성부10: input unit 20: language analysis determination unit
30: speaker information analysis unit 31: character information collection module
32: stylistic analysis module 33: speaker characteristics analysis module
34: front and rear sentence information collection module 35: continuous dialogue speaker prediction module
40: voice actor DB selection unit 50: emotional state analysis unit
60: speech synthesis unit
Claims (10)
상기 화자 정보 분석부로부터 공급된 화자 예측정보를 바탕으로 각 문장의 화자에 부합되는 음성정보를 지정된 성우 DB로부터 추출하는 성우 DB 선택부;
상기 성우 DB 선택부로부터 공급된 정보 중 각 대화체 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 감정상태 분석부; 및
상기 성우 DB 및 감정 DB로부터 추출된 음성정보를 합성하여 출력하는 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템. Collects information on the characters by analyzing the entire sentence input, predicts the dialogue from each sentence, based on the dialogue characteristics of the dialogue, the information on the front and back sentences of the dialogue, and the information on the characters. A speaker information analyzer for predicting speaker information;
A voice actor DB selection unit for extracting voice information corresponding to the speaker of each sentence from a specified voice actor DB based on speaker prediction information supplied from the speaker information analyzer;
From the information provided from the voice actor DB selection unit, the key word of the sentence that represents the emotional state is collected from each conversation information, the emotional state is analyzed through the key word, and the voice information corresponding to the emotional state is determined from the designated emotion DB. Emotional state analysis unit for extracting; And
Multilingual speech synthesis system using the front and rear sentence information including a speech synthesis unit for synthesizing and outputting the speech information extracted from the voice actor DB and the emotion DB.
입력된 전체 문장을 분석하여 상기 문장을 구성하는 언어를 분석하여 판단하는 언어 분석 판단부를 더 포함하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템. The method of claim 1,
The multilingual speech synthesis system using sentence information before and after the dialogue, characterized in that it further comprises a language analysis determination unit for analyzing the entire sentence to analyze the language constituting the sentence.
입력된 전체 문장에 대화체가 연속으로 위치하면 문장 전체에 대한 화자의 수를 예측하고, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템. The method of claim 1, wherein the speaker information analysis unit
If the dialogues are continuously placed in the entire sentence, the dialogues are predicted, and the speaker information for each dialogue is compared and analyzed to re-predict the speaker information for each dialogue. Multilingual Speech Synthesis System Using Sentence Information.
상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보로부터 화자 정보를 예측하고, 상기 화자 정보와 상기 등장인물에 대한 정보를 비교하여 일치성이 있는 화자 정보에 가중치를 부여하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템. The method of claim 1, wherein the speaker information analysis unit
The speaker information is predicted from the dialogue characteristics of the dialogue body and the information about the front and rear sentences of the dialogue body, and weights are assigned to the speaker information that is consistent by comparing the speaker information and the character information. Multilingual Speech Synthesis System Using Sentence Information.
입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하는 등장인물 정보 수집 모듈;
상기 입력된 전체 문장으로부터 대화체를 예측하는 문체 분석 모듈;
상기 문체 분석 모듈로부터 대화체에 대한 정보를 공급받아 각 대화체의 앞뒤 문장을 대한 정보를 수집하는 앞뒤 문장정보 수집 모듈;
상기 앞뒤 문장정보 수집 모듈로부터 분석된 정보를 공급받아 화자 정보를 예측하고, 상기 화자 정보를 상기 등장인물 정보 수집 모듈로부터 공급된 등장인물 정보와 비교하여 일치성이 있는 화자 유형에 가중치를 부여하는 발화자 특성 분석 모듈; 및
상기 앞뒤 문장정보 수집 모듈로부터 공급된 정보를 통해 연속된 대화체가 수집되면 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측하는 연속 대화체 화자 예측 모듈로 이루어진 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템. The method of claim 1, wherein the speaker information analysis unit
Character information collection module for collecting information on the characters by analyzing the entire sentence input;
A stylistic analysis module for predicting a dialogue from the entire sentence;
Front and rear sentence information collection module for receiving information about the dialogue from the stylistic analysis module to collect information about the front and rear sentences of each dialogue;
A talker who receives the analyzed information from the front and rear sentence information collection module to predict speaker information, and compares the speaker information with the character information supplied from the character information collection module to give weight to the speaker type that is consistent. Characterization module; And
When continuous dialogues are collected through the information supplied from the front and rear sentence information collection module, the continuous dialogue speaker prediction module is configured to compare and analyze speaker information for each continuous dialogue to re-predict speaker information for each dialogue. Multilingual speech synthesis system using sentence information before and after the dialogue.
상기 성우 DB는 두 개 이상의 보이스 폰트를 저장하고 있는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템. The method of claim 1,
The voice actor DB is a multilingual speech synthesis system using sentence information before and after the dialogue, characterized in that it stores two or more voice fonts.
상기 성우 DB는 코퍼스 기반 TTS 시스템 또는 은닉 마코브 모델 기반 TTS 시스템 방식을 통해 구축된 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템. The method according to claim 6,
The voice actor DB is a multilingual speech synthesis system using sentence information before and after the dialogue body, characterized in that it is constructed through a corpus-based TTS system or a hidden Markov model-based TTS system.
(ⅱ) 문체 분석 모듈을 통해 입력된 전체 문장을 분석하여 대화체를 예측하는 단계;
(ⅲ) 상기 문체 분석 모듈로부터 상기 대화체에 대한 정보가 공급되면 앞뒤 문장정보 수집 모듈을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 단계;
(ⅳ) 상기 앞뒤 문장정보 수집 모듈로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 단계;
(ⅴ) 상기 발화자 특성 분석 모듈로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부를 통해 상기 화자 정보에 부합되는 음성을 지정된 성우 DB로부터 추출하는 단계;
(ⅵ) 상기 성우 DB 선택부로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부를 통해 각 대화체로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 단계; 및
(ⅶ) 상기 감정상태 분석부로부터 성우 DB 및 감정 DB로부터 추출된 음성정보가 공급되면, 음성합성부를 통해 합성하여 출력하는 단계를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.(Iii) collecting information on the characters by analyzing the entire sentence input through the character information collecting module;
(Ii) predicting the dialogue by analyzing the entire sentence input through the stylistic analysis module;
(Iii) analyzing the front and rear sentences of each dialog through the front and rear sentence information collection module when information about the dialogue is supplied from the style analysis module and collecting supplementary data for determining the speaker information of the corresponding dialogue;
(Iii) When the information on the dialogue and the supplementary data are supplied from the front and rear sentence information collection module, the dialogue characteristics are extracted by analyzing the dialogue through the speaker characteristic analysis module, and the dialogue characteristics and the supplementary data and Analyzing the characters to predict speaker information for each conversation object;
(Iv) extracting a voice corresponding to the speaker information from a designated voice actor DB through the voice actor DB selection unit, when speaker information for each conversation object is supplied from the speaker characteristic analysis module;
(Iii) When the speaker information of each conversation is supplied from the voice actor DB selection unit, the keyword of the sentence representing the emotional state is collected from each dialogue through the emotional state analysis unit, and the emotional state is analyzed using the keyword. Extracting voice information corresponding to the emotional state from a specified emotion DB; And
(Iii) synthesizing and outputting the voice information extracted from the voice actor DB and the emotion DB from the emotion state analysis unit, and outputting the synthesized speech information through the voice synthesizer.
상기 대화체의 앞뒤 문장 분석을 통해 연속되는 대화체가 수집되면, (ⅳ) 단계와 (ⅴ) 단계 사이에 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측하는 단계가 더 포함되는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.The method of claim 8,
If a continuous dialogue is collected through analysis of the front and rear sentences of the dialogue, the method further includes comparing and analyzing speaker information of each dialogue in succession between steps (iii) and (iii) to re-predict the speaker information. Multilingual speech synthesis method using sentence information before and after the dialogue.
입력부로부터 공급된 전체 문장에 대한 텍스트 데이터를 언어 분석 판단부를 통해 분석하여 상기 텍스트 데이터를 구성하는 언어를 판단하는 단계를 더 포함하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.
9. The method according to claim 8, wherein before step (iii)
And analyzing the text data of the entire sentence supplied from the input unit through a language analysis determination unit to determine a language constituting the text data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100019167A KR101097186B1 (en) | 2010-03-03 | 2010-03-03 | System and method for synthesizing voice of multi-language |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100019167A KR101097186B1 (en) | 2010-03-03 | 2010-03-03 | System and method for synthesizing voice of multi-language |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110100079A true KR20110100079A (en) | 2011-09-09 |
KR101097186B1 KR101097186B1 (en) | 2011-12-22 |
Family
ID=44952703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100019167A KR101097186B1 (en) | 2010-03-03 | 2010-03-03 | System and method for synthesizing voice of multi-language |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101097186B1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180103273A (en) | 2017-03-09 | 2018-09-19 | 에스케이텔레콤 주식회사 | Voice synthetic apparatus and voice synthetic method |
KR20190140558A (en) * | 2018-06-12 | 2019-12-20 | 현대자동차주식회사 | Dialogue system, Vehicle and method for controlling the vehicle |
KR102408455B1 (en) * | 2021-09-29 | 2022-06-14 | 주식회사 인피닉 | Voice data synthesis method for speech recognition learning, and computer program recorded on record-medium for executing method therefor |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102221260B1 (en) * | 2019-03-25 | 2021-03-02 | 한국과학기술원 | Electronic apparatus for feature controllable voice imitating and operating method thereof |
-
2010
- 2010-03-03 KR KR1020100019167A patent/KR101097186B1/en active IP Right Grant
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180103273A (en) | 2017-03-09 | 2018-09-19 | 에스케이텔레콤 주식회사 | Voice synthetic apparatus and voice synthetic method |
KR20190140558A (en) * | 2018-06-12 | 2019-12-20 | 현대자동차주식회사 | Dialogue system, Vehicle and method for controlling the vehicle |
KR102408455B1 (en) * | 2021-09-29 | 2022-06-14 | 주식회사 인피닉 | Voice data synthesis method for speech recognition learning, and computer program recorded on record-medium for executing method therefor |
Also Published As
Publication number | Publication date |
---|---|
KR101097186B1 (en) | 2011-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7236922B2 (en) | Speech recognition with feedback from natural language processing for adaptation of acoustic model | |
Batliner et al. | The prosody module | |
EP2595143B1 (en) | Text to speech synthesis for texts with foreign language inclusions | |
JP4056470B2 (en) | Intonation generation method, speech synthesizer using the method, and voice server | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
KR20210103002A (en) | Speech synthesis method and apparatus based on emotion information | |
EP1463031A1 (en) | Front-end architecture for a multi-lingual text-to-speech system | |
JP2001101187A (en) | Device and method for translation and recording medium | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
KR101097186B1 (en) | System and method for synthesizing voice of multi-language | |
KR100669241B1 (en) | System and method of synthesizing dialog-style speech using speech-act information | |
Alam et al. | Bangla text to speech using festival | |
Kayte et al. | A text-to-speech synthesis for Marathi language using festival and Festvox | |
JP2020060642A (en) | Speech synthesis system and speech synthesizer | |
Ronzhin et al. | Survey of russian speech recognition systems | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
KR100806287B1 (en) | Method for predicting sentence-final intonation and Text-to-Speech System and method based on the same | |
Zine et al. | Towards a high-quality lemma-based text to speech system for the arabic language | |
Chen et al. | A Mandarin Text-to-Speech System | |
Sazhok et al. | Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings. | |
Houidhek et al. | Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic | |
JP2001117583A (en) | Device and method for voice recognition, and recording medium | |
Khamdamov et al. | Syllable-Based Reading Model for Uzbek Language Speech Synthesizers | |
Lazaridis et al. | Comparative evaluation of phone duration models for Greek emotional speech | |
Vafaie et al. | 4 Speech Recognition for Persian |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20141212 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20151127 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20181217 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20191216 Year of fee payment: 9 |