KR20110100079A - System and method for synthesizing voice of multi-language - Google Patents

System and method for synthesizing voice of multi-language Download PDF

Info

Publication number
KR20110100079A
KR20110100079A KR1020100019167A KR20100019167A KR20110100079A KR 20110100079 A KR20110100079 A KR 20110100079A KR 1020100019167 A KR1020100019167 A KR 1020100019167A KR 20100019167 A KR20100019167 A KR 20100019167A KR 20110100079 A KR20110100079 A KR 20110100079A
Authority
KR
South Korea
Prior art keywords
information
dialogue
sentence
speaker
voice
Prior art date
Application number
KR1020100019167A
Other languages
Korean (ko)
Other versions
KR101097186B1 (en
Inventor
김혜연
선명하
최혜진
최정영
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020100019167A priority Critical patent/KR101097186B1/en
Publication of KR20110100079A publication Critical patent/KR20110100079A/en
Application granted granted Critical
Publication of KR101097186B1 publication Critical patent/KR101097186B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 등장인물에 대한 정보를 수집하고, 개별 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 등의 단계적 분석을 통해 대화의 흐름과 발화의 내용에 적절하도록 대화체의 억양 및 감정상태를 구현하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법이 개시된다. 이를 위하여 화자 정보 분석부, 성우 데이터베이스 선택부, 감정상태 분석부, 및 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법을 제공한다. 본 발명에 의하면, 단일 화자의 음성을 청취 하는 것에서 벗어나, 문장의 화자나 감정상태에 따라 음성 출력을 달리할 뿐만 아니라 각 등장인물에 어울리는 음성을 출력하여 사용자에게 보다 자연스럽고 현실감 있는 낭독이나 대화를 제공할 수 있는 효과를 가진다. 그리고 입력된 문장이 다국어로 구성되어도 자연스러운 낭독이나 대화를 제공할 수 있다.The present invention collects information about a character, predicts a dialogue from an individual sentence, and predicts speaker information of each dialogue based on the dialogue characteristics of the dialogue, the information about the front and rear sentences of the dialogue, and the information on the character. Disclosed are a multilingual speech synthesis system and method using sentence information before and after a dialogue that implements intonation and emotional state of the dialogue so as to be appropriate for the flow of the dialogue and the contents of the speech through a stepwise analysis. To this end, there is provided a multilingual speech synthesis system and method using sentence information before and after a dialogue including a speaker information analyzer, a voice actor database selector, an emotional state analyzer, and a speech synthesizer. According to the present invention, apart from listening to a single speaker's voice, not only the voice output is changed according to the speaker or the emotional state of the sentence, but also the voice suitable for each character can be output to the user for more natural and realistic reading or conversation. Has the effect to provide. And even if the input sentence is composed of multiple languages can provide a natural reading or dialogue.

Description

대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법{SYSTEM AND METHOD FOR SYNTHESIZING VOICE OF MULTI-LANGUAGE}Multilingual Speech Synthesis System and Method Using Sentence Information Before and After Dialogues {SYSTEM AND METHOD FOR SYNTHESIZING VOICE OF MULTI-LANGUAGE}

본 발명은 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법에 관한 것으로, 보다 상세하게는 입력된 문장에 대하여 대화체가 포함되어 있는 경우에 대화의 흐름과 발화의 내용에 적절하면서 자연스럽게 다양한 대화체의 억양 및 감정상태를 구현하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법에 관한 것이다.
The present invention relates to a multilingual speech synthesis system and method using sentence information before and after a dialogue. More specifically, when a dialogue is included in an input sentence, the intonation of the dialogue is naturally appropriate for the flow of the dialogue and the contents of the speech. And a multilingual speech synthesis system and method using sentence information before and after a dialogue that implements an emotional state.

음성합성 시스템(Text-to-Speech system)은 입력 문장(텍스트)을 인간이 들을 수 있는 음성으로 변환하여 출력하는 장치로써, 도 1에 도시된 바와 같이 전처리부(preprocessing module : 110), 언어처리부(linguistic module : 120), 운율처리부(prosodic module : 130), 및 합성음 생성부(speech generator : 140)로 구성된다.A text-to-speech system is a device that converts an input sentence (text) into a human-readable voice and outputs it. As shown in FIG. 1, a preprocessing module 110 and a language processor are provided. (linguistic module: 120), a prosodic module (130), and a speech generator (speech generator: 140).

상기와 같이 구성되는 종래의 음성합성 시스템은, 먼저 전처리부(110)에 의해 입력 문장에 대한 정규화(normalization)가 이루어지면, 언어처리부(120)가 입력 문장에 대해 형태소 분석(morphological analysis)이나 구문 분석(syntactic parsing)을 수행하고 발음 변환(grapheme-to-phoneme conversion)을 수행한다.In the conventional speech synthesis system configured as described above, first, when the normalization is performed on the input sentence by the preprocessor 110, the language processor 120 performs a morphological analysis or syntax on the input sentence. Syntactic parsing is performed and grapheme-to-phoneme conversion is performed.

이어서, 운율처리부(130)가 억양구를 찾아내어 억양구나 문장 전체에 억양을 부여하거나 끊어 읽기(phrasing) 강도를 할당하면, 합성음 생성부(140)가 운율 처리된 입력 문장의 합성음을 생성하여 출력한다.Subsequently, when the rhyme processor 130 finds the intonation and gives accents to the intonation or the whole sentence, or assigns a breaking intensity, the synthesized sound generator 140 generates and outputs a synthesized sound of the rhyme-processed input sentence. do.

그러나 상기와 같이 작동하는 음성합성 시스템은 대화의 의미에 대한 고려가 없이 문장 단위로 형태소 분석 및 구문 분석을 실시하여 억양구를 찾아냄으로써, 억양을 부여하거나 끊어 읽기 구간을 부여하여 운율 구현을 하도록 되어 있기 때문에, 낭독체 음성을 합성하기 위한 방법으로는 적당하나, 여러 화자의 다양한 감정이나 태도를 나타내는 대화체 문장을 합성하는 데에는 한계가 있다.However, the voice synthesis system that operates as described above finds the accent by performing morphological analysis and syntax analysis on a sentence basis without considering the meaning of the conversation, and implements rhyme by granting an accent or giving a reading section. As a method for synthesizing the reading voice, it is suitable, but there is a limit in synthesizing the dialogue sentences representing various emotions and attitudes of various speakers.

왜냐하면 이러한 대화 음성에는 전후 발화 내용에 따라 같은 문장이라도 다른 억양으로 표현되는 경우가 많기 때문이다.This is because such dialogue voices are often expressed in different accents even in the same sentence, depending on the contents of the postwar speech.

한국어의 예를 들면, ‘네’, ‘아니’, ‘그러세요’, ‘글쎄’ 등과 같은 단어들이 있는데, 이들은 다른 맥락에서 서로 다른 억양을 통해 다른 의미를 나타내도록 쓰이고 있다. 그 가운데 응답어로 쓰이는 ‘네’의 경우를 예로 들면, 상대방의 질문에 대한 긍정의 대답으로 사용된 것인지, 단지 선행 발화(preceding utterance)에 대한 인지의 표시로 사용된 것인지에 따라 다른 억양으로 발화된다.In Korean, for example, there are words such as '네', '아니', '그러세요', and 'well well', which are used to represent different meanings through different accents in different contexts. For example, in the case of 'yes', which is used as a response word, it is uttered in different accents depending on whether it is used as a positive answer to the other person's question or merely as an indication of recognition for the preceding utterance.

이러한 표현들의 다양한 억양이 그 맥락 혹은 의미에 따라 적절하게 표현되지 않을 경우 발화 의도를 이해하기 어렵고, 결과적으로 대화 음성의 자연성이 감소될 수 있다.
If the various intonations of these expressions are not properly expressed according to the context or meaning, it is difficult to understand the intention of speech, and as a result, the naturalness of the conversational voice may be reduced.

이에, 최근에는 복수 종류의 음성데이터(예를 들면, 남성, 여성, 아이, 노인 등의 음성데이터)를 성우 데이터베이스에 미리 등록하고, 입력되는 텍스트 정보의 내용 등에 따라서 적합한 음성데이터를 선택하고, 선택한 음성데이터를 이용하여 합성 음성을 생성하는 기술들이 개발되고 있다.In recent years, a plurality of types of voice data (for example, voice data such as men, women, children, and the elderly) are registered in advance in a voice actor database, and voice data suitable for the content of the input text information is selected and selected. Techniques for generating synthesized speech using speech data have been developed.

이러한 일예로써, 일본 특허 공개 공보 제2000-339137호(2000년12월8일 공개)에는 텍스트 데이터를 음성 출력하기 위한 음성 데이터를 각 범주마다 각각 기억하고 있는 음성 데이터 기억부와, 수신한 전자 메일에 근거해 발신자가 상기 범주의 어느 쪽에 속할까를 결정하는 범주 결정부와, 결정된 범주의 음성 데이터를 텍스트 데이터의 음성 출력용으로 선택해 음성 출력하는 음성 신호 출력부 및 스피커를 가지는 전자 메일 수신 시스템에 대한 기술이 개시되어 있다. As one example, Japanese Patent Laid-Open No. 2000-339137 (published on December 8, 2000) includes a voice data storage unit for storing voice data for voice output of text data for each category, and received e-mail. For an e-mail receiving system having a category determination unit for determining which of the categories the caller belongs to, and a voice signal output unit and a speaker for selecting and outputting voice data of the determined category for voice output of text data based on Techniques are disclosed.

상기 전자 메일 수신 시스템은 자연스러운 합성 음성을 얻을 수 있지만, 이것을 실현하기 위해서 복수 종류의 음성데이터를 성우 데이터베이스에 등록해야 한다. 그러나 상기 복수 종류의 음성데이터는 메모리나 CPU 등의 하드웨어 자원에 큰 제약이 부과되어 있는 휴대 단말기 등에 저장할 수 없기 때문에, 결국 휴대 단말기 등에서는 다양한 음질의 합성 음성을 생성할 수 없다는 문제가 있다.
The electronic mail receiving system can obtain a natural synthesized voice, but in order to realize this, a plurality of kinds of voice data must be registered in the voice actor database. However, since the plural kinds of voice data cannot be stored in a portable terminal or the like, which is imposed largely on hardware resources such as a memory or a CPU, there is a problem in that the portable terminal or the like cannot generate synthesized voices of various sound quality.

따라서, 본 발명의 제 1 목적은 문장 입력과 음성 출력이 가능한 모든 기기에 본 음성 합성 시스템을 적용할 수 있을 뿐만 아니라, 대화체에 대한 화자 매치의 정확도를 높일 수 있도록 문장 전체를 분석하여 대화체의 억양 및 감정상태를 자연스럽게 구현할 수 있는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템을 제공하는데 있다.Accordingly, the first object of the present invention is not only to apply the speech synthesis system to all devices capable of sentence input and speech output, but also to analyze the entire sentence so as to increase the accuracy of speaker matching for the dialogue. And it provides a multilingual speech synthesis system using sentence information before and after the dialogue that can naturally implement the emotional state.

또한, 본 발명의 제 2 목적은 문장 전체를 분석하여 대화체에 적절한 화자 정보를 예측하고, 상기 화자 정보를 다양한 보이스폰트 및 감정상태가 저장된 데이터베이스를 이용하여 합성음을 생성함으로써, 문장의 의미에 맞도록 대화체의 억양 및 감정상태를 다양하고 자연스럽게 구현하는 앞뒤 문장정보를 이용한 다국어 음성합성 방법을 제공하는데 있다.
In addition, the second object of the present invention is to analyze the whole sentence to predict the speaker information appropriate for the conversation, and to generate the synthesized sound using the database stored the various voice fonts and emotional state, to match the meaning of the sentence It is to provide a multilingual speech synthesis method using front and back sentence information that variously and naturally embodies the intonation and emotion state of a conversational body.

상술한 본 발명의 제 1 목적을 달성하기 위하여, 본 발명의 일실시예에서는 입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하고, 각 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 화자 정보 분석부; 상기 화자 정보 분석부로부터 공급된 화자 예측정보를 바탕으로 각 문장의 화자에 부합되는 음성정보를 지정된 성우 DB로부터 추출하는 성우 DB 선택부; 상기 성우 DB 선택부로부터 공급된 정보 중 각 대화체 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 감정상태 분석부; 및 상기 성우 DB 및 감정 DB로부터 추출된 음성정보를 합성하여 출력하는 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템을 제공한다. In order to achieve the first object of the present invention described above, an embodiment of the present invention analyzes the entire sentence inputted to collect information about the characters, to predict the dialogue from each sentence, and the dialogue characteristics of the dialogue A speaker information analyzer for predicting speaker information of each conversation based on information on the front and rear sentences of the conversation and information on the characters; A voice actor DB selection unit for extracting voice information corresponding to the speaker of each sentence from a specified voice actor DB based on speaker prediction information supplied from the speaker information analyzer; From the information provided from the voice actor DB selection unit, the key word of the sentence that represents the emotional state is collected from each conversation information, the emotional state is analyzed through the key word, and the voice information corresponding to the emotional state is determined from the designated emotion DB. Emotional state analysis unit for extracting; And it provides a multilingual speech synthesis system using the front and rear sentence information including a speech synthesis unit for synthesizing and outputting the speech information extracted from the voice actor DB and the emotion DB.

또한, 본 발명의 제 2 목적을 달성하기 위하여, 본 발명의 일실시예에서는 (ⅰ) 등장인물 정보 수집 모듈을 통해 입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하는 단계; (ⅱ) 문체 분석 모듈을 통해 입력된 전체 문장을 분석하여 대화체를 예측하는 단계; (ⅲ) 상기 문체 분석 모듈로부터 상기 대화체에 대한 정보가 공급되면 앞뒤 문장정보 수집 모듈을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 단계; (ⅳ) 상기 앞뒤 문장정보 수집 모듈로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 단계; (ⅴ) 상기 발화자 특성 분석 모듈로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부를 통해 상기 화자 정보에 부합되는 음성을 지정된 성우 DB로부터 추출하는 단계; (ⅵ) 상기 성우 DB 선택부로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부를 통해 각 대화체로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 단계; 및 (ⅶ) 상기 감정상태 분석부로부터 성우 DB 및 감정 DB로부터 추출된 음성정보가 공급되면, 음성합성부를 통해 합성하여 출력하는 단계를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법을 제공한다.
In addition, in order to achieve the second object of the present invention, an embodiment of the present invention comprises the steps of (i) collecting information on the character by analyzing the entire sentence input through the character information collection module; (Ii) predicting the dialogue by analyzing the entire sentence input through the stylistic analysis module; (Iii) analyzing the front and rear sentences of each dialog through the front and rear sentence information collection module when information about the dialogue is supplied from the style analysis module and collecting supplementary data for determining the speaker information of the corresponding dialogue; (Iii) When the information on the dialogue and the supplementary data are supplied from the front and rear sentence information collection module, the dialogue characteristics are extracted by analyzing the dialogue through the speaker characteristic analysis module, and the dialogue characteristics and the supplementary data and Analyzing the characters to predict speaker information for each conversation object; (Iv) extracting a voice corresponding to the speaker information from a designated voice actor DB through the voice actor DB selection unit, when speaker information for each conversation object is supplied from the speaker characteristic analysis module; (Iii) When the speaker information of each conversation is supplied from the voice actor DB selection unit, the keyword of the sentence representing the emotional state is collected from each dialogue through the emotional state analysis unit, and the emotional state is analyzed using the keyword. Extracting voice information corresponding to the emotional state from a specified emotion DB; And (iii) when the voice information extracted from the voice actor DB and the emotion DB from the emotional state analysis unit is supplied, and synthesized through the speech synthesis unit provides a multilingual speech synthesis method using the front and rear sentence information.

본 발명에 의하면, 단일 화자의 음성을 청취 하는 것에서 벗어나, 문장의 감정상태에 따라 음성 출력을 달리할 뿐만 아니라 각 등장인물에 어울리는 음성을 출력하여 사용자에게 보다 자연스럽고 현실감 있는 낭독이나 대화를 제공할 수 있다. According to the present invention, apart from listening to a single speaker's voice, not only the voice output is changed according to the emotional state of the sentence, but also the voice suitable for each character can be output to provide a more natural and realistic reading or conversation to the user. Can be.

또한, 본 발명은 음성합성 시스템에서 입력된 대화 텍스트에 대하여 대화의 흐름과 발화의 내용에 부합하면서도 자연스럽고 다양한 대화체의 억양을 구현할 수 있다. 나아가, 각 대화체에 대한 합성음 생성방법이 개별 문장에 대한 대화체의 정보만을 분석하는 것이 아닌, 전체 문장의 정보도 고려하므로, 대화의 흐름과 발화의 내용에 적절하면서 자연스러운 합성음을 생성할 수 있다.In addition, the present invention can implement the intonation of the natural and diverse conversational body while matching the flow of the conversation and the contents of the speech with respect to the dialogue text input from the speech synthesis system. Furthermore, since the method of generating the synthesized sound for each conversational body not only analyzes the information of the conversational body for the individual sentence but also considers the information of the entire sentence, it is possible to generate a natural and sounded sound appropriate for the flow of the conversation and the content of the speech.

또한, 본 발명은 메모리나 CPU 등 하드웨어 자원에 대한 제약을 최소화 할 수 있도록 은닉 마코브 모델(Hidden Markov mode : HMM)기반 TTS 시스템 방식을 통해 구축된 성우 데이터베이스(이하, "DB"라고 한다.)를 사용하여 소용량 하드웨어를 사용하는 텔레매틱스 기술에도 자유롭게 적용할 수 있다. 따라서, 하드웨어의 제약이 있는 개인용 휴대기기, 전자사전, 인터넷 신문, 학습용 기기, 차량 탑재용 단말기 등과 같은 소용량 시스템에서도 HMM 기반 TTS 시스템을 이용하여 합성음을 생성할 수 있다. In addition, the present invention is a voice actor database (hereinafter, referred to as "DB") constructed through the Hidden Markov model (HMM) based TTS system to minimize the constraints on hardware resources such as memory or CPU. It is also possible to freely adapt to telematics technology using small hardware. Therefore, even in small-capacity systems such as personal portable devices, electronic dictionaries, Internet newspapers, learning devices, vehicle-mounted terminals, and the like, the synthesized sound may be generated using the HMM-based TTS system.

또한, 본 발명은 어린이들을 위한 동화 구연 시스템이나 다국어 학습 시스템, 또는 시각장애인들을 위한 텍스트의 음성화 시스템에 적용되면 각 등장인물에 어울리는 음성을 표현할 수 있어, 보다 사실감 있고 자연스러운 이야기의 전달이 가능하다. In addition, when the present invention is applied to a storytelling system for children, a multilingual learning system, or a text speech system for the visually impaired, a voice suitable for each character can be expressed, thereby enabling a more realistic and natural story transmission.

또한, 본 발명은 시나리오 및 장치 관리를 하는 음성 미들웨어 시스템에 적용될 수 있어 효율적인 다국어 음성 지원이 가능하며, 차량용 단말기에서의 인터넷 정보, SMS 등에도 적용이 가능하여 사용자 친화적인 시스템 구현이 가능하다. 즉, 본 발명은 단일 언어가 아닌 다양한 언어 처리가 가능하고, 새로운 언어를 추가할 경우에도 음성 미들웨어 시스템을 통해 시나리오나 장치, 모듈이 통합적으로 관리될 수 있기 때문에 다국어 음성 구현이 가능하다.
In addition, the present invention can be applied to a voice middleware system that manages scenarios and devices to enable efficient multilingual voice support, and to be applied to Internet information, SMS, etc. in a vehicle terminal, thereby enabling user-friendly system implementation. That is, the present invention is capable of processing a variety of languages instead of a single language, and even when adding a new language, multilingual voices can be implemented because scenarios, devices, and modules can be integrated and managed through a voice middleware system.

도 1은 종래의 음성합성 시스템을 나타내는 구성도이다.
도 2는 본 발명의 일실시 예에 따른 음성합성 시스템을 설명하기 위한 구성도이다.
도 3은 본 발명에 따른 언어 분석 판단부와 화자 정보 분석부를 구성하는 각 모듈의 역할을 구체적으로 설명하기 위한 텍스트 예문이다.
도 4는 본 발명의 일실시 예에 따른 음성합성 방법을 설명하기 위한 흐름도이다.
1 is a block diagram showing a conventional speech synthesis system.
2 is a block diagram illustrating a speech synthesis system according to an embodiment of the present invention.
3 is a text example sentence for explaining in detail the role of each module constituting the language analysis determination unit and the speaker information analysis unit according to the present invention.
4 is a flowchart illustrating a speech synthesis method according to an embodiment of the present invention.

이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예들에 의한 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템(이하, “음성합성 시스템”이라 한다.)을 상세하게 설명한다.
Hereinafter, a multilingual speech synthesis system (hereinafter, referred to as a "voice synthesis system") using sentence information before and after a dialogue according to preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 일실시예에 따른 음성합성 시스템을 설명하기 위한 구성도이다. 2 is a block diagram illustrating a speech synthesis system according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 일실시예에 의한 음성합성 시스템은 대화체가 포함된 단일 문장이 아닌 입력된 전체 문장을 단계적으로 분석하여 대화체의 화자 정보를 예측하는 화자 정보 분석부(30)와, 상기 예측된 화자 정보에 부합되는 음성정보를 지정된 성우 DB(100)로부터 추출하는 성우 DB 선택부(40)와, 상기 대화체의 핵심어를 바탕으로 등장인물의 감정상태를 분석하며 상기 감정상태에 부합되는 음성정보를 지정된 감정 DB(200)로부터 추출하는 감정상태 분석부(50), 및 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성 정보를 합성하여 출력하는 음성합성부(60)를 포함한다.Referring to FIG. 2, the speech synthesis system according to an embodiment of the present invention includes a speaker information analysis unit 30 for predicting speaker information of a conversational object by analyzing the entire sentence not a single sentence including a conversational step by step. A voice actor DB selection unit 40 extracting voice information corresponding to the predicted speaker information from a specified voice actor DB 100 and an emotional state of the character based on the key word of the conversational body, and matching the emotion state. Emotional state analysis unit 50 for extracting the voice information from the specified emotion DB (200), and voice synthesis unit 60 for synthesizing and outputting the voice information extracted from the voice actor DB 100 and the emotion DB (200) Include.

이러한 음성합성 시스템은 퍼스널 컴퓨터 등의 일반적인 정보 처리 장치나 휴대전화, PHS(Personal Handyphone System), PDA(Personal Digital Assistance), 전자사전, 학습용 기기, 차량 탑재용 단말기 등 텍스트를 입력하여 음성 출력이 가능한 모든 기기에 적용할 수 있다.
Such a voice synthesis system is capable of outputting voices by inputting text such as general information processing devices such as personal computers, mobile phones, personal handyphone systems (PHS), personal digital assistants (PDAs), electronic dictionaries, learning devices, and vehicle-mounted terminals. Applicable to all devices.

이하, 도면을 참조하여 각 구성요소별로 보다 구체적으로 설명한다. Hereinafter, each component will be described in more detail with reference to the drawings.

먼저 본 발명의 일실시예에 의한 음성합성 시스템은 입력부(10)를 포함한다. First, the speech synthesis system according to an embodiment of the present invention includes an input unit 10.

상기 입력부(10)는 조작부(미도시) 등을 통해 입력된 전체 문장을 이용하여 텍스트 데이터를 추출하고, 상기 텍스트 데이터를 상기 화자 정보 분석부(30)로 공급하는 역할을 수행한다. 여기서, 입력부(10)는 공지된 기술에 해당하므로, 상세한 설명은 생략하기로 한다.
The input unit 10 extracts text data using the entire sentence input through an operation unit (not shown), and supplies the text data to the speaker information analyzer 30. Here, since the input unit 10 corresponds to a known technique, a detailed description thereof will be omitted.

필요에 따라, 도 2에 도시된 바와 같이 상기 입력부(10)와 화자 정보 분석부(30) 사이에는 언어 분석 판단부(20)를 더 포함할 수 있다. If necessary, as shown in FIG. 2, a language analysis determination unit 20 may be further included between the input unit 10 and the speaker information analysis unit 30.

상기 언어 분석 판단부(20)는 입력부(10)로부터 제공된 텍스트 데이터를 분석하여 상기 텍스트 데이터를 구성하는 언어가 어떤 언어(한국어, 영어, 일어, 중국어 등)에 해당되는지를 판단하는 역할을 수행한다. The language analysis determiner 20 analyzes the text data provided from the input unit 10 and determines which language (Korean, English, Japanese, Chinese, etc.) that constitutes the text data corresponds to. .

특정 양태로서, 본 발명에 따른 언어 분석 판단부(20)는 텍스트 데이터를 구성하는 문장의 전체적인 형태를 분석하거나 상기 문장의 어근, 어간, 어미의 결합구조를 분석하여 해당 언어를 판단한다.
In a particular aspect, the language analysis determiner 20 according to the present invention analyzes the overall form of a sentence constituting the text data or analyzes the structure of the root, stem, and mother of the sentence to determine the corresponding language.

그리고 본 발명에 따른 음성합성 시스템은 화자 정보 분석부(30)를 포함한다.And the speech synthesis system according to the present invention includes a speaker information analysis unit 30.

상기 화자 정보 분석부(30)는 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 등장인물에 대한 정보를 수집하고, 각 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 역할을 수행한다. 여기서, 문장은 대화체와 낭독체로 구분한다.The speaker information analyzing unit 30 analyzes text data of all sentences provided from the input unit 10 or the language analysis determining unit 20 to collect information on the characters, and predicts a dialogue from each sentence. Predicting the speaker information of each dialogue based on the dialogue characteristics of the dialogue, information on the front and rear sentences of the dialogue, and information on the characters. Here, sentences are divided into dialogue and reading.

이때, 상기 화자 정보 분석부(30)는 입력된 전체 문장에 대화체가 연속으로 위치하면 문장 전체에 대한 화자의 수를 예측하고, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측할 수 있다.In this case, the speaker information analyzing unit 30 predicts the number of speakers for the entire sentence when the dialogues are continuously placed in the entire sentences inputted, and compares and analyzes the speaker information for each of the dialogues for each dialogue. Speaker information can be repredicted.

일실시 양태로써, 본 발명에 따른 화자 정보 분석부(30)는 등장인물 정보 수집 모듈(31), 문체 분석 모듈(32), 발화자 특성 분석 모듈(33), 앞뒤 문장정보 수집 모듈(34), 연속 대화체 화자 예측 모듈(35)로 이루어질 수 있다.In one embodiment, the speaker information analysis unit 30 according to the present invention, the character information collection module 31, the style analysis module 32, the speaker character analysis module 33, the front and rear sentence information collection module 34, Continuous dialogue speaker prediction module 35 may be made.

보다 구체적으로, 상기 등장인물 정보 수집 모듈(31)은 입력부(10) 또는 언어 분석 판단부(20)에 연결되어 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 등장인물들에 대한 정보, 예를 들면 등장인물의 명칭, 등장인물의 나이 및 직업 등 문장 내에서 파악할 수 있는 정보를 수집하는 역할을 수행한다. 이때, 상기 등장인물 정보 수집 모듈(31)은 입력된 문장의 전체로부터 문장의 구성요소 중 조사와 형태소 등을 제외한 고유명사와 명사 등을 별도로 추출하고, 상기 고유명사와 명사의 추출된 빈도수를 조사하여 빈도수가 높은 고유명사와 명사에 가중치를 부여함으로써, 각 등장인물들에 대한 중요도를 나눌 수 있다.More specifically, the character information collection module 31 is connected to the input unit 10 or the language analysis determination unit 20, the text for the entire sentence supplied from the input unit 10 or language analysis determination unit 20 It analyzes data and collects information about characters, such as the names of characters, their age and occupation, and other information that can be found in sentences. In this case, the character information collection module 31 separately extracts proper nouns and nouns except for investigation and morphemes among the components of the sentence from the entire input sentence, and examines the extracted frequencies of the proper nouns and nouns. By assigning weights to proper nouns and nouns with high frequency, the importance of each character can be divided.

필요에 따라, 상기 등장인물 정보 수집 모듈(31)은 도서정보 DB를 이용하여 등장인물에 대한 정보를 수집할 수도 있다. 여기서, 도서정보 DB란 기존에 존재하는 유명 서적들을 중심으로 도서명, 등장인물 등의 기본정보를 저장해 놓은 DB를 의미한다.
If necessary, the character information collection module 31 may collect information about the character using the book information DB. Here, the book information DB means a DB that stores basic information such as book names and characters based on existing famous books.

상기 문체 분석 모듈(32)은 입력부(10) 또는 언어 분석 판단부(20)에 연결되어 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 대화체를 예측하는 것이다. 구체적으로, 서적에서 대화체의 시작과 끝을 알리는 특정 기호들, 예를 들면 “ ”, -, ‘ ’, ... 등을 이용하여 대화체를 낭독체와 구분한다. 여기서, 문체 분석 모듈(32)은 입력된 전체 문장을 대화체와 낭독체로 나누는 역할을 수행한다. The stylistic analysis module 32 is connected to the input unit 10 or the language analysis determination unit 20 to analyze the text data for the entire sentence supplied from the input unit 10 or the language analysis determination unit 20 to analyze the dialogue. To predict. Specifically, the book is distinguished from the reader using specific symbols indicating the beginning and end of the conversation, such as “”,-, ‘,…. Here, the stylistic analysis module 32 divides the entire sentence into dialogue and reading.

그러나 특정 기호들을 이용하여 문장으로부터 대화체를 구분하는 것은 100%의 정확성을 가지지 못한다. 이에, 상기 문체 분석 모듈(32)은 대화체와 낭독체를 확정적으로 양분하는 것이 아니라, 상기 특정 기호들을 통해 개별 문장이 대화체에 가까운 문장인지 아니면 낭독체에 가까운 문장인지를 판단하는 역할을 수행한다. However, it is not 100% accurate to distinguish a conversation from a sentence using certain symbols. Thus, the stylistic analysis module 32 does not determinately divide the dialogue body and the reading body, but determines whether an individual sentence is a sentence close to the dialogue body or a sentence close to the reading body through the specific symbols.

따라서, 문체 분석 모듈(32)을 통해 낭독체에 해당되는 문장이라고 분석되어도 상기 문장은 발화자 특성 분석 모듈(33), 앞뒤 문장정보 수집 모듈(34), 연속 대화체 화자 예측 모듈(35)을 통해 대화체의 문장에 해당되는지의 여부를 추가적으로 분석한다.
Therefore, even if it is analyzed as a sentence corresponding to the reading body through the stylistic analysis module 32, the sentence is communicated through the speaker characteristic analysis module 33, front and rear sentence information collection module 34, and continuous dialogue speaker prediction module 35. Further analyze whether or not the sentence

상기 앞뒤 문장정보 수집 모듈(34)은 문체 분석 모듈(32)에 연결되며, 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집한다. 여기서, 상기 보충자료는 대화체에 대한 적절한 화자를 판단하는데 도움이 될 만한 것이나, 화자의 상태, 주변 환경 등 음성합성을 할 때 영향을 미칠 수 있는 모든 정보를 의미한다.
The front and rear sentence information collection module 34 is connected to the style analysis module 32, and analyzes the front and rear sentences of each dialogue body to collect supplemental data of the speaker information determination of the dialogue body. Here, the supplementary data means all the information that may be helpful in determining an appropriate speaker for the conversation, or may affect the speech synthesis such as the speaker's state and the surrounding environment.

상기 발화자 특성 분석 모듈(33)은 앞뒤 문장정보 수집 모듈(34)에 연결되어 상기 앞뒤 문장정보 수집 모듈(34)로부터 분석된 정보를 공급받고, 상기 대화체의 대화 특성, 예를 들면, 말투, 맺음말의 종류, 호칭사용 등을 분석하여 대화체의 화자 정보를 예측한다. 필요에 따라, 상기 발화자 특성 분석 모듈(33)은 문체 분석 모듈(32)에 연결되어 상기 문체 분석 모듈(32)로부터 직접 대화체에 대한 정보를 공급받을 수도 있다.The speaker characteristic analysis module 33 is connected to the front and rear sentence information collection module 34 to receive the analyzed information from the front and rear sentence information collection module 34, and the dialogue characteristics of the conversational body, for example, speech and closing Predictive speaker information by analyzing the type and nominal usage. If necessary, the narrator characteristic analysis module 33 may be connected to the stylistic analysis module 32 to receive information on the dialogue directly from the stylistic analysis module 32.

그리고 발화자 특성 분석 모듈(33)은 등장인물 정보 수집 모듈(31)에 연결되며, 상기 화자 정보를 상기 등장인물 정보 수집 모듈(31)로부터 공급받은 등장인물에 대한 정보와 비교하여 일치성이 있는 화자 정보에 가중치를 부여한다. 이때, 가중치는 대화체에 부여하는 것이 바람직하다. The speaker characteristic analysis module 33 is connected to the character information collecting module 31 and compares the speaker information with the information on the characters supplied from the character information collecting module 31 to match the speaker. Weight information. At this time, it is preferable to give a weight to a conversation body.

필요에 따라, 상기 등장인물에 대한 정보는 등장인물 정보 수집 모듈(31)로부터 문체 분석 모듈(32) 및 앞뒤 문장정보 수집 모듈(34)을 거쳐 발화자 특성 분석 모듈(33)로 공급될 수도 있다.
If necessary, the information on the character may be supplied from the character information collecting module 31 to the talker characterization module 33 via the style analysis module 32 and the front and rear sentence information collection module 34.

상기 연속 대화체 화자 예측 모듈(35)은 앞뒤 문장정보 수집 모듈(34)로부터 공급된 정보, 즉 보충자료를 통해 연속된 대화체가 수집되면, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측한다. The continuous dialogue speaker prediction module 35 compares and analyzes speaker information for each continuous dialogue when the continuous dialogue is collected through information supplied from the front and rear sentence information collecting module 34, that is, supplementary data. Re-predict speaker information for.

이와 같이, 상기 연속 대화체 화자 예측 모듈(35)은 연속된 각 대화체에 대한 화자 정보를 비교하고 분석함으로써, 가중치가 낮은 문장의 화자 매치 정확도를 높일 수 있게 된다. 다시 말해, 연속 대화체 화자 예측 모듈(35)은 화자 판단의 근거 자료가 부족한 대화체에 대하여 상기 대화체의 앞뒤 대화체를 비교하고 분석하여 판단 자료를 보충해 줌으로써, 연속된 대화체의 화자 유형 판단에 대한 정확도를 향상시키는 역할을 수행한다.
As described above, the continuous dialogue speaker prediction module 35 compares and analyzes speaker information for each consecutive dialogue, thereby increasing the speaker matching accuracy of a sentence having a low weight. In other words, the continuous dialogue speaker prediction module 35 compares and analyzes the dialogue body before and after the dialogue body for the dialogue body lacking the basis data of the speaker judgment, and supplements the determination data, thereby determining the accuracy of the speaker type determination of the continuous dialogue body. To improve the role.

도 3은 본 발명에 따른 언어 분석 판단부(20)와 화자 정보 분석부(30)를 구성하는 각 모듈의 역할을 구체적으로 설명하기 위한 텍스트 예문이다.3 is a text example sentence for explaining in detail the role of each module constituting the language analysis determination unit 20 and the speaker information analysis unit 30 according to the present invention.

도 3과 같은 텍스트가 입력되면, 언어 분석 판단부(20)를 통해 입력된 문장이 ‘한국어’로 구성되어 있다는 것을 판단한 후, 상기 등장인물 정보 수집 모듈(31)을 통과하여 얻게 되는 최소 정보는 “등장인물의 수 : 3, 등장인물 : 흰둥이 강아지, 강아지 똥, 참새”이다.When the text as shown in FIG. 3 is input, after determining that the sentence input through the language analysis determining unit 20 is composed of 'Korean', the minimum information obtained by passing through the character information collecting module 31 is "Number of characters: 3, characters: albino puppy, dog poop, sparrow".

그리고 상기 텍스트가 문체 분석 모듈(32)로 공급되면, 상기 문체 분석 모듈(32)은 공급된 텍스트를 분석하여, 특정 기호가 기재되어 있는 4번째 문장 "똥! 똥! 에그, 더러워."와 6번째 문장 "내가 더럽다고?"를 대화체로 구분한다. Then, when the text is supplied to the stylistic analysis module 32, the stylistic analysis module 32 analyzes the supplied text, and the fourth sentence "shit! Poop! The second sentence, "I'm dirty?"

또한, 앞뒤 문장정보 수집 모듈(34)은 상기 문체 분석 모듈(32)로부터 대화체(4번째, 6번째 문장)에 대한 정보를 공급받으면, 상기 대화체의 앞뒤 문장(3번째, 5번째, 7번째 문장)에 대한 보충자료를 수집한다.In addition, when the front and rear sentence information collection module 34 receives the information on the dialogue body (fourth and sixth sentences) from the stylistic analysis module 32, the sentence front and back sentence (third, fifth, seventh sentence) Collect supplemental data for

또한, 발화자 특성 분석 모듈(33)은 상기 앞뒤 문장정보 수집 모듈(34)로부터 대화체에 대한 정보와 상기 보충자료를 공급받으면, 대화체의 특성을 분석하여 대화 특성을 추출하고, 상기 대화 특성과 보충자료를 분석하여 각 대화체의 화자 정보를 예측한다. In addition, when the speaker characteristic analysis module 33 receives the information on the dialogue object and the supplementary data from the front and rear sentence information collection module 34, the dialogue characteristic is extracted by extracting the dialogue characteristic, and the dialogue characteristic and the supplementary data. Analyze and predict speaker information of each dialogue.

보다 구체적으로, 앞뒤 문장정보 수집 모듈(34)에서 반영하는 가중치를 ‘100’으로 한다면, [④ "똥! 똥! 에그, 더러워."]의 문장은 3번째 문장 및 5번째 문장으로부터 수집된 등장인물 ‘참새’에 가중치 ‘100’을 부여하며, [⑥ "내가 더럽다고?"]의 문장은 5번째 문장 및 7번째 문장으로부터 수집된 등장인물 ‘강아지 똥’에 가중치 ‘100’을 부여한다.More specifically, if the weight reflected by the front and rear sentence information collection module 34 is '100', the sentence [④ "shit! Poop! Egg, dirty."] Appeared collected from the third sentence and the fifth sentence The character 'sparrow' is given a weight of '100', and the sentence [⑥ "I'm dirty?"] Gives the weight '100' to the character 'puppy shit' collected from the fifth and seventh sentences.

이때, 5번째 문장 [⑤ 참새는 쫑알거리며 멀리 날아갔습니다.]는 ‘..갔습니다.’,‘..떠났습니다.’, '..멀어집니다.’와 같이 대화에서 제외되는 서술부가 기재되어 있으므로, 5번째 문장의 등장인물 ‘참새’에 대한 가중치는 부여하지 않는다. 이와 같이, 앞뒤 문장을 파악할 때, 등장인물이 언급 되는지 만을 보는 것이 아닌, 주요 서술부를 분석하면 등장인물의 자세나 행동에 대한 정보를 얻을 수 있게 된다.At this time, the fifth sentence [⑤ Sparrow flew away with a grainy] is a description that is excluded from the conversation, such as' .. has gone ',' .. has left ',' .. However, no weight is given to the character 'sparrow' in the fifth sentence. Thus, when grasping the front and back sentences, it is possible to obtain information about the character's posture or behavior by analyzing the main narrative, not just seeing if the character is mentioned.

따라서, 본 발명에 따른 화자 정보 분석부는 4번째 문장의 화자를 참새로 예측하고, 6번째 문장의 화자를 강아지 똥으로 예측한다. Therefore, the speaker information analyzer according to the present invention predicts the speaker of the fourth sentence as a sparrow, and predicts the speaker of the sixth sentence as a dog poop.

이와 같이, 전체 문장 중 대화체가 포함된 각각의 개별 문장을 별도로 분석하여 각 대화체에 적절한 화자 정보를 분석하는 종래 기술과 달리, 본 발명에 따른 음성합성 시스템은 입력되는 전체 문장을 단계적으로 분석하여 해당 대화체에 대한 화자 정보를 분석하므로, 자연스럽고 현실감 있게 합성음을 생성할 수 있다.
As described above, unlike the prior art of analyzing each individual sentence including a dialogue among all sentences separately and analyzing speaker information appropriate for each dialogue, the speech synthesis system according to the present invention analyzes the entire sentence input step by step. By analyzing the speaker information about the dialogue, it is possible to generate synthesized sounds in a natural and realistic manner.

또한, 본 발명의 일실시예에 의한 음성합성 시스템은 성우 DB 선택부(40)를 포함한다.In addition, the voice synthesis system according to an embodiment of the present invention includes a voice actor DB selector 40.

상기 성우 DB 선택부(40)는 상기 화자 정보 분석부(30)로부터 공급된 화자 정보를 바탕으로 각 대화체의 화자 정보에 부합되는 음성정보를 지정된 성우 DB(100)로부터 추출하는 역할을 수행한다. 즉, 언어 분석 판단부(20)를 통해 입력된 전체 문장을 구성하는 언어가 ‘한국어’로 판단되면, 성우 DB 선택부(40)는 지정된 성우 DB(100)로부터 ‘한국어’에 대한 음성정보를 추출한다. 이와 반대로, 언어 분석 판단부(20)를 통해 입력된 전체 문장을 구성하는 언어가 ‘영어’로 판단되면, 성우 DB 선택부(40)는 지정된 성우 DB(100)로부터 ‘영어’에 대한 음성정보를 추출한다.The voice actor DB selector 40 extracts voice information corresponding to the speaker information of each conversation body from the designated voice actor DB 100 based on the speaker information supplied from the speaker information analyzer 30. That is, when it is determined that the language constituting the entire sentence input through the language analysis determining unit 20 is 'Korean', the voice actor DB selecting unit 40 receives voice information about 'Korean' from the designated voice actor DB 100. Extract. On the contrary, if it is determined that the language constituting the entire sentence input through the language analysis determining unit 20 is 'English', the voice actor DB selecting unit 40 receives voice information about 'English' from the designated voice actor DB 100. Extract

한편, 성우 DB(100)는 코퍼스 기반 TTS 시스템뿐만 아니라 HMM 기반 TTS 시스템 방식을 통해 구축된 것을 사용할 수 있다. 이때, 성우 DB(100)는 두 개 이상의 보이스 폰트가 저장될 수 있다. 여기서, 코퍼스 기반 TTS 시스템과 HMM 기반 TTS 시스템은 공지된 기술에 해당하므로, 상세한 설명은 생략하기로 한다.
On the other hand, the voice actor DB 100 can be used not only corpus-based TTS system but also HMM-based TTS system. In this case, the voice actor DB 100 may store two or more voice fonts. Here, since the corpus-based TTS system and the HMM-based TTS system correspond to known technologies, a detailed description thereof will be omitted.

또한, 본 발명의 일실시예에 의한 음성합성 시스템은 감정상태 분석부(50)를 포함한다.In addition, the speech synthesis system according to an embodiment of the present invention includes an emotional state analysis unit 50.

상기 감정상태 분석부(50)는 상기 화자 정보 분석부(30)로부터 공급된 각 대화체에 대한 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 각 대화체의 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출하는 역할을 수행한다. 여기서, 핵심어는 감정상태의 카테고리별 단어와 횟수 혹은 빈도, 감탄사, 관용어, 부호 등을 의미한다. The emotional state analyzing unit 50 collects key words of sentences that may indicate an emotional state from information on each conversational body supplied from the speaker information analyzing unit 30, and analyzes the emotional state of each conversational body through the core word. And extracts voice information corresponding to the emotional state from the designated emotion DB 200. Here, the key words mean words and frequency or frequency, interjections, idioms, signs, etc. for each category of the emotional state.

보다 구체적으로, 상기 핵심어를 긍정, 보통, 부정의 카테고리로 나누어 특정 카테고리에 해당되는 단어의 빈도수에 따라 문장의 감정상태에 따른 적합한 목소리 종류를 선택한다. 여기서 긍정은 기쁨, 즐거움 등의 표현을 부정은 슬픔, 두려움 등의 표현을 포함한다.More specifically, the key word is divided into positive, normal, and negative categories to select a suitable voice type according to the emotional state of the sentence according to the frequency of words corresponding to a specific category. Here, positive includes expressions of joy, joy, and negative expressions of sadness, fear, etc.

즉, 감정상태 분석부(50)는 입력되는 문장이 낭독체인지 대화체인지 구분하고, 대화체이면 핵심어를 분석하여 문장의 감정상태를 긍정, 보통, 부정의 카테고리로 구분하여 적합한 음성 종류를 선택한다. 예를 들면, 긍정적인 문장이면 기쁜 목소리가 선택되도록 명령하고, 부정적인 문장이면 슬픈 목소리가 선택되도록 명령하는 것이다.
That is, the emotional state analyzing unit 50 classifies whether the input sentence is a reading or conversational body, and if it is a dialogue, the emotional state of the sentence is classified into categories of positive, normal, and negative to select an appropriate voice type. For example, if the sentence is positive, the joyful voice is ordered. If the sentence is negative, the sad voice is ordered.

또한, 본 발명의 일실시예에 의한 음성합성 시스템은 음성합성부(60)를 포함한다.In addition, the speech synthesis system according to an embodiment of the present invention includes a speech synthesis unit 60.

상기 음성합성부(60)는 상기 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보를 합성하여 출력하는 역할을 수행한다.The voice synthesizer 60 synthesizes and outputs voice information extracted from the voice actor DB 100 and the emotion DB 200.

본 발명에 따른 음성합성부(60)는 낭독체 음성과 대화체 음성의 목소리 종류를 달리하여 한 가지 목소리의 음성이 출력되는 것이 아니라 서로 다른 목소리로 출력할 수 있다. 즉, 음성합성 시스템으로 입력된 문장을, 문장의 내용에 따라 남자 목소리, 여자 목소리로 구분하여 마치 대화를 나누는 것처럼 출력할 수 있다.
The voice synthesizer 60 according to the present invention may output one voice instead of one voice by different voice types of the read voice and the conversation voice. In other words, the sentence input to the speech synthesis system can be classified into a male voice and a female voice according to the contents of the sentence, and output as if having a conversation.

본 발명에 따른 음성합성 시스템은 개인용 휴대기기, 전자사전, 인터넷 신문, 학습용 기기, 차량 탑재용 단말기, 텔레매틱스용 기기(오토 PC) 등에 적용될 수 있다. 이와 같이, 임베디드 시스템이나 음성인식 및 다양한 모듈들의 통합적인 제공이 필요한 기기인 경우 각 모듈들을 미들웨어 시스템에서 통합적으로 관리하여 본 발명에 따른 음성합성 시스템을 효율적으로 동작시킬 수 있다. 따라서, 본 발명을 텔레매틱스용 기기 등에 사용하면 상기 텔레매틱스용 기기 등은 다국어 음성 지원이 가능하게 된다.
The speech synthesis system according to the present invention can be applied to personal portable devices, electronic dictionaries, Internet newspapers, learning devices, vehicle-mounted terminals, telematics devices (auto PCs), and the like. As such, in the case of an embedded system or a device requiring an integrated provision of voice recognition and various modules, each module may be integratedly managed in a middleware system to efficiently operate the voice synthesis system according to the present invention. Therefore, when the present invention is used for a telematics device or the like, the telematics device or the like can support multilingual voices.

도 4는 본 발명의 일실시예에 따른 음성합성 방법을 설명하기 위한 흐름도이다.4 is a flowchart illustrating a speech synthesis method according to an embodiment of the present invention.

도 4를 참조하면, 본 발명에 따른 음성합성 방법은 먼저 대화체, 낭독체, 또는 대화체 및 낭독체로 이루어진 문장이 본 발명에 따른 음성합성 시스템으로 입력되면, 입력부(10)를 통해 상기 문장 전체로부터 텍스트 데이터를 추출하는 제 1 단계(S10)를 포함한다.
Referring to FIG. 4, in the speech synthesis method according to the present invention, when a sentence consisting of a dialogue body, a reading body, or a dialogue body and a reading body is first input to the speech synthesis system according to the present invention, the text from the whole sentence through the input unit 10 is input. A first step S10 of extracting data is included.

다음으로, 등장인물에 대한 정보를 수집하는 제 2 단계(S20)를 포함한다.Next, a second step (S20) of collecting information about the character.

본 단계(S20)에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 등장인물 정보 수집 모듈(31)을 통해 분석하여 등장인물, 인물의 나이, 직업 등 문장 내에서 파악할 수 있는 인물 정보들을 수집하며, 최종적으로 등장하는 인물의 수와 그 등장인물의 정보를 예측한다.
In this step (S20) by analyzing the text data for the entire sentence supplied from the input unit 10 through the character information collection module 31 to obtain the character information that can be identified in the sentence, such as the character, age, occupation Collects and predicts the number of characters and the character information.

필요에 따라, 상기 제 1 단계(S10)와 제 2 단계(S20) 사이에는 텍스트 데이터를 구성하는 언어를 판단하는 단계(미도시)를 더 포함할 수 있다. If necessary, the method may further include determining a language constituting text data between the first step S10 and the second step S20 (not shown).

본 단계에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 언어 분석 판단부(20)를 통해 분석하여 텍스트 데이터를 구성하는 언어가 어떤 언어(한국어, 영어, 중국어 등)인지를 판단한다.
In this step, the text data for the entire sentence supplied from the input unit 10 is analyzed through the language analysis determining unit 20 to determine which language (Korean, English, Chinese, etc.) is the language constituting the text data.

다음으로, 상기 입력된 전체 문장을 분석하여 대화체를 예측하는 제 3 단계(S30)를 포함한다.Next, a third step (S30) for predicting the dialogue by analyzing the entire sentence entered.

본 단계(S30)에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 문체 분석 모듈(32)을 통해 분석하여 개별 문장에 대한 특정 기호들의 노출 빈도수에 대한 정보를 수집하고, 이를 통해 개별 문장이 대화체에 해당하는지, 아니면 낭독체에 해당하는지를 분석한다. 이때, 특정 기호들의 노출 빈도수에 따라 각 대화체 또는 낭독체에 가중치를 차별적으로 부여할 수도 있다. 즉, 특정 기호들이 문장에 하나 또는 둘 이상 존재하는 것으로 판단되면 상기 문장은 대화체에 해당하는 것으로 구분하며, 특정 기호 한 개가 존재하는 경우보다 두 개 이상 존재하는 경우에 높은 가중치를 부여한다.In this step (S30) to analyze the text data for the entire sentence supplied from the input unit 10 through the stylistic analysis module 32 to collect information on the frequency of exposure of the specific symbols for each sentence, through which the individual sentences Analyze whether this corresponds to a dialogue or a reading. In this case, weights may be individually assigned to each conversational or reading object according to the exposure frequency of specific symbols. That is, when it is determined that one or more specific symbols are present in a sentence, the sentences are classified as corresponding to the dialogue, and a higher weight is given when two or more specific symbols exist.

여기서, 상기 전체 문장에 대한 텍스트 데이터는 입력부(10)로부터 직접 공급될 수 있지만, 등장인물 정보 수집 모듈(31)을 거쳐 공급될 수도 있다.
Here, the text data for the entire sentence may be directly supplied from the input unit 10, but may also be supplied through the character information collecting module 31.

다음으로, 상기 대화체가 예측되면 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 제 4 단계(S40)를 포함한다.Next, when the conversation is predicted, a fourth step (S40) of analyzing the front and rear sentences of each conversation to collect supplemental data for determining the speaker information of the conversation.

본 단계(S40)에서는 문체 분석 모듈(32)로부터 대화체에 대한 정보가 공급되면, 앞뒤 문장정보 수집 모듈(34)을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집한다. 상기 보충자료는 음성을 합성할 때 화자의 매치 정확도에 영향을 미칠 수 있도록 가중치를 부여한다.
In this step (S40), when the information about the dialogue is supplied from the stylistic analysis module 32, through the front and rear sentence information collection module 34 analyzes the front and rear sentences of each dialogue to collect supplemental data of the speaker information judgment of the corresponding dialogue do. The supplemental data is weighted to affect the speaker's match accuracy when synthesizing the speech.

다음으로, 상기 대화체 분석을 통하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 제 5 단계(S50)를 포함한다.Next, a fifth step (S50) of extracting a dialogue characteristic through the dialogue analysis, analyzing the dialogue characteristic, the supplementary data, and the character to predict speaker information for each dialogue body is performed.

본 단계(S50)에서는 앞뒤 문장정보 수집 모듈(34)로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈(33)을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 등장인물 정보 수집 모듈(31)로부터 수집된 등장인물에 대한 정보를 분석하여 각 대화체에 대한 화자 정보를 예측한다.In the step (S50), when the information about the dialogue and the supplementary data are supplied from the sentence information collection module 34 before and after, the dialogue characteristics are extracted by analyzing the dialogue through the speaker characteristic analysis module 33, The information on the characters collected from the dialogue characteristics and the supplementary data and the character information collecting module 31 is analyzed to predict speaker information for each conversation body.

즉, 대화 특성의 기준으로 말투, 맺음말의 종류, 호칭사용 등을 분석하며, 등장인물 정보 수집 모듈(31)에서 예측된 등장인물에 대한 정보와 비교하여 일치성이 높은 등장인물에 가중치를 부여한다. 이와 같이, 텍스트 데이터가 등장인물 정보 수집 모듈(31)을 거친 후 발화자 특성 분석 모듈(33)을 거치는 과정을 통해, 각 대화체에 나타난 정보에 상기 대화체의 주변 정보를 부가함으로써, 대화체에 대한 화자 매치 정확도를 향상시킬 수 있게 된다.
That is, it analyzes the tone, the type of ending, the use of a name, etc. as a criterion of the dialogue characteristics, and weights the characters with high concordance in comparison with the information about the characters predicted in the character information collecting module 31. . As described above, the text data passes through the character information collecting module 31 and then goes through the speaker characteristic analysis module 33 to add the surrounding information of the dialogue to the information displayed in each dialogue, thereby matching the speaker to the dialogue. The accuracy can be improved.

다음으로, 각 대화체에 대한 화자 정보가 예측되면, 상기 화자 정보에 부합되는 음성을 지정된 성우 DB(100)로부터 추출하는 제 6 단계(S70)를 포함한다.Next, when the speaker information for each conversation is predicted, a sixth step S70 of extracting a voice corresponding to the speaker information from the designated voice actor DB 100 is performed.

본 단계(S70)에서는 상기 발화자 특성 분석 모듈(33)로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부(30)를 통해 상기 화자 정보에 적합한 음성을 지정하여 성우 DB(100)로부터 추출한다.
In the present step (S70), when the speaker information for each conversation body is supplied from the talker characteristic analysis module 33, the voice suitable for the speaker information is specified through the voice actor DB selection unit 30 and extracted from the voice actor DB 100. do.

본 발명은 상기 화자 정보를 예측하는 단계와 음성을 지정된 성우 DB(100)로부터 추출하는 단계 사이에 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측하는 단계(S65)가 포함될 수 있다. 이때, 본 단계(S65)는 상기 대화체의 앞뒤 문장 분석을 통해 연속되는 대화체가 수집되는 경우(S60)에만 동작한다.The present invention includes a step of comparing and analyzing the speaker information of each conversational body continuously between the step of predicting the speaker information and the step of extracting the voice from the designated voice actor DB 100 and re-predicting the speaker information (S65). Can be. At this time, the step (S65) operates only when the continuous dialogue is collected through the analysis of the front and rear sentences of the dialogue (S60).

본 단계(S65)에서는 발화자 특성 분석 모듈(33)로부터 각 대화체에 대한 화자 정보를 공급받고, 앞뒤 문장정보 수집 모듈(34)로부터 보충자료를 공급받아 연속 대화체 화자 예측 모듈(35)을 통해 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측한다.In this step (S65) receives the speaker information for each conversation from the speaker characteristic analysis module 33, and supplementary data from the front and rear sentence information collection module 34 received through the continuous dialog speaker prediction module 35 The speaker information of each conversational body is compared and analyzed to re-predict the speaker information.

본 단계(S65)에서 텍스트 데이터가 상기 연속 대화체 화자 예측 모듈(35)을 거칠 때에는 모든 문장의 가중치가 매겨져 있다. 연속하는 대화체 중 일정한 가중치에 미달되는 즉, 문장의 특성 정보가 낮은 연속 대화체의 경우, 앞뒤 문장정보 수집 모듈(34)을 통해 수집된 정보를 이용하여 최소의 발화자 수를 예측할 수 있다. 또한, 연속된 각 대화체의 화자 정보를 비교하고 분석하는 과정을 통해 상대적으로 가중치가 낮은 문장의 인물 매치 정확도를 높일 수 있게 된다.
When text data passes through the continuous dialog speaker prediction module 35 in this step S65, all sentences are weighted. In the case of a continuous dialogue having a certain weight among the continuous dialogues, that is, a sentence having low characteristic information, the minimum number of speakers can be predicted using the information collected through the sentence information collecting module 34. In addition, it is possible to increase the accuracy of the person match of the sentence having a relatively low weight through a process of comparing and analyzing the speaker information of each continuous dialogue.

다음으로, 각 대화체로부터 감정상태를 나타낼 수 있는 개별 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출하는 제 7 단계(S80)를 포함한다. Next, a key word of an individual sentence representing an emotional state is collected from each conversation body, an emotional state is analyzed using the key word, and the voice information corresponding to the emotional state is extracted from a designated emotion DB 200. It includes seven steps (S80).

본 단계(S80)에서는 성우 DB 선택부(40)로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부(50)를 통해 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출한다.
In the present step (S80), when the speaker information for each conversation body is supplied from the voice actor DB selector 40, the voice information corresponding to the emotional state is extracted from the designated emotion DB 200 through the emotional state analyzer 50; .

다음으로, 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보를 합성하여 음성으로 출력하는 제 8 단계(S90)를 포함한다.Next, an eighth step S90 of synthesizing the voice information extracted from the voice actor DB 100 and the emotion DB 200 and outputting the voice information.

본 단계(S90)에서는 감정상태 분석부(50)에 의해 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보가 공급되면, 음성합성부(60)를 통해 텍스트 데이터에 대한 합성음을 생성하고, 스피커 등을 통해 음성으로 출력한다.
In the step S90, when the voice information extracted from the voice actor DB 100 and the emotion DB 200 is supplied by the emotion state analyzer 50, the synthesized sound for the text data is generated through the voice synthesizer 60. The audio is output through a speaker or the like.

이와 같이, 상기 제 2 단계(S20) 내지 제 5 단계(S50)는 화자 정보 분석부(30)를 통해 문장의 발화자를 정확히 예측하는 단계이며, 상기 제 6 단계(S70)는 발화자에 알맞은 성우 DB(100)를 선택하는 단계이다. 그리고 제 7 단계(S80)는 음성을 합성하기 전 문장의 감정상태 분석하여 감정 상태와 일치하는 감정 DB(200)를 선택하는 단계이며, 제 8 단계(S90)는 입력된 문장에 대한 합성음을 생성하는 단계이다.
As such, the second step (S20) to the fifth step (S50) is a step of accurately predicting the speaker of the sentence through the speaker information analysis unit 30, the sixth step (S70) is a voice actor DB suitable for the speaker Selecting 100 is a step. The seventh step S80 is a step of selecting the emotion DB 200 corresponding to the emotional state by analyzing the emotional state of the sentence before synthesizing the voice, and the eighth step S90 generates a synthesis sound for the input sentence. It's a step.

한편, 상술한 본 발명의 실시 예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, DB 크기의 축소로 인해 임베디드 단말기에 적용이 가능하고, 이로 인해 텔레매틱스용 기기 및 휴대 기기에서 사용이 가능하며, 그 외 다양한 분야에서 적용이 가능하다.
Meanwhile, the above-described embodiments of the present invention can be written as a program that can be executed in a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable recording medium. In addition, due to the reduction of the DB size can be applied to the embedded terminal, it can be used in telematics devices and portable devices, it can be applied in various other fields.

이상에서 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
Although the above has been described with reference to the preferred embodiment of the present invention, those skilled in the art can variously modify and change the present invention without departing from the spirit and scope of the present invention described in the claims below. It will be appreciated.

10 : 입력부 20 : 언어 분석 판단부
30 : 화자 정보 분석부 31 : 등장인물 정보 수집 모듈
32 : 문체 분석 모듈 33 : 발화자 특성 분석 모듈
34 : 앞뒤 문장정보 수집 모듈 35 : 연속 대화체 화자 예측 모듈
40 : 성우 DB 선택부 50 : 감정상태 분석부
60 : 음성합성부
10: input unit 20: language analysis determination unit
30: speaker information analysis unit 31: character information collection module
32: stylistic analysis module 33: speaker characteristics analysis module
34: front and rear sentence information collection module 35: continuous dialogue speaker prediction module
40: voice actor DB selection unit 50: emotional state analysis unit
60: speech synthesis unit

Claims (10)

입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하고, 각 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 화자 정보 분석부;
상기 화자 정보 분석부로부터 공급된 화자 예측정보를 바탕으로 각 문장의 화자에 부합되는 음성정보를 지정된 성우 DB로부터 추출하는 성우 DB 선택부;
상기 성우 DB 선택부로부터 공급된 정보 중 각 대화체 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 감정상태 분석부; 및
상기 성우 DB 및 감정 DB로부터 추출된 음성정보를 합성하여 출력하는 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.
Collects information on the characters by analyzing the entire sentence input, predicts the dialogue from each sentence, based on the dialogue characteristics of the dialogue, the information on the front and back sentences of the dialogue, and the information on the characters. A speaker information analyzer for predicting speaker information;
A voice actor DB selection unit for extracting voice information corresponding to the speaker of each sentence from a specified voice actor DB based on speaker prediction information supplied from the speaker information analyzer;
From the information provided from the voice actor DB selection unit, the key word of the sentence that represents the emotional state is collected from each conversation information, the emotional state is analyzed through the key word, and the voice information corresponding to the emotional state is determined from the designated emotion DB. Emotional state analysis unit for extracting; And
Multilingual speech synthesis system using the front and rear sentence information including a speech synthesis unit for synthesizing and outputting the speech information extracted from the voice actor DB and the emotion DB.
제 1 항에 있어서,
입력된 전체 문장을 분석하여 상기 문장을 구성하는 언어를 분석하여 판단하는 언어 분석 판단부를 더 포함하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.
The method of claim 1,
The multilingual speech synthesis system using sentence information before and after the dialogue, characterized in that it further comprises a language analysis determination unit for analyzing the entire sentence to analyze the language constituting the sentence.
제 1 항에 있어서, 화자 정보 분석부는
입력된 전체 문장에 대화체가 연속으로 위치하면 문장 전체에 대한 화자의 수를 예측하고, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.
The method of claim 1, wherein the speaker information analysis unit
If the dialogues are continuously placed in the entire sentence, the dialogues are predicted, and the speaker information for each dialogue is compared and analyzed to re-predict the speaker information for each dialogue. Multilingual Speech Synthesis System Using Sentence Information.
제 1 항에 있어서, 화자 정보 분석부는
상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보로부터 화자 정보를 예측하고, 상기 화자 정보와 상기 등장인물에 대한 정보를 비교하여 일치성이 있는 화자 정보에 가중치를 부여하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.
The method of claim 1, wherein the speaker information analysis unit
The speaker information is predicted from the dialogue characteristics of the dialogue body and the information about the front and rear sentences of the dialogue body, and weights are assigned to the speaker information that is consistent by comparing the speaker information and the character information. Multilingual Speech Synthesis System Using Sentence Information.
제 1 항에 있어서, 화자 정보 분석부는
입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하는 등장인물 정보 수집 모듈;
상기 입력된 전체 문장으로부터 대화체를 예측하는 문체 분석 모듈;
상기 문체 분석 모듈로부터 대화체에 대한 정보를 공급받아 각 대화체의 앞뒤 문장을 대한 정보를 수집하는 앞뒤 문장정보 수집 모듈;
상기 앞뒤 문장정보 수집 모듈로부터 분석된 정보를 공급받아 화자 정보를 예측하고, 상기 화자 정보를 상기 등장인물 정보 수집 모듈로부터 공급된 등장인물 정보와 비교하여 일치성이 있는 화자 유형에 가중치를 부여하는 발화자 특성 분석 모듈; 및
상기 앞뒤 문장정보 수집 모듈로부터 공급된 정보를 통해 연속된 대화체가 수집되면 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측하는 연속 대화체 화자 예측 모듈로 이루어진 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.
The method of claim 1, wherein the speaker information analysis unit
Character information collection module for collecting information on the characters by analyzing the entire sentence input;
A stylistic analysis module for predicting a dialogue from the entire sentence;
Front and rear sentence information collection module for receiving information about the dialogue from the stylistic analysis module to collect information about the front and rear sentences of each dialogue;
A talker who receives the analyzed information from the front and rear sentence information collection module to predict speaker information, and compares the speaker information with the character information supplied from the character information collection module to give weight to the speaker type that is consistent. Characterization module; And
When continuous dialogues are collected through the information supplied from the front and rear sentence information collection module, the continuous dialogue speaker prediction module is configured to compare and analyze speaker information for each continuous dialogue to re-predict speaker information for each dialogue. Multilingual speech synthesis system using sentence information before and after the dialogue.
제 1 항에 있어서,
상기 성우 DB는 두 개 이상의 보이스 폰트를 저장하고 있는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.
The method of claim 1,
The voice actor DB is a multilingual speech synthesis system using sentence information before and after the dialogue, characterized in that it stores two or more voice fonts.
제 6 항에 있어서,
상기 성우 DB는 코퍼스 기반 TTS 시스템 또는 은닉 마코브 모델 기반 TTS 시스템 방식을 통해 구축된 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.
The method according to claim 6,
The voice actor DB is a multilingual speech synthesis system using sentence information before and after the dialogue body, characterized in that it is constructed through a corpus-based TTS system or a hidden Markov model-based TTS system.
(ⅰ) 등장인물 정보 수집 모듈을 통해 입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하는 단계;
(ⅱ) 문체 분석 모듈을 통해 입력된 전체 문장을 분석하여 대화체를 예측하는 단계;
(ⅲ) 상기 문체 분석 모듈로부터 상기 대화체에 대한 정보가 공급되면 앞뒤 문장정보 수집 모듈을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 단계;
(ⅳ) 상기 앞뒤 문장정보 수집 모듈로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 단계;
(ⅴ) 상기 발화자 특성 분석 모듈로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부를 통해 상기 화자 정보에 부합되는 음성을 지정된 성우 DB로부터 추출하는 단계;
(ⅵ) 상기 성우 DB 선택부로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부를 통해 각 대화체로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 단계; 및
(ⅶ) 상기 감정상태 분석부로부터 성우 DB 및 감정 DB로부터 추출된 음성정보가 공급되면, 음성합성부를 통해 합성하여 출력하는 단계를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.
(Iii) collecting information on the characters by analyzing the entire sentence input through the character information collecting module;
(Ii) predicting the dialogue by analyzing the entire sentence input through the stylistic analysis module;
(Iii) analyzing the front and rear sentences of each dialog through the front and rear sentence information collection module when information about the dialogue is supplied from the style analysis module and collecting supplementary data for determining the speaker information of the corresponding dialogue;
(Iii) When the information on the dialogue and the supplementary data are supplied from the front and rear sentence information collection module, the dialogue characteristics are extracted by analyzing the dialogue through the speaker characteristic analysis module, and the dialogue characteristics and the supplementary data and Analyzing the characters to predict speaker information for each conversation object;
(Iv) extracting a voice corresponding to the speaker information from a designated voice actor DB through the voice actor DB selection unit, when speaker information for each conversation object is supplied from the speaker characteristic analysis module;
(Iii) When the speaker information of each conversation is supplied from the voice actor DB selection unit, the keyword of the sentence representing the emotional state is collected from each dialogue through the emotional state analysis unit, and the emotional state is analyzed using the keyword. Extracting voice information corresponding to the emotional state from a specified emotion DB; And
(Iii) synthesizing and outputting the voice information extracted from the voice actor DB and the emotion DB from the emotion state analysis unit, and outputting the synthesized speech information through the voice synthesizer.
제 8 항에 있어서,
상기 대화체의 앞뒤 문장 분석을 통해 연속되는 대화체가 수집되면, (ⅳ) 단계와 (ⅴ) 단계 사이에 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측하는 단계가 더 포함되는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.
The method of claim 8,
If a continuous dialogue is collected through analysis of the front and rear sentences of the dialogue, the method further includes comparing and analyzing speaker information of each dialogue in succession between steps (iii) and (iii) to re-predict the speaker information. Multilingual speech synthesis method using sentence information before and after the dialogue.
제 8 항에 있어서, 상기 (ⅰ) 단계 이전에
입력부로부터 공급된 전체 문장에 대한 텍스트 데이터를 언어 분석 판단부를 통해 분석하여 상기 텍스트 데이터를 구성하는 언어를 판단하는 단계를 더 포함하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.


9. The method according to claim 8, wherein before step (iii)
And analyzing the text data of the entire sentence supplied from the input unit through a language analysis determination unit to determine a language constituting the text data.


KR1020100019167A 2010-03-03 2010-03-03 System and method for synthesizing voice of multi-language KR101097186B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100019167A KR101097186B1 (en) 2010-03-03 2010-03-03 System and method for synthesizing voice of multi-language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100019167A KR101097186B1 (en) 2010-03-03 2010-03-03 System and method for synthesizing voice of multi-language

Publications (2)

Publication Number Publication Date
KR20110100079A true KR20110100079A (en) 2011-09-09
KR101097186B1 KR101097186B1 (en) 2011-12-22

Family

ID=44952703

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100019167A KR101097186B1 (en) 2010-03-03 2010-03-03 System and method for synthesizing voice of multi-language

Country Status (1)

Country Link
KR (1) KR101097186B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180103273A (en) 2017-03-09 2018-09-19 에스케이텔레콤 주식회사 Voice synthetic apparatus and voice synthetic method
KR20190140558A (en) * 2018-06-12 2019-12-20 현대자동차주식회사 Dialogue system, Vehicle and method for controlling the vehicle
KR102408455B1 (en) * 2021-09-29 2022-06-14 주식회사 인피닉 Voice data synthesis method for speech recognition learning, and computer program recorded on record-medium for executing method therefor

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102221260B1 (en) * 2019-03-25 2021-03-02 한국과학기술원 Electronic apparatus for feature controllable voice imitating and operating method thereof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180103273A (en) 2017-03-09 2018-09-19 에스케이텔레콤 주식회사 Voice synthetic apparatus and voice synthetic method
KR20190140558A (en) * 2018-06-12 2019-12-20 현대자동차주식회사 Dialogue system, Vehicle and method for controlling the vehicle
KR102408455B1 (en) * 2021-09-29 2022-06-14 주식회사 인피닉 Voice data synthesis method for speech recognition learning, and computer program recorded on record-medium for executing method therefor

Also Published As

Publication number Publication date
KR101097186B1 (en) 2011-12-22

Similar Documents

Publication Publication Date Title
US7236922B2 (en) Speech recognition with feedback from natural language processing for adaptation of acoustic model
Batliner et al. The prosody module
EP2595143B1 (en) Text to speech synthesis for texts with foreign language inclusions
JP4056470B2 (en) Intonation generation method, speech synthesizer using the method, and voice server
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR20210103002A (en) Speech synthesis method and apparatus based on emotion information
EP1463031A1 (en) Front-end architecture for a multi-lingual text-to-speech system
JP2001101187A (en) Device and method for translation and recording medium
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
KR101097186B1 (en) System and method for synthesizing voice of multi-language
KR100669241B1 (en) System and method of synthesizing dialog-style speech using speech-act information
Alam et al. Bangla text to speech using festival
Kayte et al. A text-to-speech synthesis for Marathi language using festival and Festvox
JP2020060642A (en) Speech synthesis system and speech synthesizer
Ronzhin et al. Survey of russian speech recognition systems
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
KR100806287B1 (en) Method for predicting sentence-final intonation and Text-to-Speech System and method based on the same
Zine et al. Towards a high-quality lemma-based text to speech system for the arabic language
Chen et al. A Mandarin Text-to-Speech System
Sazhok et al. Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings.
Houidhek et al. Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic
JP2001117583A (en) Device and method for voice recognition, and recording medium
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
Lazaridis et al. Comparative evaluation of phone duration models for Greek emotional speech
Vafaie et al. 4 Speech Recognition for Persian

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141212

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181217

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20191216

Year of fee payment: 9