WO2019139428A1 - Multilingual text-to-speech synthesis method - Google Patents

Multilingual text-to-speech synthesis method Download PDF

Info

Publication number
WO2019139428A1
WO2019139428A1 PCT/KR2019/000509 KR2019000509W WO2019139428A1 WO 2019139428 A1 WO2019139428 A1 WO 2019139428A1 KR 2019000509 W KR2019000509 W KR 2019000509W WO 2019139428 A1 WO2019139428 A1 WO 2019139428A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
speech
text
data
learning
Prior art date
Application number
PCT/KR2019/000509
Other languages
French (fr)
Korean (ko)
Inventor
김태수
이영근
Original Assignee
네오사피엔스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네오사피엔스 주식회사 filed Critical 네오사피엔스 주식회사
Priority to JP2020538690A priority Critical patent/JP7142333B2/en
Priority to CN201980007944.2A priority patent/CN111566655B/en
Priority to EP19738599.0A priority patent/EP3739476A4/en
Priority claimed from KR1020190003979A external-priority patent/KR102199067B1/en
Publication of WO2019139428A1 publication Critical patent/WO2019139428A1/en
Priority to US16/682,390 priority patent/US11217224B2/en
Priority to US17/533,459 priority patent/US11769483B2/en
Priority to JP2022121111A priority patent/JP7500020B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • This disclosure relates to multilingual text-to-speech synthesis methods and systems.
  • the present invention also relates to a method and apparatus for synthesizing a text of a second language into a voice of a speaker based on a voice characteristic of the speaker using the first language.
  • Speech synthesis technology is a technique that is used in applications that require human voice, such as announcement, navigation, It is a technique used for reproducing voice.
  • a typical method of speech synthesis is concatenative TTS in which speech is synthesized by pre-cutting and storing speech in a very short unit such as a phoneme, combining phonemes constituting a sentence to be synthesized, And a parameter synthesis method (parametric TTS) for synthesizing parameters representing speech features constituting a sentence to be synthesized into a speech corresponding to a sentence using a vocoder.
  • TTS text-to-speech
  • the method and apparatus according to the present disclosure is capable of generating a multilingual TTS machine learning model end-to-end with only text input and output audio for multiple languages .
  • the method and apparatus according to the present disclosure may synthesize speech from text, reflecting speech characteristics, emotional characteristics, and rhyme characteristics of the speaker.
  • a multilingual text-to-speech synthesis method is a method for synthesizing a learning text of a first language and a learning speech of a first language corresponding to a learning text of a first language
  • Receiving second learning data including learning speech data of a second language corresponding to learning text of a second language and learning text of a second language
  • a multi-lingual text-to-speech synthesis method includes receiving a speech characteristic of a speaker for a first language, receiving input text of a second language, inputting text of a second language, And generating output speech data for an input text of a second language that simulates the speech of the speaker by inputting the speech characteristics of the speaker for one language into a single artificial neural network text-speech synthesis model.
  • a speaker's utterance characteristic for a first language of a multilingual text-to-speech synthesis method is generated by extracting a feature vector from speech data uttered by a speaker in a first language.
  • a multi-lingual text-to-speech synthesis method in accordance with an embodiment of the present disclosure includes receiving an emotion feature and inputting text in a second language, a speech feature and an emotion feature of a speaker for a first language, Generating an output speech data for an input text of a second language that is input to an artificial neural network text-speech synthesis model to simulate a speech of a speaker.
  • a method for multi-lingual text-to-speech synthesis in accordance with an embodiment of the present disclosure includes receiving a prosody feature and inputting a second language's input text, a speaker's vocal and rhyme characteristics for a first language, Generating an output speech data for an input text of a second language that is input to an artificial neural network text-speech synthesis model to simulate a speech of a speaker.
  • the prosodic feature of the multilingual text-to-speech synthesis method includes at least one of information on the speech speed, information on the pronunciation strength, information on the pitch height, and information on the idle duration.
  • a multi-lingual text-to-speech synthesis method includes receiving an input speech of a first language, extracting a feature vector from the input speech of the first language, Converting input speech of a first language into input text of a first language; converting input text of a first language into input text of a second language; And generating output speech data of a second language for an input text of a second language that simulates the speech of the speaker by inputting a speaker's utterance characteristic for the speech into a single artificial neural network text-speech synthesis model.
  • the multilingual text-to-speech synthesis method uses a Grapheme-to-phoneme (G2P) algorithm to convert a learning text of a first language and a learning text of a second language into a phoneme sequence Conversion.
  • G2P Grapheme-to-phoneme
  • the single artificial neural network text-to-speech synthesis model of the multilingual text-to-speech synthesis method is characterized in that a text-to-speech synthesis model of a single artificial neural network includes a phoneme of a first language and an input of similarity information .
  • the program for implementing the multi-language text-to-speech synthesis method as described above can be recorded on a computer-readable recording medium.
  • FIG. 1 is a diagram showing that a speech synthesizer synthesizes English speech using a single artificial neural network text-speech synthesis model learned for a plurality of languages.
  • FIG. 2 is a diagram showing that a speech synthesizer synthesizes a Korean speech using a single artificial neural network text-speech synthesis model learned for a plurality of languages.
  • FIG. 3 is a flow diagram illustrating a method for generating a single artificial neural network text-speech synthesis model in accordance with an embodiment of the present disclosure.
  • FIG. 4 is a diagram showing a machine learning unit according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram showing how speech synthesizer according to one embodiment of the present disclosure synthesizes output speech data based on speech characteristics of a speaker for a first language and input text of a second language.
  • FIG. 6 is a diagram showing that a speech synthesizer according to an embodiment of the present disclosure generates output speech data based on speech characteristics of a speaker for a first language, input text of a second language, and emotion characteristics.
  • FIG. 7 is a diagram illustrating that a speech synthesizer according to an embodiment of the present disclosure generates output speech data based on a speaker's speech feature for a first language, an input text of a second language, and a prosody feature .
  • FIG. 8 is a diagram showing a configuration of a speech translation system according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram showing a configuration of a rhyme translator according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating a configuration of a multi-language text-to-speech synthesizer according to an embodiment of the present disclosure.
  • Fig. 11 shows correspondence relationships between IPA (International Phonetic Alphabet) and KoG2P phonemes and phonemes having common pronunciation in English and Korean.
  • IPA International Phonetic Alphabet
  • 13 is a spectrogram showing the similarity between a voice generated in English phonemes and a voice generated in Korean phonemes.
  • CER 14 is a chart showing a character error rate (CER) according to time change of English data used for learning a TTS machine learning model.
  • 15 is a block diagram of a text-to-speech synthesis system in accordance with one embodiment of the present disclosure.
  • part used in the specification means software or hardware component, and "part " However, “part” is not meant to be limited to software or hardware. “Part” may be configured to reside on an addressable storage medium and may be configured to play back one or more processors.
  • part (s) refers to components such as software components, object oriented software components, class components and task components, and processes, Subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables.
  • the functions provided in the components and “parts " may be combined into a smaller number of components and” parts " or further separated into additional components and “parts ".
  • processor may be embodied in a processor and memory.
  • the term “processor” should be broadly interpreted to include a general purpose processor, a central processing unit (CPU), a microprocessor, a digital signal processor (DSP), a controller, a microcontroller, In some circumstances, a “processor” may refer to an application specific integrated circuit (ASIC), a programmable logic device (PLD), a field programmable gate array (FPGA)
  • ASIC application specific integrated circuit
  • PLD programmable logic device
  • FPGA field programmable gate array
  • processor refers to a combination of processing devices, such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in conjunction with a DSP core, It can also be called.
  • memory should be broadly interpreted to include any electronic component capable of storing electronic information.
  • the terminology memory may be any suitable memory such as random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), programmable read-only memory (PROM), erase- May refer to various types of processor-readable media such as erasable programmable read-only memory (PROM), flash memory, magnetic or optical data storage devices, registers, and the like.
  • RAM random access memory
  • ROM read-only memory
  • NVRAM non-volatile random access memory
  • PROM programmable read-only memory
  • erase- May to various types of processor-readable media such as erasable programmable read-only memory (PROM), flash memory, magnetic or optical data storage devices, registers, and the like.
  • the memory is said to be in electronic communication with the processor if the processor is able to read information from and / or write information to the memory.
  • the memory integrated in the processor is in electronic communication with the processor.
  • &quot first language " may refer to one of various languages used by various countries or people such as Korean, Japanese, Chinese, and English, and " It can refer to one of the languages used.
  • FIG. 1 is a diagram showing that speech synthesizer 110 synthesizes English speech using a single artificial neural network text-speech synthesis model learned for a plurality of languages.
  • a single artificial neural network text-speech synthesis model may be a combination of Korean and English data.
  • the speech synthesizer 110 can receive the English text and the utterance characteristic of the Korean speaker.
  • the English text may be "Hello? &Quot;
  • the utterance characteristic of the Korean speaker may be a feature vector extracted from the voice data uttered by the Korean speaker in Korean.
  • the speech synthesizer 110 inputs the received English text and the utterance characteristic of the Korean speaker into a single artificial neural network text-speech synthesis model to synthesize the speech of the Korean speaker and synthesizes the voice saying "Hello? &Quot; can do. That is, the voice output by the speech synthesizer 110 may be a voice in which the Korean speaker pronounces "Hello? &Quot; in English.
  • FIG. 2 is a diagram showing that the speech synthesizer 210 synthesizes a Korean speech using a single artificial neural network text-speech synthesis model learned for a plurality of languages.
  • a single artificial neural network text-speech synthesis model may be a combination of Korean and English data.
  • the speech synthesizer 210 may receive Korean text and utterance characteristics of an American speaker.
  • the Korean text may be "Hello? &Quot;
  • the utterance characteristic of the American speaker may be a feature vector extracted from the voice data uttered by the American speaker in English.
  • the speech synthesizer 210 inputs the received Korean text and utterance characteristics of the American speaker into a single artificial neural network text-speech synthesis model to synthesize the voice of the American speaker and synthesize the voice saying "Hello? &Quot; can do. That is, the voice output by the speech synthesizer 210 may be a voice that the American speaker pronounces "Hello? &Quot; in Korean.
  • a multilingual text-to-speech synthesis system includes first learning data including learning speech data of a first language and learning speech data of a first language corresponding to learning text of a first language, (Step 310).
  • the multi-lingual text-to-speech synthesis system may perform (320) receiving second learning data comprising learning text in a second language and learning speech data in a second language corresponding to learning text in a second language .
  • the multilingual text-to-speech synthesis system learns similarity information between the phonemes of the first language and the phonemes of the second language based on the first learning data and the second learning data, and generates a single artificial neural network text-to- -peech synthesis) model (step 330).
  • a method of generating a single artificial neural network text-speech synthesis model will be described in more detail with reference to FIG.
  • the machine learning unit 420 may correspond to the data learning unit 1510 in Fig.
  • the machine learning unit 420 can receive a pair of learning data 411 of a plurality of first languages.
  • the pair of learning data 411 of the first language may include learning text data of the first language and learning speech data of the first language corresponding to the learning text of the first language.
  • the learning text of the first language may include at least one letter and the machine learning unit 420 may convert the phoneme sequence into a phoneme sequence using a Grapheme-to-phoneme algorithm.
  • the learning speech data of the first language may be data on which human-read speech is recorded in the learning text of the first language, a sound feature or a spectrogram extracted from the recording data, and the like.
  • the first learning data may not include a language identifier or language information for the first language.
  • the machine learning unit 420 can receive a pair of learning data 412 of a plurality of second languages.
  • the pair of learning data 412 of the second language may include learning text data of the second language and learning speech data of the second language corresponding to the learning text of the second language.
  • the first language and the second language may be different languages.
  • the learning text of the second language may include at least one letter and the machine learning unit 420 may convert the phoneme sequence into a phoneme sequence using a Grapheme-to-phoneme algorithm.
  • the learning speech data of the second language may be data on which human-read speech is recorded in the learning text of the second language, a sound feature or a spectrogram extracted from the recording data, and the like.
  • the second learning data may not include the language identifier or the language information for the second language.
  • the machine learning unit 420 performs a machine learning based on the received pairs of learning data 411 of the first language and the pairs of learning data 412 of the plurality of second languages to generate a single artificial neural network text-
  • the speech synthesis model 430 can be generated.
  • the machine learning unit 420 learns similarity information between the phonemes of the first language and the phonemes of the second language, without prior knowledge of the first language and the second language, and generates a single artificial neural network text- Model 430 may be generated.
  • the machine learning unit 420 may include a language identifier for the first language, a language identifier for the second language, a phoneme in the first language, and similarity information for pronunciation between the phonemes in the second language, Based on a pair of learning data 411 of a plurality of first languages and a pair of learning data 412 of a plurality of second languages without receiving the similarity information on the representation between the phonemes of the second language and phonemes By learning similarity information between phonemes in one language and phonemes in a second language, a single artificial neural network text-speech synthesis model can be generated.
  • the language identifier may be an identifier indicating one of various languages used by various countries or people such as Korean, Japanese, Chinese, and English.
  • the similarity information on the pronunciation may be information in which phonemes having similar pronunciation are pronounced between the languages, and the similarity information on the notation may be information in which phonemes having similar notations between languages are associated. Similarity information is described in more detail with reference to FIGS. 11 and 12. FIG.
  • FIG. 4 shows the generation of a single artificial neural network text-speech synthesis model by receiving learning data for two languages.
  • the present invention is not limited to this, and it is also possible to receive learning data in three or more languages, A single artificial neural network text-speech synthesis model may be generated.
  • the text may be synthesized and output in voice using a single artificial neural network text-to-speech synthesis model 430 generated by the machine learning unit 420.
  • a method of synthesizing and outputting text by voice using a single artificial neural network text-speech synthesis model 430 will be described in more detail with reference to FIGS. 5 to 7.
  • FIG. 5 to 7 A method of synthesizing and outputting text by voice using a single artificial neural network text-speech synthesis model 430 will be described in more detail with reference to FIGS. 5 to 7.
  • FIG. 5 illustrates an exemplary embodiment of a speech synthesizer 520 according to an embodiment of the present disclosure that synthesizes output speech data 530 based on a speaker's speech feature 511 for a first language and input text 512 in a second language.
  • the speech synthesizer 520 may correspond to the data recognition unit 1520 of FIG.
  • the speech synthesizer 520 may be used to receive the single artificial neural network text-speech synthesis model generated by the machine learning unit 420 of FIG. 4 and to synthesize the output speech data. As shown, the speech synthesizer 520 may receive the speech feature 511 of the speaker for the first language and the input text 512 of the second language.
  • the speaker's utterance characteristic 511 for the first language can be generated by extracting a feature vector from speech data uttered by the speaker in the first language.
  • a speaker's utterance characteristic may include the tone or height of the speaker.
  • the input text 512 of the second language may include at least one letter in a second language.
  • the speech synthesizer 520 can generate the output speech data 530 by inputting the speaker's utterance characteristic 511 for the first language and the input text 512 of the second language into a single artificial neural network text- have.
  • the output speech data 530 may be speech data obtained by synthesizing the input text 512 of the second language by speech, and may reflect the speech characteristics 511 of the speaker for the first language.
  • the output speech data 530 is obtained by synthesizing the speech of the speaker on the basis of the speaker's utterance characteristic 511 with respect to the first language, so that the speaker is synthesized with the speech of the input text 512 of the second language Lt; / RTI >
  • the output speech data 530 may be output to a speaker or the like.
  • Figure 6 illustrates a speech synthesizer 620 according to one embodiment of the present disclosure that generates an output speech 611 based on a speaker's speech feature 611, a second language's input text 612, and an emotion feature 613 for a first language.
  • the speech synthesizer 620 may correspond to the data recognition unit 1520 of FIG.
  • the speech synthesizer 620 may receive the single artificial neural network text-speech synthesis model generated by the machine learning unit 420 of FIG. 4 and use it to synthesize the output speech data 630.
  • the speech synthesizer 620 may receive the speech features 611 of the speaker for the first language, the input text 612 of the second language, and the emotion feature 613.
  • the speaker's utterance characteristic for the first language and the input text of the second language have been described with reference to FIG. 5, and a duplicate description will be omitted.
  • emotion feature 613 may represent at least one of joy, sadness, anger, fear, trust, disgust, surprise, expectation.
  • emotion feature 613 may be generated by extracting feature vectors from speech data.
  • the speech synthesizer 620 inputs the speech characteristic 611 of the speaker for the first language, the input text 612 of the second language and the emotion characteristic 613 to the single artificial neural network text-speech synthesis model, 630 < / RTI >
  • the output speech data 630 may be speech data obtained by synthesizing the input text 612 of the second language by voice and may include the speech characteristic 611 and the emotion characteristic 613 of the speaker for the first language have. That is, the output speech data 630 simulates the voice of the speaker based on the speaker's utterance characteristic 611 for the first language, and reflects the emotion characteristic 613 to determine the emotion characteristic 613 ) To the input text 612 of the second language. For example, if the emotion feature 613 represents anger, the speech synthesizer 620 may generate output speech data 630 that speaks as if the speaker is raging the input text 612 of the second language. In one embodiment, the output speech data 630 may be output to a speaker or the like.
  • FIG. 7 illustrates a speech synthesizer 720 according to one embodiment of the present disclosure that is based on a speaker's speech feature 711 for a first language, an input text 712 for a second language, and a prosody feature 713 And generates output audio data 730.
  • FIG. The speech synthesizer 720 may correspond to the data recognition unit 1520 of FIG.
  • the speech synthesizer 720 can be used to receive the single artificial neural network text-speech synthesis model generated by the machine learning unit 420 of FIG. 4 and synthesize the output speech data 730.
  • the speech synthesizer 720 may receive the speech features 711 of the speaker, the input text 712 of the second language, and the rhyme feature 713 for the first language.
  • the speaker's utterance characteristic for the first language and the input text of the second language have been described with reference to FIG. 5, and a duplicate description will be omitted.
  • the prosodic feature 713 may include at least one of information on the speech rate, information on the pronunciation strength, information on the pitch height, and information on the dormant period (e.g., information on break-reading).
  • the rhyme feature 713 may be generated by extracting feature vectors from speech data.
  • the speech synthesizer 720 inputs the speech characteristics 711 of the first language, the input text 712 of the second language and the prosodic feature 713 for the first language into a single artificial neural network text-speech synthesis model, 730).
  • the output speech data 730 may be speech data obtained by synthesizing the input text 712 of the second language by voice, and the speech characteristic 711 and the prosodic characteristic 713 may be reflected. That is, the output speech data 730 simulates the speech of the speaker on the basis of the speech characteristic 711 of the speaker for the first language and reflects the prosodic characteristic 713 so that the prosodic characteristic 713 And the second language input text 712 with the second language.
  • the speech synthesizer 720 may determine that the speaker has entered the input text 712 of the second language in terms of the speech rate, the pronunciation strength, the pitch height, the pause interval
  • the output audio data 730 can be generated.
  • a speech synthesizer may be configured by inputting at least one of a speaker's utterance characteristic, emotion characteristic, and prosodic characteristic of the first language together with the input text of the second language.
  • the speech translation system 800 includes a speech recognizer 810, a machine translator 820, a speech synthesizer 830, a vocal feature extractor 840, an emotion feature extractor 850, a prosody feature extractor 860, translation 870).
  • the speech synthesizer 830 may correspond to the data recognition unit 1520 of FIG.
  • the voice translation system 800 may receive the input voice of the first language.
  • the input speech of the first language may be transmitted to the speech recognizer 810, the vocal feature extractor 840, the emotion feature extractor 850, and the prosodic feature extractor 860.
  • the speech recognizer 810 may receive the input speech of the first language and convert it into input text of the first language.
  • the machine translator 820 included in the speech translation system 800 may convert the input text of the first language into input text of the second language and translate the input text to the speech synthesizer 830.
  • the utterance feature extractor 840 may extract a feature vector from the input speech of the first language and generate a utterance characteristic of the speaker that uttered the input speech of the first language.
  • the speech synthesizer 830 inputs the input text of the second language and the speech characteristics of the speaker for the first language into a single artificial neural network text-speech synthesis model to generate a speech corresponding to the input text of the second language
  • the output speech data of the second language can be generated.
  • the output speech of the second language may be a voice synthesized by reflecting the utterance characteristic of the speaker who uttered the input speech of the first language.
  • the emotion feature extractor 850 may extract the emotion feature from the input speech of the first language and deliver it to the speech synthesizer 830.
  • the speech synthesizer 830 inputs the input text of the second language, the speech characteristics and emotion characteristics of the speaker for the first language into a single artificial neural network text-speech synthesis model to simulate the speech of the speaker,
  • the output speech data of the second language corresponding to the input text of the second language in which the emotion characteristic of the voice is reflected can be generated.
  • the output speech of the second language may be a voice synthesized by reflecting the utterance characteristic and the emotion characteristic of the speaker uttering the input speech of the first language.
  • Prosodic feature extractor 860 may extract the prosodic feature from the input speech of the first language.
  • the prosodic feature extractor 860 may transfer the extracted prosodic features to the prosodic translator 870 to translate the prosodic features for the first language into the prosodic features for the second language. That is, the rhyme translator 870 can generate information to reflect the rhyme characteristics extracted from the input speech of the first language to the output speech of the second language.
  • the speech synthesizer 830 inputs the input text of the second language, the speech characteristics of the speaker for the first language and the translated rhyme characteristics into a single artificial neural network text-speech synthesis model to simulate the speech of the speaker,
  • the output speech data of the second language corresponding to the input text of the second language in which the prosodic characteristic of the input speech of the second language is reflected.
  • the output speech of the second language may be a voice synthesized by reflecting the utterance characteristic and the prosodic characteristic of the speaker uttering the input speech of the first language.
  • features such as the speaking speed of the input speech of the first language, intermittent reading, and emphasis may be applied to the output speech of the second language.
  • the rhyme translator 870 may generate information for emphasizing the word of the second language corresponding to the highlighted word of the first language .
  • the speech synthesizer 830 can generate speech by emphasizing words of a second language corresponding to words emphasized in the first language, based on the information received from the rhyme translator 870.
  • the speech synthesizer 830 inputs the input text of the second language, the speech characteristics of the speaker for the first language, the emotion characteristics and the translated rhyme characteristics into a single artificial neural network text-speech synthesis model,
  • the output speech data of the second language corresponding to the input text of the second language in which the emotion characteristic and the rhythm characteristic of the input speech of the first language are reflected can be generated.
  • the output speech of the second language may be a voice synthesized by reflecting the utterance characteristic, the emotion characteristic, and the prosodic characteristic of the speaker uttering the input speech of the first language.
  • the voice of the speaker can be simulated and output voice of the second language can be reproduced in a similar voice by extracting the characteristics of the speaker from the input voice of the first language and synthesizing the translated voice. Can be generated. Further, when the emotion characteristic of the speaker is extracted from the input speech of the first language, the output speech of the second language can be generated more naturally by simulating the emotion for the utterance of the speaker. In addition, when the prosody characteristics of the speaker are extracted from the input speech of the first language, a more natural output speech of the second language can be generated by simulating the prosody of the speaker.
  • FIG. 8 shows that speech is synthesized by extracting all the vocal characteristics, emotional characteristics, and prosodic features from the input speech of the first language, but the present invention is not limited thereto.
  • at least one of a vocal feature, an emotion feature, and a rhyme feature may be extracted from the input speech of the other speaker.
  • the emotion feature and the rhyme feature may be extracted from the input speech of the first language, while the speech feature may be extracted from other input speech (e.g., the celebrity speech) to synthesize the speech.
  • the synthesized voice reflects the emotion and the rhyme of the speaker who uttered the input voice of the first language, but the voice of the speaker (e.g., the famous person) who uttered another input voice may be reflected.
  • the rhyme translator 870 may include a prosody encoder 910, attention 920, and a prosody decoder 930.
  • the prosodic encoder 910 may receive the prosodic feature of the first language extracted from the input speech of the first language (source language) by the prosodic feature extractor.
  • the received first rhyme feature is converted to a rhyme feature of the second language (the language to be translated) via the rhyme encoder 910, the attention 920, and the rhyme decoder 930.
  • the rhyme translator 870 can transform the rhyme characteristics of the original language into the rhyme features of the language to be translated by learning using a sequence-to-sequence model (seq2seq) . That is, the sequence-to-sequence learning model is applied to an encoder-decoder architecture based on a recurrent neural network (RNN) (see “Sequence to Sequence Learning with Neural Networks," Ilya Sutskever, et al.
  • RNN recurrent neural network
  • FIG. 10 is a diagram illustrating a configuration of a multi-lingual text-to-speech synthesizer 1000 according to an embodiment of the present disclosure.
  • the multilingual text-to-speech synthesizer 1000 may include an encoder 1010, a decoder 1020, and a vocoder 1030.
  • the encoder 1010 may receive the input text.
  • the input text may be in a plurality of languages, and may not include information on language identifiers or languages.
  • the input text may be "Hello” or "How are you?" And the like.
  • the encoder 1010 can separate the received input text into alphabet, letter, and phoneme units. Or the encoder 1010 may receive input text separated in alphabet, character, and phoneme units.
  • the encoder 1010 may include at least one embedded layer (e.g., EL language 1, EL language 2, ..., EL language N). At least one embedded layer of the encoder 1010 may convert each of the input texts separated by alphabet, letter, and phoneme into a text embedding vector. The encoder 1010 may use a previously learned machine learning model to transform the discrete input text into a text embedding vector. The encoder can update the machine learning model while performing machine learning. When the machine learning model is updated, the text embedding vector for the discrete input text can also be changed.
  • EL language 1 e.g., EL language 1, EL language 2, ..., EL language N
  • At least one embedded layer of the encoder 1010 may convert each of the input texts separated by alphabet, letter, and phoneme into a text embedding vector.
  • the encoder 1010 may use a previously learned machine learning model to transform the discrete input text into a text embedding vector.
  • the encoder can update the machine learning model while performing machine learning. When the
  • the encoder 1010 may input the text embedding vector to a Deep Neural Network (DNN) module configured as a fully-connected layer.
  • DNN Deep Neural Network
  • the DNN may be a general feedforward layer or a linear layer.
  • the encoder 1010 may input the output of the DNN to a module including at least one of a convolutional neural network (CNN) and a recurrent neural network (RNN).
  • a module including at least one of CNN and RNN can receive the output (s) of the embedding layer of the decoder 1020 along with the DNN output.
  • CNN can capture local characteristics according to the size of the convolution kernel, and the RNN can capture long term dependency.
  • a module containing at least one of CNN and RNN may output the hidden states (h) of the encoder 1010 as an output.
  • the embedding layer of the decoder 1020 may perform an operation similar to the embedding layer of the encoder 1010.
  • the embedding layer may receive the speaker ID.
  • the speaker ID may be a one-hot vector.
  • the speaker ID of "Trump” may be designated as "1,” the speaker ID of "MoonJin” may be designated as "2,” and the speaker ID of "Obama” may be designated as "3".
  • the embedding layer of decoder 1020 may convert the speaker ID into a speaker embedding vector s. Decoder 1020 may use the already learned machine learning model to transform the speaker ID into the speaker embedding vector s. Decoder 1020 may update the machine learning model while performing machine learning. If the machine learning model is updated, the speaker embedding vector s for the speaker ID can also be changed.
  • the Attention of the decoder 1020 can receive the hidden states h of the encoder from the encoder 1010. Also, the attentions of the decoder 1020 may receive information from the Attention RNN. The information received from the Attention RNN may be information on which speech the decoder 1020 has generated until the previous time-step. The decoder 1020 can also output the context vector C t based on the information received from the Attention RNN and the hidden states h of the encoder. The hidden states (h) of the encoder may be information about the input text to which the speech should be generated.
  • the context vector Ct may be information for determining from which part of the input text the speech will be generated at the current time-step.
  • the attentions of the decoder 1020 may generate information based on the beginning of the text input at the beginning of speech generation, and generate information based on the later part of the text input as the speech is generated Can be output.
  • the decoder 1020 inputs the speaker embedding vector s to a module including at least one of the Attention RNN, the Decoder RNN, and the CNN and RNN of the Encoder 1010, Can be constructed.
  • the RNN of the decoder 1020 may be configured in an autoregressive manner. That is, the output of the r frames output at the previous time-step can be used as an input to this time step. Since there is no previous time step in the initial time step 1022, dummy frames may be input to the DNN.
  • the decoder 1022 may include a DNN configured as a fully-connected layer.
  • the DNN may be a general feedforward layer or a linear layer.
  • the decoder 1022 may include an Attention RNN configured as a GRU.
  • Attention RNN is a layer that outputs information to be used in Attention. Attention is described above, so a detailed description is omitted.
  • Decoder 1020 may include a decoder RNN configured with a residual GRU.
  • the decoder RNN may receive location information of the input text from the Attention. That is, the location information may be information on which position of the input text the decoder 1020 is converting to speech.
  • the decoder RNN may receive information from the Attention RNN.
  • the information received from the Attention RNN may be information on which voice the decoder has generated up to the previous time-step and information about the voice to be generated in this time-step.
  • the decoder RNN can generate the next output speech that will follow the speech generated so far.
  • the output speech may have a mel-spectrogram shape and may consist of r frames.
  • the operation of the DNN, the Attention RNN and the Decoder RNN may be repeatedly performed for text-to-speech synthesis.
  • the r frames obtained in the initial time step 1022 may be the inputs of the next time step 1024.
  • the r frames output in the time-step 1024 may be the inputs of the next time-step 1026.
  • the text-to-speech synthesis system can concatenate mel-spectrograms at each time step in chronological order to obtain a mel-spectrogram for the entire text.
  • the mel-spectrogram for the entire text generated at the decoder 1020 may be output to the first vocoder 1030 or the second vocoder 1040.
  • the first vocoder 1030 may include a module including at least one of CNN and RNN and a Griffin-Lim reconstruction module.
  • a module including at least one of CNN and RNN of the first vocoder 1030 may perform an operation similar to a module including at least one of CNN and RNN of the encoder 1010. [ That is, the module including at least one of CNN and RNN of the first vocoder 1030 can capture the regional characteristics and long-term dependency, and can output a linear-scale spectrogram.
  • the first vocoder 1030 may apply a Griffin-Lim algorithm to the linear-scale spectrogram to output a speech signal corresponding to the input text, with a voice corresponding to the speaker ID.
  • the second vocoder 1040 may obtain a speech signal from the mel spectrogram based on a machine learning model.
  • the machine learning model may have learned a network that predicts speech signals from mel-spectrograms.
  • a machine learning model can be a model such as WaveNet or WaveGlow.
  • the second vocoder 1040 may be used in place of the first vocoder 1030.
  • the artificial neural network-based multi-language text-to-speech synthesizer 1000 is learned by using a large-capacity database existing as a pair of learning texts of a multi-language language and corresponding learning speech signals.
  • the multi-lingual text-to-speech synthesizer 1000 can receive the training text and compare the output speech signal with the training speech signal to define a loss function.
  • the speech synthesizer learns the loss function through the error back propagation algorithm and finally obtains the artificial neural network with the desired speech output when arbitrary text is input.
  • the multi-lingual text-to-speech synthesizer 1000 can synthesize a voice simulating a voice of a specific speaker using a single artificial neural network text-speech synthesis model generated by the above method.
  • the multi-language text-to-speech synthesizer 1000 can synthesize voices of a speaker in a language different from the native language of a specific speaker by synthesizing voices of the speaker. That is, the multilingual text-to-speech synthesizer 1000 can synthesize a speech in which a speaker who speaks a first language speaks a second language. For example, a voice can be synthesized as if a trump is spoken in Korean in the input Korean text.
  • Fig. 11 shows correspondence relationships between IPA (International Phonetic Alphabet) and KoG2P phonemes and phonemes having common pronunciation in English and Korean. Pronunciation of different languages can be described by the International Phonetic Alphabet (IPA), an alphabetic system. IPA for pronunciation of different languages can be used as similarity information.
  • the conversion tables of IPA-CMUdict and IPA-KoG2P are shown in Table 1110.
  • IPA International Phonetic Alphabet
  • Table 1110 shows a one-to-one correspondence between the first language phoneme and the second language phoneme, but a subset including phonemes having a common pronunciation of the first language and the second language can be selected. For example, a subset of phonemes with a common pronunciation of English and Korean is shown in Table 1120.
  • the first language and the second language may have different character systems, and may have different pronunciation systems.
  • IPA which is the same alphabetic system
  • the speech synthesis model can be obtained through standardized processing for each language. IPA, however, does not completely represent the similarity of pronunciation or notation of different languages, although each language is represented by the same alphabetic system.
  • the IPA alphabet used in the first language may not be used at all in the second language. Since the speech synthesis model can not know which IPA alphabet in the second language will correspond to the IPA alphabet used in the first language, only the speech synthesis model specific to each language can be obtained when IPA is used.
  • the speech synthesis model for the first language can only process data associated with the first language and can not process data associated with the second language.
  • the speech synthesis model for the second language can only process data associated with the second language and can not process data associated with the first language.
  • the text-to-speech synthesis system can calculate the cosine distance between phonemes for anchor phonemes of languages based on a machine learning model.
  • the phoneme embedding vectors obtained based on the machine learning model can be used to calculate the cosine distance.
  • the cosine distance between phonemes can indicate the similarity between phonemes.
  • the phonemic embedding of the five closest English words for Korean phonemes based on the calculated cosine distance between phonemes is shown in Table 1210.
  • the numbers 0, 1 and 2 after the English phoneme embedding represent "no stress", "primary stress” and "secondary stress", respectively. While CMUdict distinguishes emphasized pronunciations, IPA may not distinguish emphasized pronunciations.
  • the symbols in parentheses are the IPA symbols.
  • the five closest phonemic embedding for an anchor phoneme based on the machine learning model according to one embodiment of the present disclosure is similar to table 1120 of FIG. That is, the machine learning model according to an embodiment of the present disclosure may include similarity information on pronunciation between phonemes of a first language and phonemes of a first language, similarity information on notation, language identifier / language information for a first language, Even if the language identifier / language information for the second language is not input at the time of learning, it can be confirmed that similar pronunciation or notation of the language is automatically learned.
  • the text-to-speech synthesis system can perform text-to-speech synthesis (TTS) on a plurality of languages learned based on a single artificial neural network text-speech synthesis model.
  • TTS text-to-speech synthesis
  • the spectrogram 13 is a spectrogram showing the similarity between a voice generated in English phonemes and a voice generated in Korean phonemes.
  • the spectrogram 1310 contains the sentences "He has many good friends" in English phoneme sequences HH, IY1, HH, AE1, Z, M, EH1, N, IY0, G, UH1, D, R, EH1, N, D, Z).
  • the spectrogram 1320 generates the Korean phoneme sequences h0, wi, h0, ya, s0, mf, ye, nf, ii, and hn, which are generated by replacing each phoneme in the English phoneme sequence of the same sentence with the closest Korean phoneme. kk, yo, tt, ph, ks, ye, nf, tt, s0).
  • the comparison between the spectrogram 1310 and the spectrogram 1320 shows that the result of synthesizing the voice with the English phoneme sequence is similar to the result of synthesizing the voice with the Korean phoneme sequence.
  • high-quality speech synthesis results can be obtained even if speech of the second language is synthesized by using phonemes of the first language. That is, even if the text of the second language is synthesized by voice using the utterance characteristic of the speaker uttered in the first language, the result that the corresponding speaker of the first language is the utterance in the second language can be obtained.
  • the table 1410 shows the character error rate (CER) according to the time change of the English data used for learning the TTS machine learning model.
  • CER character error rate
  • the table 1410 shows the error rate in which the person who listened to the voice output synthesized from the text to characterize the voice synthesis quality records the characters and compares the result with the original text.
  • the CER does not greatly differ even if the time of the English learning data used increases .
  • the amount of data in Korean used in machine learning is larger than the amount of data in English, so that the CER can be already reduced to a critical level. It can be confirmed that the CER can be sufficiently reduced when the text-to-speech synthesis system performs the machine learning using data exceeding a critical amount.
  • the TTS machine learning model is learned using a large amount of Korean learning data and a small amount of English learning data, it can be confirmed that the result of synthesizing the English text with speech is produced with relatively high quality.
  • the present disclosure it is possible to create a multilingual TTS machine learning model end-to-end with only text input and output audio for multiple languages.
  • different languages need a notation that can be commonly used in various languages such as IPA in order to express a linguistic feature set, or a dictionary information about the similarity between languages is needed did.
  • linguistic features are not required, so that each language may use a different alphabet and does not require prior knowledge of similarity between languages.
  • this disclosure teaches the model end-to-end so that it is not necessary to predict the features needed in the existing TTS, such as phoneme duration, using a separate model, (TTS) task with a neural network model.
  • TTS separate model,
  • the present disclosure in the process of extracting the text encoding from the text encoder, it is possible to control the Korean / English speech according to whether the speaker ID is used. For example, if the pronunciation of the second language is strong when generating the voice of the first language, a penalty may be given to the learning. According to the machine learning model to which the penalty is applied, speech can be generated more closely to the pronunciation of the first language.
  • the text-to-speech synthesis system 1500 may include a data learning unit 1510 and a data recognition unit 1520.
  • the data learning unit 1510 can input data and acquire a machine learning model.
  • the data recognition unit 1520 can also apply the data to the machine learning model to generate output speech.
  • the text-to-speech synthesis system 1500 as described above may include a processor and a memory.
  • the data learning unit 1510 can learn the voice of the text.
  • the data learning unit 1510 can learn a criterion as to which voice to output according to the text.
  • the data learning unit 1510 can learn a criterion as to which voice feature should be used to output the voice.
  • the feature of the speech may include at least one of pronunciation of the phoneme, tone of the user, accentuation, or accentuation.
  • the data learning unit 1510 acquires data to be used for learning, and applies the obtained data to a data learning model, which will be described later, so as to learn speech based on the text.
  • the data recognition unit 1520 can output a voice for the text based on the text.
  • the data recognition unit 1520 can output speech from a predetermined text using the learned data learning model.
  • the data recognition unit 1520 can acquire predetermined text (data) according to a preset reference by learning.
  • the data recognition unit 1520 can output a voice based on predetermined data by using the acquired data as an input value and using the data learning model. Further, the resultant value output by the data learning model with the obtained data as an input value can be used to update the data learning model.
  • At least one of the data learning unit 1510 or the data recognition unit 1520 may be manufactured in at least one hardware chip form and mounted on the electronic device.
  • at least one of the data learning unit 1510 and the data recognition unit 1520 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or may be a conventional general-purpose processor Or an application processor) or a graphics processor (e.g., a GPU), and may be mounted on various electronic devices already described.
  • AI artificial intelligence
  • a graphics processor e.g., a GPU
  • the data learning unit 1510 and the data recognition unit 1520 may be mounted on separate electronic devices, respectively.
  • one of the data learning unit 1510 and the data recognizing unit 1520 may be included in the electronic device, and the other one may be included in the server.
  • the data learning unit 1510 and the data recognizing unit 1520 may provide the model information constructed by the data learning unit 1510 to the data recognizing unit 1520 through the wired or wireless communication, 1520 may be provided to the data learning unit 1510 as additional learning data.
  • At least one of the data learning unit 1510 and the data recognition unit 1520 may be implemented as a software module.
  • the software module may be a memory or a computer readable non- And may be stored in non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS operating system
  • OS operating system
  • the data learning unit 1510 includes a data acquisition unit 1511, a preprocessing unit 1512, a learning data selection unit 1513, a model learning unit 1514, and a model evaluation unit 1515 .
  • the data acquisition unit 1511 can acquire data necessary for machine learning. Since a lot of data is required for learning, the data acquisition unit 1511 can receive a plurality of texts and corresponding sounds.
  • the preprocessing unit 1512 can pre-process the acquired data so that the acquired data can be used for machine learning to determine the psychological state of the user.
  • the preprocessing unit 1512 can process the acquired data into a predetermined format so that it can be used by the model learning unit 1514 to be described later.
  • the preprocessor 1512 may morpheme text and speech to obtain morpheme embedding.
  • the learning data selection unit 1513 can select data necessary for learning from the preprocessed data.
  • the selected data may be provided to the model learning unit 1514.
  • the learning data selection unit 1513 can select data required for learning from among the preprocessed data according to a preset reference.
  • the learning data selection unit 1513 can also select data according to a predetermined reference by learning by the model learning unit 1514, which will be described later.
  • the model learning unit 1514 can learn a criterion as to which speech to output according to the text based on the learning data.
  • the model learning unit 1514 can use a learning model for outputting speech according to text as learning data.
  • the data learning model may include a pre-built model.
  • the data learning model may include a pre-built model that receives basic learning data (e.g., a sample image, etc.).
  • the data learning model can be constructed considering the application field of the learning model, the purpose of learning, or the computer performance of the device.
  • the data learning model may include, for example, a model based on a neural network.
  • models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), Bidirectional Recurrent Deep Neural Network (BRDNN), and Convolutional Neural Networks But is not limited thereto.
  • the model learning unit 1514 can determine a data learning model to learn a data learning model having a great relation between the input learning data and the basic learning data, if there are a plurality of data learning models that are built in advance have.
  • the basic learning data may be pre-classified according to the type of data, and the data learning model may be pre-built for each data type.
  • the basic learning data may be pre-classified by various criteria such as an area where the learning data is generated, a time at which the learning data is generated, a size of the learning data, a genre of the learning data, a creator of the learning data, .
  • model learning unit 1514 can learn a data learning model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
  • the model learning unit 1514 can learn a data learning model through supervised learning using, for example, learning data as an input value.
  • the model learning unit 1514 learns, for example, the type of data necessary for the situation determination without any further guidance, thereby to perform data learning (e.g., learning) through unsupervised learning
  • the model can be learned.
  • the model learning unit 1514 can learn the data learning model through reinforcement learning using, for example, feedback as to whether the result of the situation judgment based on learning is correct.
  • the model learning unit 1514 can store the learned data learning model.
  • the model learning unit 1514 can store the learned data learning model in the memory of the electronic device including the data recognition unit 1520.
  • the model learning unit 1514 may store the learned data learning model in the memory of the server connected to the electronic device and the wired or wireless network.
  • the memory in which the learned data learning model is stored may also store instructions or data associated with, for example, at least one other component of the electronic device.
  • the memory may also store software and / or programs.
  • the program may include, for example, a kernel, a middleware, an application programming interface (API), and / or an application program (or "application").
  • the model evaluation unit 1515 inputs the evaluation data to the data learning model, and if the result output from the evaluation data does not satisfy the predetermined criterion, the model evaluation unit 1515 can cause the model learning unit 1514 to learn again.
  • the evaluation data may include predetermined data for evaluating the data learning model.
  • the model evaluation unit 1515 when the number or ratio of evaluation data whose recognition result is not correct is greater than a predetermined threshold value among the results of the learned data learning model for evaluation data, the model evaluation unit 1515 .
  • a predetermined criterion is defined as a ratio of 2%, and the learned data learning model outputs an incorrect recognition result for evaluation data exceeding 20 out of a total of 1,000 evaluation data, Can be assessed as inappropriate.
  • the model evaluating unit 1515 evaluates whether each of the learned moving learning models satisfies a predetermined criterion, and uses a model satisfying a predetermined criterion as a final data learning model You can decide. In this case, when there are a plurality of models satisfying the predetermined criterion, the model evaluation unit 1515 can determine any one or a predetermined number of models previously set in descending order of the evaluation score, using the final data learning model.
  • At least one of the data acquiring unit 1511, the preprocessing unit 1512, the learning data selecting unit 1513, the model learning unit 1514, or the model evaluating unit 1515 in the data learning unit 1510 includes at least one And can be mounted on an electronic device.
  • at least one of the data acquisition unit 1511, the preprocessor 1512, the learning data selection unit 1513, the model learning unit 1514, or the model evaluation unit 1515 may be an artificial intelligence (AI) Or may be implemented as part of a conventional general-purpose processor (e.g., a CPU or an application processor) or a graphics-only processor (e.g., a GPU) and mounted on the various electronic devices described above.
  • AI artificial intelligence
  • a conventional general-purpose processor e.g., a CPU or an application processor
  • a graphics-only processor e.g., a GPU
  • the data acquisition unit 1511, the preprocessing unit 1512, the learning data selection unit 1513, the model learning unit 1514, and the model evaluation unit 1515 may be mounted on one electronic device, Electronic devices, respectively.
  • some of the data acquisition unit 1511, the preprocessing unit 1512, the learning data selection unit 1513, the model learning unit 1514, and the model evaluation unit 1515 are included in the electronic device, May be included in the server.
  • At least one of the data acquisition unit 1511, the preprocessing unit 1512, the learning data selection unit 1513, the model learning unit 1514, and the model evaluation unit 1515 may be implemented as a software module.
  • At least one of the data acquisition unit 1511, the preprocessing unit 1512, the learning data selection unit 1513, the model learning unit 1514 or the model evaluation unit 1515 is a software module (or a program including an instruction) Module), the software module may be stored in a computer-readable, readable non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • some of the at least one software module may be provided by an operating system (OS)
  • some of the software modules may be provided by a predetermined application.
  • the data recognizing unit 1520 includes a data obtaining unit 1521, a preprocessing unit 1522, a recognition data selecting unit 1523, a recognition result providing unit 1524, and a model updating unit 1525, . ≪ / RTI >
  • the data acquisition unit 1521 can acquire the text necessary for outputting the voice. Conversely, the data acquisition unit 1521 can acquire the voice necessary for outputting the text.
  • the preprocessing unit 1522 may preprocess the acquired data so that the acquired data may be used to output voice or text.
  • the preprocessing unit 1522 can process the obtained data into a predetermined format so that the recognition result providing unit 1524, which will be described later, can use the data obtained for outputting voice or text.
  • the recognition data selection unit 1523 can select data necessary for outputting voice or text among the preprocessed data.
  • the selected data may be provided to the recognition result provider 1524.
  • the recognition data selection unit 1523 can select some or all of the preprocessed data according to a predetermined criterion for outputting voice or text.
  • the recognition data selecting unit 1523 can also select data according to a predetermined reference by learning by the model learning unit 1514. [
  • the recognition result provider 1524 may apply the selected data to the data learning model to output voice or text.
  • the recognition result providing unit 1524 can apply the selected data to the data learning model by using the data selected by the recognition data selecting unit 1523 as an input value.
  • the recognition result can be determined by the data learning model.
  • the model updating unit 1525 can cause the data learning model to be updated based on the evaluation of the recognition result provided by the recognition result providing unit 1524.
  • the model updating unit 1525 may provide the model learning unit 1514 with the recognition result provided by the recognition result providing unit 1524 so that the model learning unit 1514 can update the data learning model have.
  • At least one of the data acquiring unit 1521, the preprocessing unit 1522, the recognition data selecting unit 1523, the recognition result providing unit 1524, or the model updating unit 1525 in the data recognizing unit 1520 may be, It can be manufactured in the form of one hardware chip and mounted on the electronic device. At least one of the data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524 or the model updating unit 1525 may be an artificial intelligence Or may be mounted on a variety of electronic devices as described above and manufactured as part of a conventional general purpose processor (e.g., a CPU or an application processor) or a graphics dedicated processor (e.g., a GPU).
  • a conventional general purpose processor e.g., a CPU or an application processor
  • a graphics dedicated processor e.g., a GPU
  • some of the data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524, and the model updating unit 1525 are included in the electronic device, May be included in the server.
  • At least one of the data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524, and the model updating unit 1525 may be implemented as a software module.
  • At least one of the data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524 or the model updating unit 1525 is a software module Program modules), the software modules may be stored in a computer-readable, readable non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS operating system
  • some of the at least one software module may be provided by an operating system (OS)
  • some of the software modules may be provided by a predetermined application.
  • the above-described embodiments of the present invention can be embodied in a general-purpose digital computer that can be embodied as a program that can be executed by a computer and operates the program using a computer-readable recording medium.
  • the computer-readable recording medium includes a storage medium such as a magnetic storage medium (e.g., ROM, floppy disk, hard disk, etc.), optical reading medium (e.g., CD ROM,

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

The present disclosure provides a multilingual text-to-speech synthesis method and system. A multilingual text-to-speech synthesis method comprises the steps of: receiving first learning data including learning text of a first language and learning speech data of the first language corresponding to the learning text of the first language; receiving second learning data including learning text of a second language and learning speech data of the second language corresponding to the learning text of the second language; and generating a single artificial neural network text-to-speech synthesis model by learning similarity information between a phoneme of the first language and a phoneme of the second language on the basis of the first learning data and the second learning data.

Description

다중 언어 텍스트-음성 합성 방법Multilanguage text-to-speech synthesis method
본 개시는 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 방법 및 시스템에 관한 것이다. 또한 제1 언어를 사용하는 화자의 목소리 특성에 기초하여 제2 언어의 텍스트를 해당 화자의 음성으로 합성하는 방법 및 장치에 관한 것이다.This disclosure relates to multilingual text-to-speech synthesis methods and systems. The present invention also relates to a method and apparatus for synthesizing a text of a second language into a voice of a speaker based on a voice characteristic of the speaker using the first language.
일반적으로 텍스트-음성 합성(TTS; Text-To-Speech)이라고 불리는 음성 합성 기술은 안내방송, 네비게이션, 인공지능 비서 등과 같이 사람의 음성이 필요한 어플리케이션에서 실제 사람의 음성을 사전에 녹음해 두지 않고 필요한 음성을 재생하기 위해 사용되는 기술이다. 음성 합성의 전형적인 방법은, 음성을 음소 등 아주 짧은 단위로 미리 잘라서 저장해두고, 합성할 문장을 구성하는 음소들을 결합하여 음성을 합성하는 연결 합성 방식(concatenative TTS) 와, 음성의 특징을 파라미터로 표현하고 합성할 문장을 구성하는 음성 특징들을 나타내는 파라미터들을 보코더(vocoder)를 이용해 문장에 대응하는 음성으로 합성하는 매개 변수 합성 방식(parametric TTS)이 있다.Speech synthesis technology, commonly referred to as text-to-speech (TTS), is a technique that is used in applications that require human voice, such as announcement, navigation, It is a technique used for reproducing voice. A typical method of speech synthesis is concatenative TTS in which speech is synthesized by pre-cutting and storing speech in a very short unit such as a phoneme, combining phonemes constituting a sentence to be synthesized, And a parameter synthesis method (parametric TTS) for synthesizing parameters representing speech features constituting a sentence to be synthesized into a speech corresponding to a sentence using a vocoder.
한편, 최근에는 인공 신경망(artificial neural network) 기반의 음성 합성 방법이 활발히 연구되고 있으며, 이 음성 합성 방법에 따라 합성된 음성은, 기존의 방법에 비해 훨씬 자연스러운 음성 특징을 보여주고 있다. 하지만, 인공 신경망 기반의 음성 합성 방법으로 새로운 목소리의 음성 합성기를 구현하기 위해서는 그 목소리에 해당하는 많은 데이터가 필요하고, 이 데이터를 이용한 신경망 모델의 재학습이 요구되어 사용자 편의성이 떨어진다.Meanwhile, recently, an artificial neural network-based speech synthesis method has been actively researched, and the speech synthesized according to the speech synthesis method has a much more natural voice characteristic than the conventional method. However, in order to implement a voice synthesizer for a new voice by using an artificial neural network-based speech synthesis method, a large amount of data corresponding to the voice is required and re-learning of the neural network model using the data is required.
본 개시에 따른 방법 및 장치는 복수의 언어에 대한 입력 텍스트(text input)와 출력 음성(audio output)만으로 엔드 투 엔드(end-to-end)로 다언어 TTS 기계학습 모델을 생성하는 것이 가능하다.  또한, 본 개시에 따른 방법 및 장치는 화자의 발성 특징, 감정 특징, 운율 특징을 반영하여 텍스트로부터 음성을 합성할 수 있다.The method and apparatus according to the present disclosure is capable of generating a multilingual TTS machine learning model end-to-end with only text input and output audio for multiple languages . In addition, the method and apparatus according to the present disclosure may synthesize speech from text, reflecting speech characteristics, emotional characteristics, and rhyme characteristics of the speaker.
본 개시의 일 실시예에 따른 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 방법은, 제1 언어의 학습 텍스트 및 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함하는 제1 학습 데이터를 수신하는 단계, 제2 언어의 학습 텍스트 및 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함하는 제2 학습 데이터를 수신하는 단계, 및 제1 학습 데이터 및 제2 학습 데이터에 기초하여, 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계를 포함한다.A multilingual text-to-speech synthesis method according to an embodiment of the present disclosure is a method for synthesizing a learning text of a first language and a learning speech of a first language corresponding to a learning text of a first language Receiving second learning data including learning speech data of a second language corresponding to learning text of a second language and learning text of a second language; A step of generating a single artificial neural network text-to-speech synthesis model by learning similarity information between the phonemes of the first language and the phonemes of the second language based on the one learning data and the second learning data, .
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, 제1 언어에 대한 화자의 발성 특징을 수신하는 단계, 제2 언어의 입력 텍스트를 수신하는 단계, 제2 언어의 입력 텍스트 및 제1 언어에 대한 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 더 포함한다.A multi-lingual text-to-speech synthesis method according to an embodiment of the present disclosure includes receiving a speech characteristic of a speaker for a first language, receiving input text of a second language, inputting text of a second language, And generating output speech data for an input text of a second language that simulates the speech of the speaker by inputting the speech characteristics of the speaker for one language into a single artificial neural network text-speech synthesis model.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법의 제1 언어에 대한 화자의 발성 특징은 화자가 제1 언어로 발화한 음성 데이터로부터 특징 벡터를 추출하여 생성된다.A speaker's utterance characteristic for a first language of a multilingual text-to-speech synthesis method according to an embodiment of the present disclosure is generated by extracting a feature vector from speech data uttered by a speaker in a first language.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, 감정 특징(emotion feature)을 수신하는 단계, 및 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의발성 특징 및 감정 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 더 포함한다.A multi-lingual text-to-speech synthesis method in accordance with an embodiment of the present disclosure includes receiving an emotion feature and inputting text in a second language, a speech feature and an emotion feature of a speaker for a first language, Generating an output speech data for an input text of a second language that is input to an artificial neural network text-speech synthesis model to simulate a speech of a speaker.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, 운율 특징(prosody feature)을 수신하는 단계, 및 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의 발성 특징 및 운율 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 더 포함한다.A method for multi-lingual text-to-speech synthesis in accordance with an embodiment of the present disclosure includes receiving a prosody feature and inputting a second language's input text, a speaker's vocal and rhyme characteristics for a first language, Generating an output speech data for an input text of a second language that is input to an artificial neural network text-speech synthesis model to simulate a speech of a speaker.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법의 운율 특징은 발화 속도에 대한 정보, 발음 강세에 대한 정보, 음 높이에 대한 정보 및 휴지 구간에 대한 정보 중 적어도 하나를 포함한다.The prosodic feature of the multilingual text-to-speech synthesis method according to an embodiment of the present disclosure includes at least one of information on the speech speed, information on the pronunciation strength, information on the pitch height, and information on the idle duration.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, 제1 언어의 입력 음성을 수신하는 단계, 제1 언어의 입력 음성으로부터 특징 벡터를 추출하여 제1 언어에 대한 화자의 발성 특징을 생성하는 단계, 제1 언어의 입력 음성을 제1 언어의 입력 텍스트로 변환하는 단계, 제1 언어의 입력 텍스트를 제2 언어의 입력 텍스트로 변환하는 단계, 및 제2 언어의 입력 텍스트 및 제1 언어에 대한 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대한 제2 언어의 출력 음성 데이터를 생성하는 단계를 더 포함한다.A multi-lingual text-to-speech synthesis method according to an embodiment of the present disclosure includes receiving an input speech of a first language, extracting a feature vector from the input speech of the first language, Converting input speech of a first language into input text of a first language; converting input text of a first language into input text of a second language; And generating output speech data of a second language for an input text of a second language that simulates the speech of the speaker by inputting a speaker's utterance characteristic for the speech into a single artificial neural network text-speech synthesis model.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 제1 언어의 학습 텍스트 및 제2 언어의 학습 텍스트를 음소 시퀀스(phoneme sequence)로 변환한다.The multilingual text-to-speech synthesis method according to an embodiment of the present disclosure uses a Grapheme-to-phoneme (G2P) algorithm to convert a learning text of a first language and a learning text of a second language into a phoneme sequence Conversion.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법의 단일 인공 신경망 텍스트-음성 합성 모델은 제1 언어의 음소 및 제2 언어의 음소 사이의 발음 및 표기 중 적어도 하나에 대한 유사성 정보의 입력 없이 생성된다.The single artificial neural network text-to-speech synthesis model of the multilingual text-to-speech synthesis method according to an embodiment of the present disclosure is characterized in that a text-to-speech synthesis model of a single artificial neural network includes a phoneme of a first language and an input of similarity information .
또한, 상술한 바와 같은 다중 언어 텍스트-음성 합성 방법을 구현하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.In addition, the program for implementing the multi-language text-to-speech synthesis method as described above can be recorded on a computer-readable recording medium.
도 1은 복수의 언어에 대해서 학습된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여 음성 합성기가 영어 음성을 합성하는 것을 나타내는 도면이다.1 is a diagram showing that a speech synthesizer synthesizes English speech using a single artificial neural network text-speech synthesis model learned for a plurality of languages.
도 2는 복수의 언어에 대해서 학습된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여 음성 합성기가 한국어 음성을 합성하는 것을 나타내는 도면이다.FIG. 2 is a diagram showing that a speech synthesizer synthesizes a Korean speech using a single artificial neural network text-speech synthesis model learned for a plurality of languages. FIG.
도 3은 본 개시의 일 실시예에 따른 단일 인공 신경망 텍스트-음성 합성 모델을 생성하는 방법을 나타내는 흐름도이다.3 is a flow diagram illustrating a method for generating a single artificial neural network text-speech synthesis model in accordance with an embodiment of the present disclosure.
도 4는 본 개시의 일 실시예에 따른 기계학습부를 나타내는 도면이다.4 is a diagram showing a machine learning unit according to an embodiment of the present disclosure;
도 5는 본 개시의 일 실시예에 따른 음성 합성기가 제1 언어에 대한 화자의 발성 특징 및 제2 언어의 입력 텍스트에 기초하여 출력 음성 데이터를 합성하는 것을 나타내는 도면이다.5 is a diagram showing how speech synthesizer according to one embodiment of the present disclosure synthesizes output speech data based on speech characteristics of a speaker for a first language and input text of a second language.
도 6은 본 개시의 일 실시예에 따른 음성 합성기가 제1 언어에 대한 화자의 발성 특징, 제2 언어의 입력 텍스트 및 감정 특징에 기초하여 출력 음성 데이터를 생성하는 것을 나타내는 도면이다.6 is a diagram showing that a speech synthesizer according to an embodiment of the present disclosure generates output speech data based on speech characteristics of a speaker for a first language, input text of a second language, and emotion characteristics.
도 7은 본 개시의 일 실시예에 따른 음성 합성기가 제1 언어에 대한 화자의 발성 특징, 제2 언어의 입력 텍스트 및 운율 특징(prosody feature)에 기초하여 출력 음성 데이터를 생성하는 것을 나타내는 도면이다.7 is a diagram illustrating that a speech synthesizer according to an embodiment of the present disclosure generates output speech data based on a speaker's speech feature for a first language, an input text of a second language, and a prosody feature .
도 8은 본 개시의 일 실시예에 따른 음성 번역 시스템의 구성을 나타내는 도면이다.8 is a diagram showing a configuration of a speech translation system according to an embodiment of the present disclosure.
도 9는 본 개시의 일 실시예에 따른 운율 번역기의 구성을 나타내는 도면이다.9 is a diagram showing a configuration of a rhyme translator according to an embodiment of the present disclosure.
도 10은 본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성기의 구성을 나타내는 도면이다.10 is a diagram illustrating a configuration of a multi-language text-to-speech synthesizer according to an embodiment of the present disclosure.
도 11은 IPA(International Phonetic Alphabet)와 KoG2P 음소의 대응관계 및 영어와 한국어의 공통된 발음을 가지는 음소의 대응관계를 나타낸다.Fig. 11 shows correspondence relationships between IPA (International Phonetic Alphabet) and KoG2P phonemes and phonemes having common pronunciation in English and Korean.
도 12는 한국어 음소와 가장 유사한 영어 음소를 나타낸 표를 나타낸다.12 shows a table showing English phonemes most similar to Korean phonemes.
도 13 은 영어 음소로 생성된 음성과 한국어 음소로 생성된 음성의 유사성을 나타내는 스펙트로그램이다.13 is a spectrogram showing the similarity between a voice generated in English phonemes and a voice generated in Korean phonemes.
도 14는 TTS 기계학습 모델을 학습하는데 사용된 영어 데이터의 시간 변화에 따른 character error rate(CER)를 나타내는 표다.14 is a chart showing a character error rate (CER) according to time change of English data used for learning a TTS machine learning model.
도 15는 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템의 블록도이다.15 is a block diagram of a text-to-speech synthesis system in accordance with one embodiment of the present disclosure.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the disclosed embodiments, and how to accomplish them, will become apparent with reference to the embodiments described below with reference to the accompanying drawings. It should be understood, however, that the present disclosure is not limited to the embodiments disclosed herein but may be embodied in many different forms and should not be construed as limited to the embodiments set forth herein, It is only provided to give the complete scope of the invention to the person.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.The terms used in this specification will be briefly described, and the disclosed embodiments will be described in detail.
본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.As used herein, terms used in the present specification are taken to be those of ordinary skill in the art and are not intended to limit the scope of the present invention. Also, in certain cases, there may be a term selected arbitrarily by the applicant, in which case the meaning thereof will be described in detail in the description of the corresponding invention. Accordingly, the terms used in this disclosure should be defined based on the meaning of the term rather than on the name of the term, and throughout the present disclosure.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.The singular expressions herein include plural referents unless the context clearly dictates otherwise. Also, plural expressions include singular expressions unless the context clearly dictates otherwise.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.When an element is referred to as "including" an element throughout the specification, it is to be understood that the element may include other elements as well, without departing from the spirit or scope of the present invention.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.In addition, the term "part" used in the specification means software or hardware component, and "part " However, "part" is not meant to be limited to software or hardware. "Part" may be configured to reside on an addressable storage medium and may be configured to play back one or more processors. Thus, by way of example, and not limitation, "part (s) " refers to components such as software components, object oriented software components, class components and task components, and processes, Subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables. The functions provided in the components and "parts " may be combined into a smaller number of components and" parts " or further separated into additional components and "parts ".
본 개시의 일 실시예에 따르면 "부"는 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서" 는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서" 는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서" 는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.In accordance with one embodiment of the present disclosure, "part" may be embodied in a processor and memory. The term "processor" should be broadly interpreted to include a general purpose processor, a central processing unit (CPU), a microprocessor, a digital signal processor (DSP), a controller, a microcontroller, In some circumstances, a "processor" may refer to an application specific integrated circuit (ASIC), a programmable logic device (PLD), a field programmable gate array (FPGA) The term "processor" refers to a combination of processing devices, such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in conjunction with a DSP core, It can also be called.
용어 "메모리" 는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.The term "memory" should be broadly interpreted to include any electronic component capable of storing electronic information. The terminology memory may be any suitable memory such as random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), programmable read-only memory (PROM), erase- May refer to various types of processor-readable media such as erasable programmable read-only memory (PROM), flash memory, magnetic or optical data storage devices, registers, and the like. The memory is said to be in electronic communication with the processor if the processor is able to read information from and / or write information to the memory. The memory integrated in the processor is in electronic communication with the processor.
본 개시에 있어서 “제1 언어”는 한국어, 일본어, 중국어, 영어 등 다양한 국가 또는 민족이 사용하는 다양한 언어 중의 하나를 지칭할 수 있고, “제2 언어”는 제1 언어와 다른 국가 또는 민족이 사용하는 언어 중의 하나를 지칭할 수 있다.In this disclosure, " first language " may refer to one of various languages used by various countries or people such as Korean, Japanese, Chinese, and English, and " It can refer to one of the languages used.
아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. In order to clearly explain the present disclosure in the drawings, portions not related to the description will be omitted.
도 1은 복수의 언어에 대해서 학습된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여 음성 합성기(110)가 영어 음성을 합성하는 것을 나타내는 도면이다. 도시된 예에서 단일 인공 신경망 텍스트-음성 합성 모델은 한국어와 영어 데이터를 함께 학습한 것일 수 있다. 음성 합성기(110)는 영어 텍스트와 한국인 화자의 발성 특징을 수신할 수 있다. 예를 들어 영어 텍스트는 "Hello?"일 수 있으며, 한국인 화자의 발성 특징은 한국인 화자가 한국어로 발화한 음성 데이터로부터 추출된 특징 벡터일 수 있다.FIG. 1 is a diagram showing that speech synthesizer 110 synthesizes English speech using a single artificial neural network text-speech synthesis model learned for a plurality of languages. In the illustrated example, a single artificial neural network text-speech synthesis model may be a combination of Korean and English data. The speech synthesizer 110 can receive the English text and the utterance characteristic of the Korean speaker. For example, the English text may be "Hello? &Quot;, and the utterance characteristic of the Korean speaker may be a feature vector extracted from the voice data uttered by the Korean speaker in Korean.
음성 합성기(110)는 수신한 영어 텍스트와 한국인 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 해당 한국인 화자의 음성을 모사하여, 영어로 "Hello?"를 말하는 음성을 합성하고 출력할 수 있다. 즉, 음성 합성기(110)가 출력한 음성은 해당 한국인 화자가 "Hello?"를 영어로 발음하는 음성일 수 있다.The speech synthesizer 110 inputs the received English text and the utterance characteristic of the Korean speaker into a single artificial neural network text-speech synthesis model to synthesize the speech of the Korean speaker and synthesizes the voice saying "Hello? &Quot; can do. That is, the voice output by the speech synthesizer 110 may be a voice in which the Korean speaker pronounces "Hello? &Quot; in English.
도 2는 복수의 언어에 대해서 학습된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여 음성 합성기(210)가 한국어 음성을 합성하는 것을 나타내는 도면이다. 도시된 예에서 단일 인공 신경망 텍스트-음성 합성 모델은 한국어와 영어 데이터를 함께 학습한 것일 수 있다. 음성 합성기(210)는 한국어 텍스트와 미국인 화자의 발성 특징을 수신할 수 있다. 예를 들어 한국어 텍스트는 "안녕하세요?"일 수 있으며, 미국인 화자의 발성 특징은 미국인 화자가 영어로 발화한 음성 데이터로부터 추출된 특징 벡터일 수 있다.FIG. 2 is a diagram showing that the speech synthesizer 210 synthesizes a Korean speech using a single artificial neural network text-speech synthesis model learned for a plurality of languages. In the illustrated example, a single artificial neural network text-speech synthesis model may be a combination of Korean and English data. The speech synthesizer 210 may receive Korean text and utterance characteristics of an American speaker. For example, the Korean text may be "Hello? &Quot;, and the utterance characteristic of the American speaker may be a feature vector extracted from the voice data uttered by the American speaker in English.
음성 합성기(210)는 수신한 한국어 텍스트와 미국인 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 해당 미국인 화자의 음성을 모사하여, 한국어로 "안녕하세요?"를 말하는 음성을 합성하고 출력할 수 있다. 즉, 음성 합성기(210)가 출력한 음성은 해당 미국인 화자가 "안녕하세요?"를 한국어로 발음하는 음성일 수 있다.The speech synthesizer 210 inputs the received Korean text and utterance characteristics of the American speaker into a single artificial neural network text-speech synthesis model to synthesize the voice of the American speaker and synthesize the voice saying "Hello? &Quot; can do. That is, the voice output by the speech synthesizer 210 may be a voice that the American speaker pronounces "Hello? &Quot; in Korean.
도 3은 본 개시의 일 실시예에 따른 단일 인공 신경망 텍스트-음성 합성 모델을 생성하는 방법을 나타내는 흐름도이다. 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 시스템은 제1 언어의 학습 텍스트 및 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함하는 제1 학습 데이터를 수신하는 단계(310)를 수행할 수 있다. 다중 언어 텍스트-음성 합성 시스템은 제2 언어의 학습 텍스트 및 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함하는 제2 학습 데이터를 수신하는 단계(320)를 수행할 수 있다.3 is a flow diagram illustrating a method for generating a single artificial neural network text-speech synthesis model in accordance with an embodiment of the present disclosure. A multilingual text-to-speech synthesis system includes first learning data including learning speech data of a first language and learning speech data of a first language corresponding to learning text of a first language, (Step 310). The multi-lingual text-to-speech synthesis system may perform (320) receiving second learning data comprising learning text in a second language and learning speech data in a second language corresponding to learning text in a second language .
다중 언어 텍스트-음성 합성 시스템은 제1 학습 데이터 및 제2 학습 데이터에 기초하여, 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계(330)를 수행할 수 있다. 단일 인공 신경망 텍스트-음성 합성 모델 생성 방법에 대해서는 도 4에서 보다 자세히 설명한다.The multilingual text-to-speech synthesis system learns similarity information between the phonemes of the first language and the phonemes of the second language based on the first learning data and the second learning data, and generates a single artificial neural network text-to- -peech synthesis) model (step 330). A method of generating a single artificial neural network text-speech synthesis model will be described in more detail with reference to FIG.
도 4는 본 개시의 일 실시예에 따른 기계학습부(420)를 나타내는 도면이다. 기계학습부(420)는 도 15의 데이터 학습부(1510)에 대응될 수 있다. 기계학습부(420)는 복수의 제1 언어의 학습 데이터의 쌍(411)을 수신할 수 있다. 제1 언어의 학습 데이터의 쌍(411)은 제1 언어의 학습 텍스트 및 해당 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함할 수 있다.4 is a diagram showing a machine learning unit 420 according to an embodiment of the present disclosure. The machine learning unit 420 may correspond to the data learning unit 1510 in Fig. The machine learning unit 420 can receive a pair of learning data 411 of a plurality of first languages. The pair of learning data 411 of the first language may include learning text data of the first language and learning speech data of the first language corresponding to the learning text of the first language.
제1 언어의 학습 텍스트는 적어도 하나의 글자를 포함할 수 있으며, 기계학습부(420)가 G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 음소 시퀀스(phoneme sequence)로 변환할 수 있다. 제1 언어의 학습 음성 데이터는 제1 언어의 학습 텍스트를 사람이 읽은 음성을 녹음한 데이터, 녹음 데이터로부터 추출된 사운드 피처(sound feature)나 스펙트로그램(spectrogram) 등일 수 있다. 제1 학습 데이터는 제1 언어에 대한 언어 식별자 또는 언어 정보를 포함하지 않을 수 있다.The learning text of the first language may include at least one letter and the machine learning unit 420 may convert the phoneme sequence into a phoneme sequence using a Grapheme-to-phoneme algorithm. The learning speech data of the first language may be data on which human-read speech is recorded in the learning text of the first language, a sound feature or a spectrogram extracted from the recording data, and the like. The first learning data may not include a language identifier or language information for the first language.
기계학습부(420)는 복수의 제2 언어의 학습 데이터의 쌍(412)을 수신할 수 있다. 제2 언어의 학습 데이터의 쌍(412)은 제2 언어의 학습 텍스트 및 해당 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함할 수 있다. 제1 언어와 제2 언어는 서로 다른 언어일 수 있다.The machine learning unit 420 can receive a pair of learning data 412 of a plurality of second languages. The pair of learning data 412 of the second language may include learning text data of the second language and learning speech data of the second language corresponding to the learning text of the second language. The first language and the second language may be different languages.
제2 언어의 학습 텍스트는 적어도 하나의 글자를 포함할 수 있으며, 기계학습부(420)가 G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 음소 시퀀스(phoneme sequence)로 변환할 수 있다. 제2 언어의 학습 음성 데이터는 제2 언어의 학습 텍스트를 사람이 읽은 음성을 녹음한 데이터, 녹음 데이터로부터 추출된 사운드 피처(sound feature)나 스펙트로그램(spectrogram) 등일 수 있다. 제2 학습 데이터는 제2 언어에 대한 언어 식별자 또는 언어 정보를 포함하지 않을 수 있다.The learning text of the second language may include at least one letter and the machine learning unit 420 may convert the phoneme sequence into a phoneme sequence using a Grapheme-to-phoneme algorithm. The learning speech data of the second language may be data on which human-read speech is recorded in the learning text of the second language, a sound feature or a spectrogram extracted from the recording data, and the like. The second learning data may not include the language identifier or the language information for the second language.
기계학습부(420)는 수신된 복수의 제1 언어의 학습 데이터의 쌍(411) 및 복수의 제2 언어의 학습 데이터의 쌍(412)에 기초하여 기계학습을 수행하여, 단일 인공 신경망 텍스트-음성 합성 모델(430)을 생성할 수 있다. 일 실시예에서, 기계학습부(420)는 제1 언어 및 제2 언어에 대한 사전 정보 없이, 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성 모델(430)을 생성할 수 있다. 예를 들어, 기계학습부(420)는 제1 언어에 대한 언어 식별자, 제2 언어에 대한 언어 식별자, 제1 언어의 음소 및 제2 언어의 음소 사이의 발음에 대한 유사성 정보, 제1 언어의 음소 및 제2 언어의 음소 사이의 표기에 대한 유사성 정보를 수신하지 않고, 복수의 제1 언어의 학습 데이터의 쌍(411) 및 복수의 제2 언어의 학습 데이터의 쌍(412)에 기초하여 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습함으로써, 단일 인공 신경망 텍스트-음성 합성 모델을 생성할 수 있다.The machine learning unit 420 performs a machine learning based on the received pairs of learning data 411 of the first language and the pairs of learning data 412 of the plurality of second languages to generate a single artificial neural network text- The speech synthesis model 430 can be generated. In one embodiment, the machine learning unit 420 learns similarity information between the phonemes of the first language and the phonemes of the second language, without prior knowledge of the first language and the second language, and generates a single artificial neural network text- Model 430 may be generated. For example, the machine learning unit 420 may include a language identifier for the first language, a language identifier for the second language, a phoneme in the first language, and similarity information for pronunciation between the phonemes in the second language, Based on a pair of learning data 411 of a plurality of first languages and a pair of learning data 412 of a plurality of second languages without receiving the similarity information on the representation between the phonemes of the second language and phonemes By learning similarity information between phonemes in one language and phonemes in a second language, a single artificial neural network text-speech synthesis model can be generated.
여기서, 언어 식별자는 한국어, 일본어, 중국어, 영어 등 다양한 국가 또는 민족이 사용하는 다양한 언어 중의 하나를 나타내는 식별자일 수 있다. 또한, 발음에 대한 유사성 정보는 언어 간에 유사한 발음을 가지는 음소를 대응시킨 정보일 수 있으며, 표기에 대한 유사성 정보는 언어간 유사한 표기를 가지는 음소를 대응시킨 정보일 수 있다. 유사성 정보는 도 11 및 도 12를 참조하여 보다 자세히 설명된다.Here, the language identifier may be an identifier indicating one of various languages used by various countries or people such as Korean, Japanese, Chinese, and English. The similarity information on the pronunciation may be information in which phonemes having similar pronunciation are pronounced between the languages, and the similarity information on the notation may be information in which phonemes having similar notations between languages are associated. Similarity information is described in more detail with reference to FIGS. 11 and 12. FIG.
종래에는 각각의 언어는 서로 다른 발음 및 표기를 가지므로, 각 언어별로 학습 데이터를 준비하여 언어별 기계 학습 모델을 생성하거나, 학습하는 언어들 사이의 유사성 정보를 사전에 준비하고 이를 학습 데이터와 함께 입력함으로써 단일 기계 학습 모델을 생성하였다. 본 개시의 일 실시예에 따르면, 학습하는 언어들 사이의 유사성 정보 없이, 하나의 기계 학습 모델로 다언어(Multi-language) 텍스트-음성 합성(text-to-speech synthesis) 모델을 구현할 수 있다. 도 4에는 2개의 언어에 대해서 학습 데이터를 수신하여 단일 인공 신경망 텍스트-음성 합성 모델을 생성하는 것으로 도시되어 있으나, 이에 한정되지 않으며, 3개 이상의 언어에 대해서도 학습 데이터를 수신하여 3개 이상의 언어에 대한 단일 인공 신경망 텍스트-음성 합성 모델을 생성할 수도 있다.Conventionally, since each language has a different pronunciation and notation, learning data for each language is prepared to generate a language learning model for each language, or similarity information between languages to be learned is prepared in advance, A single machine learning model was created. According to one embodiment of the present disclosure, a multi-language text-to-speech synthesis model can be implemented with one machine learning model, without the similarity information between the learning languages. FIG. 4 shows the generation of a single artificial neural network text-speech synthesis model by receiving learning data for two languages. However, the present invention is not limited to this, and it is also possible to receive learning data in three or more languages, A single artificial neural network text-speech synthesis model may be generated.
일 실시예에서, 기계학습부(420)에 의해 생성된 단일 인공 신경망 텍스트-음성 합성 모델(430)을 이용해서 텍스트를 음성으로 합성하고 출력할 수 있다. 단일 인공 신경망 텍스트-음성 합성 모델(430)을 이용하여 텍스트를 음성으로 합성하고 출력하는 방법에 대해서는 도 5 내지 도 7을 참조하여 보다 상세히 설명한다.In one embodiment, the text may be synthesized and output in voice using a single artificial neural network text-to-speech synthesis model 430 generated by the machine learning unit 420. A method of synthesizing and outputting text by voice using a single artificial neural network text-speech synthesis model 430 will be described in more detail with reference to FIGS. 5 to 7. FIG.
도 5는 본 개시의 일 실시예에 따른 음성 합성기(520)가 제1 언어에 대한 화자의 발성 특징(511) 및 제2 언어의 입력 텍스트(512)에 기초하여 출력 음성 데이터(530)를 합성하는 것을 나타내는 도면이다. 음성 합성기(520)는 도 15의 데이터 인식부(1520)에 대응될 수 있다. 음성 합성기(520)는 도 4의 기계학습부(420)에 의해 생성된 단일 인공 신경망 텍스트-음성 합성 모델을 수신하여 출력 음성 데이터를 합성하는데 사용할 수 있다. 도시된 것과 같이, 음성 합성기(520)는 제1 언어에 대한 화자의 발성 특징(511) 및 제2 언어의 입력 텍스트(512)를 수신할 수 있다.FIG. 5 illustrates an exemplary embodiment of a speech synthesizer 520 according to an embodiment of the present disclosure that synthesizes output speech data 530 based on a speaker's speech feature 511 for a first language and input text 512 in a second language. Fig. The speech synthesizer 520 may correspond to the data recognition unit 1520 of FIG. The speech synthesizer 520 may be used to receive the single artificial neural network text-speech synthesis model generated by the machine learning unit 420 of FIG. 4 and to synthesize the output speech data. As shown, the speech synthesizer 520 may receive the speech feature 511 of the speaker for the first language and the input text 512 of the second language.
제1 언어에 대한 화자의 발성 특징(511)은 화자가 제1 언어로 발화한 음성 데이터로부터 특징 벡터를 추출하여 생성될 수 있다. 예를 들어, 화자의 발성 특징은 화자의 음색 또는 음 높이 등을 포함할 수 있다. 제2 언어의 입력 텍스트(512)는 제2 언어로 되어있는 적어도 하나의 글자를 포함할 수 있다.The speaker's utterance characteristic 511 for the first language can be generated by extracting a feature vector from speech data uttered by the speaker in the first language. For example, a speaker's utterance characteristic may include the tone or height of the speaker. The input text 512 of the second language may include at least one letter in a second language.
음성 합성기(520)는 제1 언어에 대한 화자의 발성 특징(511) 및 제2 언어의 입력 텍스트(512)를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 출력 음성 데이터(530)를 생성할 수 있다. 출력 음성 데이터(530)는 제2 언어의 입력 텍스트(512)를 음성으로 합성한 음성 데이터일 수 있으며, 제1 언어에 대한 화자의 발성 특징(511)이 반영되어 있을 수 있다. 즉, 출력 음성 데이터(530)는 제1 언에 대한 화자의 발성 특징(511)에 기초하여 해당 화자의 음성을 모사함으로써, 해당 화자가 제2 언어의 입력 텍스트(512)를 말하는 음성으로 합성된 데이터일 수 있다. 일 실시예에서, 출력 음성 데이터(530)는 스피커 등으로 출력될 수 있다.The speech synthesizer 520 can generate the output speech data 530 by inputting the speaker's utterance characteristic 511 for the first language and the input text 512 of the second language into a single artificial neural network text- have. The output speech data 530 may be speech data obtained by synthesizing the input text 512 of the second language by speech, and may reflect the speech characteristics 511 of the speaker for the first language. That is, the output speech data 530 is obtained by synthesizing the speech of the speaker on the basis of the speaker's utterance characteristic 511 with respect to the first language, so that the speaker is synthesized with the speech of the input text 512 of the second language Lt; / RTI > In one embodiment, the output speech data 530 may be output to a speaker or the like.
도 6은 본 개시의 일 실시예에 따른 음성 합성기(620)가 제1 언어에 대한 화자의 발성 특징(611), 제2 언어의 입력 텍스트(612) 및 감정 특징(613)에 기초하여 출력 음성 데이터(630)를 생성하는 것을 나타내는 도면이다. 음성 합성기(620)는 도 15의 데이터 인식부(1520)에 대응될 수 있다. 음성 합성기(620)는 도 4의 기계학습부(420)에 의해 생성된 단일 인공 신경망 텍스트-음성 합성 모델을 수신하여 출력 음성 데이터(630)를 합성하는데 사용할 수 있다. 도시된 것과 같이, 음성 합성기(620)는 제1 언어에 대한 화자의 발성 특징(611), 제2 언어의 입력 텍스트(612) 및 감정 특징(613)을 수신할 수 있다. 제1 언어에 대한 화자의 발성 특징 및 제2 언어의 입력 텍스트에 대해서는 도 5를 참조하여 설명하였으므로, 중복되는 설명은 생략한다.Figure 6 illustrates a speech synthesizer 620 according to one embodiment of the present disclosure that generates an output speech 611 based on a speaker's speech feature 611, a second language's input text 612, and an emotion feature 613 for a first language. Data 630. < / RTI > The speech synthesizer 620 may correspond to the data recognition unit 1520 of FIG. The speech synthesizer 620 may receive the single artificial neural network text-speech synthesis model generated by the machine learning unit 420 of FIG. 4 and use it to synthesize the output speech data 630. As shown, the speech synthesizer 620 may receive the speech features 611 of the speaker for the first language, the input text 612 of the second language, and the emotion feature 613. The speaker's utterance characteristic for the first language and the input text of the second language have been described with reference to FIG. 5, and a duplicate description will be omitted.
일 실시예에서, 감정 특징(613)은 기쁨, 슬픔, 분노, 공포, 신뢰, 혐오, 놀람, 기대 중 적어도 하나를 나타낼 수 있다. 다른 실시예에서, 감정 특징(613)은 음성 데이터로부터 특징 벡터를 추출하여 생성될 수 있다. 음성 합성기(620)는 제1 언어에 대한 화자의 발성 특징(611), 제2 언어의 입력 텍스트(612) 및 감정 특징(613)을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 출력 음성 데이터(630)를 생성할 수 있다.In one embodiment, emotion feature 613 may represent at least one of joy, sadness, anger, fear, trust, disgust, surprise, expectation. In another embodiment, emotion feature 613 may be generated by extracting feature vectors from speech data. The speech synthesizer 620 inputs the speech characteristic 611 of the speaker for the first language, the input text 612 of the second language and the emotion characteristic 613 to the single artificial neural network text-speech synthesis model, 630 < / RTI >
출력 음성 데이터(630)는 제2 언어의 입력 텍스트(612)를 음성으로 합성한 음성 데이터일 수 있으며, 제1 언어에 대한 화자의 발성 특징(611) 및 감정 특징(613)이 반영되어 있을 수 있다. 즉, 출력 음성 데이터(630)는 제1 언어에 대한 화자의 발성 특징(611)에 기초하여 해당 화자의 음성을 모사하고, 감정 특징(613)을 반영함으로써, 해당 화자가 입력된 감정 특징(613)으로 제2 언어의 입력 텍스트(612)를 말하는 음성으로 합성된 데이터일 수 있다. 예를 들어, 감정 특징(613)이 분노를 나타내는 경우, 음성 합성기(620)는 해당 화자가 제2 언어의 입력 텍스트(612)를 분노한 듯이 말하는 출력 음성 데이터(630)를 생성할 수 있다. 일 실시예에서, 출력 음성 데이터(630)는 스피커 등으로 출력될 수 있다.The output speech data 630 may be speech data obtained by synthesizing the input text 612 of the second language by voice and may include the speech characteristic 611 and the emotion characteristic 613 of the speaker for the first language have. That is, the output speech data 630 simulates the voice of the speaker based on the speaker's utterance characteristic 611 for the first language, and reflects the emotion characteristic 613 to determine the emotion characteristic 613 ) To the input text 612 of the second language. For example, if the emotion feature 613 represents anger, the speech synthesizer 620 may generate output speech data 630 that speaks as if the speaker is raging the input text 612 of the second language. In one embodiment, the output speech data 630 may be output to a speaker or the like.
도 7은 본 개시의 일 실시예에 따른 음성 합성기(720)가 제1 언어에 대한 화자의 발성 특징(711), 제2 언어의 입력 텍스트(712) 및 운율 특징(prosody feature; 713)에 기초하여 출력 음성 데이터(730)를 생성하는 것을 나타내는 도면이다. 음성 합성기(720)는 도 15의 데이터 인식부(1520)에 대응될 수 있다. 음성 합성기(720)는 도 4의 기계학습부(420)에 의해 생성된 단일 인공 신경망 텍스트-음성 합성 모델을 수신하여 출력 음성 데이터(730)를 합성하는데 사용할 수 있다. 도시된 것과 같이, 음성 합성기(720)는 제1 언어에 대한 화자의 발성 특징(711), 제2 언어의 입력 텍스트(712) 및 운율 특징(713)을 수신할 수 있다. 제1 언어에 대한 화자의 발성 특징 및 제2 언어의 입력 텍스트에 대해서는 도 5를 참조하여 설명하였으므로, 중복되는 설명은 생략한다.Figure 7 illustrates a speech synthesizer 720 according to one embodiment of the present disclosure that is based on a speaker's speech feature 711 for a first language, an input text 712 for a second language, and a prosody feature 713 And generates output audio data 730. [0154] FIG. The speech synthesizer 720 may correspond to the data recognition unit 1520 of FIG. The speech synthesizer 720 can be used to receive the single artificial neural network text-speech synthesis model generated by the machine learning unit 420 of FIG. 4 and synthesize the output speech data 730. As shown, the speech synthesizer 720 may receive the speech features 711 of the speaker, the input text 712 of the second language, and the rhyme feature 713 for the first language. The speaker's utterance characteristic for the first language and the input text of the second language have been described with reference to FIG. 5, and a duplicate description will be omitted.
운율 특징(713)은 발화 속도에 대한 정보, 발음 강세에 대한 정보, 음 높이에 대한 정보 및 휴지 구간에 대한 정보(예, 끊어 읽기에 대한 정보) 중 적어도 하나를 포함할 수 있다. 일 실시예에서, 운율 특징(713)은 음성 데이터로부터 특징 벡터를 추출하여 생성될 수 있다. 음성 합성기(720)는 제1 언어에 대한 화자의 발성 특징(711), 제2 언어의 입력 텍스트(712) 및 운율 특징(713)을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 출력 음성 데이터(730)를 생성할 수 있다.The prosodic feature 713 may include at least one of information on the speech rate, information on the pronunciation strength, information on the pitch height, and information on the dormant period (e.g., information on break-reading). In one embodiment, the rhyme feature 713 may be generated by extracting feature vectors from speech data. The speech synthesizer 720 inputs the speech characteristics 711 of the first language, the input text 712 of the second language and the prosodic feature 713 for the first language into a single artificial neural network text-speech synthesis model, 730).
출력 음성 데이터(730)는 제2 언어의 입력 텍스트(712)를 음성으로 합성한 음성 데이터일 수 있으며, 발성 특징(711) 및 운율 특징(713)이 반영되어 있을 수 있다. 즉, 출력 음성 데이터(730)는 제1 언어에 대한 화자의 발성 특징(711)에 기초하여 해당 화자의 음성을 모사하고, 운율 특징(713)을 반영함으로써, 해당 화자가 입력된 운율 특징(713)으로 제2 언어의 입력 텍스트(712)를 말하는 음성으로 합성된 데이터일 수 있다. 예를 들어, 음성 합성기(720)는 해당 화자가 제2 언어의 입력 텍스트(712)를 운율 특징(713)에 포함되어 있는 발화 속도, 발음 강세, 음 높이, 휴지 구간(끊어 읽기)에 대한 정보에 따라 말하는 출력 음성 데이터(730)를 생성할 수 있다.The output speech data 730 may be speech data obtained by synthesizing the input text 712 of the second language by voice, and the speech characteristic 711 and the prosodic characteristic 713 may be reflected. That is, the output speech data 730 simulates the speech of the speaker on the basis of the speech characteristic 711 of the speaker for the first language and reflects the prosodic characteristic 713 so that the prosodic characteristic 713 And the second language input text 712 with the second language. For example, the speech synthesizer 720 may determine that the speaker has entered the input text 712 of the second language in terms of the speech rate, the pronunciation strength, the pitch height, the pause interval The output audio data 730 can be generated.
도 6 내지 도 7에서는 감정 특징(613) 또는 운율 특징(713)을 제1 언어에 대한 화자의 발성 특징 및 제2 언어의 입력 텍스트와 함께 음성 합성기에 입력하는 것으로 도시되어 있으나, 이에 한정되지 않으며, 제1 언어에 대한 화자의 발성 특징, 감정 특징, 운율 특징 중 하나 이상을 제2 언어의 입력 텍스트와 함께 입력하는 것으로 음성 합성기가 구성될 수도 있다.6 to 7 illustrate inputting the emotional feature 613 or the prosodic feature 713 to the speech synthesizer along with the speech features of the speaker for the first language and the input text of the second language, , A speech synthesizer may be configured by inputting at least one of a speaker's utterance characteristic, emotion characteristic, and prosodic characteristic of the first language together with the input text of the second language.
도 8은 본 개시의 일 실시예에 따른 음성 번역 시스템(800)의 구성을 나타내는 도면이다. 음성 번역 시스템(800)은 음성 인식기(810), 기계 번역기(820), 음성 합성기(830), 발성 특징 추출기(840), 감정 특징 추출기(850), 운율 특징 추출기(860) 및 운율 번역기(prosody translation; 870)를 포함할 수 있다. 음성 합성기(830)는 도 15의 데이터 인식부(1520)에 대응될 수 있다. 도시된 바와 같이 음성 번역 시스템(800)은 제1 언어의 입력 음성을 수신할 수 있다.8 is a diagram showing a configuration of a speech translation system 800 according to an embodiment of the present disclosure. The speech translation system 800 includes a speech recognizer 810, a machine translator 820, a speech synthesizer 830, a vocal feature extractor 840, an emotion feature extractor 850, a prosody feature extractor 860, translation 870). The speech synthesizer 830 may correspond to the data recognition unit 1520 of FIG. As shown, the voice translation system 800 may receive the input voice of the first language.
수신된 제1 언어의 입력 음성은 음성 인식기(810), 발성 특징 추출기(840), 감정 특징 추출기(850) 및 운율 특징 추출기(860)로 전달될 수 있다. 음성 인식기(810)는 제1 언어의 입력 음성을 수신하여 제1 언어의 입력 텍스트로 변환할 수 있다. 음성 번역 시스템(800)에 포함된 기계 번역기(820)는 제1 언어의 입력 텍스트를 제2 언어의 입력 텍스트로 변환/번역하여 음성 합성기(830)로 전달할 수 있다.The input speech of the first language may be transmitted to the speech recognizer 810, the vocal feature extractor 840, the emotion feature extractor 850, and the prosodic feature extractor 860. The speech recognizer 810 may receive the input speech of the first language and convert it into input text of the first language. The machine translator 820 included in the speech translation system 800 may convert the input text of the first language into input text of the second language and translate the input text to the speech synthesizer 830.
발성 특징 추출기(840)는 제1 언어의 입력 음성으로부터 특징 벡터를 추출하여 제1 언어의 입력 음성을 발화한 화자의 발성 특징을 생성할 수 있다. 음성 합성기(830)는 제2 언어의 입력 텍스트 및 제1 언어에 대한 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대응하는 제2 언어의 출력 음성 데이터를 생성할 수 있다. 이 경우, 제2 언어의 출력 음성은 제1 언어의 입력 음성을 발화한 화자의 발성 특징을 반영하여 합성된 음성일 수 있다.The utterance feature extractor 840 may extract a feature vector from the input speech of the first language and generate a utterance characteristic of the speaker that uttered the input speech of the first language. The speech synthesizer 830 inputs the input text of the second language and the speech characteristics of the speaker for the first language into a single artificial neural network text-speech synthesis model to generate a speech corresponding to the input text of the second language The output speech data of the second language can be generated. In this case, the output speech of the second language may be a voice synthesized by reflecting the utterance characteristic of the speaker who uttered the input speech of the first language.
감정 특징 추출기(850)는 제1 언어의 입력 음성으로부터 감정 특징을 추출하여 음성 합성기(830)로 전달할 수 있다. 음성 합성기(830)는 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의 발성 특징 및 감정 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하고, 제1 언어의 입력 음성의 감정 특징이 반영된 제2 언어의 입력 텍스트에 대응하는 제2 언어의 출력 음성 데이터를 생성할 수 있다. 이 경우, 제2 언어의 출력 음성은 제1 언어의 입력 음성을 발화한 화자의 발성 특징 및 감정 특징을 반영하여 합성된 음성일 수 있다.The emotion feature extractor 850 may extract the emotion feature from the input speech of the first language and deliver it to the speech synthesizer 830. The speech synthesizer 830 inputs the input text of the second language, the speech characteristics and emotion characteristics of the speaker for the first language into a single artificial neural network text-speech synthesis model to simulate the speech of the speaker, The output speech data of the second language corresponding to the input text of the second language in which the emotion characteristic of the voice is reflected can be generated. In this case, the output speech of the second language may be a voice synthesized by reflecting the utterance characteristic and the emotion characteristic of the speaker uttering the input speech of the first language.
운율 특징 추출기(860)는 제1 언어의 입력 음성으로부터 운율 특징을 추출할 수 있다. 운율 특징 추출기(860)는 추출된 운율 특징을 운율 번역기(870)로 전달하여 제1 언어에 대한 운율 특징을 제2 언어에 대한 운율 특징으로 번역할 수 있다. 즉, 운율 번역기(870)는 제1 언어의 입력 음성에서 추출된 운율 특징을 제2 언어의 출력 음성에 반영하도록 하는 정보를 생성할 수 있다. Prosodic feature extractor 860 may extract the prosodic feature from the input speech of the first language. The prosodic feature extractor 860 may transfer the extracted prosodic features to the prosodic translator 870 to translate the prosodic features for the first language into the prosodic features for the second language. That is, the rhyme translator 870 can generate information to reflect the rhyme characteristics extracted from the input speech of the first language to the output speech of the second language.
음성 합성기(830)는 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의 발성 특징 및 번역된 운율 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하고, 제1 언어의 입력 음성의 운율 특징이 반영된 제2 언어의 입력 텍스트에 대응하는 제2 언어의 출력 음성 데이터를 생성할 수 있다. 이 경우, 제2 언어의 출력 음성은 제1 언어의 입력 음성을 발화한 화자의 발성 특징 및 운율 특징을 반영하여 합성된 음성일 수 있다. 운율 특징을 반영하는 경우, 제1 언어의 입력 음성의 말하는 속도, 끊어 읽기, 강조 등의 특징들이 제2 언어의 출력 음성에도 적용될 수 있다.The speech synthesizer 830 inputs the input text of the second language, the speech characteristics of the speaker for the first language and the translated rhyme characteristics into a single artificial neural network text-speech synthesis model to simulate the speech of the speaker, The output speech data of the second language corresponding to the input text of the second language in which the prosodic characteristic of the input speech of the second language is reflected. In this case, the output speech of the second language may be a voice synthesized by reflecting the utterance characteristic and the prosodic characteristic of the speaker uttering the input speech of the first language. In the case of reflecting the rhyme characteristics, features such as the speaking speed of the input speech of the first language, intermittent reading, and emphasis may be applied to the output speech of the second language.
예를 들어, 사용자가 제1 언어의 입력 음성에서 강조하여 말한 단어가 있다면, 운율 번역기(870)는 제1 언어의 강조된 단어와 대응되는 제2 언어의 단어를 강조하기 위한 정보를 생성할 수 있다. 음성 합성기(830)는 운율 번역기(870)로부터 수신한 정보에 기초하여, 제1 언어에서 강조된 단어에 대응되는 제2 언어의 단어를 강조하여 음성을 생성할 수 있다.For example, if there is a word emphasized by the user in the input speech of the first language, the rhyme translator 870 may generate information for emphasizing the word of the second language corresponding to the highlighted word of the first language . The speech synthesizer 830 can generate speech by emphasizing words of a second language corresponding to words emphasized in the first language, based on the information received from the rhyme translator 870. [
일 실시예에서, 음성 합성기(830)는 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의 발성 특징, 감정 특징 및 번역된 운율 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하고, 제1 언어의 입력 음성의 감정 특징 및 운율 특징이 반영된 제2 언어의 입력 텍스트에 대응하는 제2 언어의 출력 음성 데이터를 생성할 수 있다. 이 경우, 제2 언어의 출력 음성은 제1 언어의 입력 음성을 발화한 화자의 발성 특징, 감정 특징 및 운율 특징을 반영하여 합성된 음성일 수 있다.In one embodiment, the speech synthesizer 830 inputs the input text of the second language, the speech characteristics of the speaker for the first language, the emotion characteristics and the translated rhyme characteristics into a single artificial neural network text-speech synthesis model, The output speech data of the second language corresponding to the input text of the second language in which the emotion characteristic and the rhythm characteristic of the input speech of the first language are reflected can be generated. In this case, the output speech of the second language may be a voice synthesized by reflecting the utterance characteristic, the emotion characteristic, and the prosodic characteristic of the speaker uttering the input speech of the first language.
제1 언어의 입력 음성에서 화자의 특징을 추출하여 번역된 음성을 합성하는데 이용하는 경우, 해당 화자의 목소리가 미리 학습되어 있지 않은 경우에도 해당 화자의 목소리를 모사하여 비슷한 음성으로 제2 언어의 출력 음성을 생성할 수 있다. 또한, 제1 언어의 입력 음성에서 화자의 감정 특징을 추출하는 경우, 해당 화자의 해당 발언에 대한 감정을 모사하여 보다 자연스럽게 제2 언어의 출력 음성을 생성할 수 있다. 또한, 제1 언어의 입력 음성에서 화자의 운율 특징을 추출하는 경우, 해당 화자의 해당 발성의 운율을 모사하여 보다 자연스러운 제2 언어의 출력 음성을 생성할 수 있다.Even when the voice of the speaker is not learned in advance, the voice of the speaker can be simulated and output voice of the second language can be reproduced in a similar voice by extracting the characteristics of the speaker from the input voice of the first language and synthesizing the translated voice. Can be generated. Further, when the emotion characteristic of the speaker is extracted from the input speech of the first language, the output speech of the second language can be generated more naturally by simulating the emotion for the utterance of the speaker. In addition, when the prosody characteristics of the speaker are extracted from the input speech of the first language, a more natural output speech of the second language can be generated by simulating the prosody of the speaker.
도 8에는 제1 언어의 입력 음성으로부터 발성 특징, 감정 특징 및 운율 특징을 모두 추출하여 음성을 합성하는 것으로 도시되어 있으나, 이에 한정되지 않는다. 다른 실시예에서, 발성 특징, 감정 특징 및 운율 특징 중 적어도 하나를 다른 화자의 입력 음성으로부터 추출할 수도 있다. 예를 들어, 감정 특징 및 운율 특징은 제1 언어의 입력 음성으로부터 추출하되, 발성 특징은 다른 입력 음성(예, 유명인의 음성)으로부터 추출하여 음성을 합성할 수 있다. 이 경우, 합성되는 음성에는 제1 언어의 입력 음성을 발화한 화자의 감정과 운율이 반영되지만, 다른 입력 음성을 발화한 화자(예, 유명인)의 목소리가 반영될 수 있다.FIG. 8 shows that speech is synthesized by extracting all the vocal characteristics, emotional characteristics, and prosodic features from the input speech of the first language, but the present invention is not limited thereto. In another embodiment, at least one of a vocal feature, an emotion feature, and a rhyme feature may be extracted from the input speech of the other speaker. For example, the emotion feature and the rhyme feature may be extracted from the input speech of the first language, while the speech feature may be extracted from other input speech (e.g., the celebrity speech) to synthesize the speech. In this case, the synthesized voice reflects the emotion and the rhyme of the speaker who uttered the input voice of the first language, but the voice of the speaker (e.g., the famous person) who uttered another input voice may be reflected.
도 9는 본 개시의 일 실시예에 따른 운율 번역기(870)의 구성을 나타내는 도면이다. 도시된 바와 같이, 운율 번역기(870)는 운율 인코더(prosody encoder; 910), 어텐션(attention; 920) 및 운율 디코더(prosody decoder; 930)를 포함할 수 있다. 운율 인코더(910)는 운율 특징 추출기가 제1 언어(원본 언어)의 입력 음성으로부터 추출한 제1 언어의 운율 특징을 수신할 수 있다.9 is a diagram showing a configuration of a rhyme translator 870 according to an embodiment of the present disclosure. As shown, the rhyme translator 870 may include a prosody encoder 910, attention 920, and a prosody decoder 930. The prosodic encoder 910 may receive the prosodic feature of the first language extracted from the input speech of the first language (source language) by the prosodic feature extractor.
수신된 제1 운율 특징은 운율 인코더(910), 어텐션(920) 및 운율 디코더(930)를 거쳐, 제2 언어(번역될 언어)의 운율 특징으로 변환된다. 일 예에서, 운율 번역기(870)는 시퀀스-투-시퀀스 학습 모델(seq2seq; sequence-to-sequence model)을 이용하여 학습함으로써, 원본 언어의 운율 특징을 번역될 언어의 운율 특징으로 변환할 수 있다. 즉, 시퀀스-투-시퀀스 학습 모델은 RNN(recurrent neural network)에 기반한 인코더-디코더 구조(encoder-decoder architecture)("Sequence to Sequence Learning with Neural Networks," Ilya Sutskever, et al., 2014 참조)에 어텐션 구조(attention mechanism)("Neural Machine Translation by Jointly Learning to Align and Translate," Dzmitry Bahdanau, at al., 2015 및 "Effective Approaches to Attention-based Neural Machine Translation," Minh-Thang Luong, at al., 2015 참조)를 결합하여 구현될 수 있다.The received first rhyme feature is converted to a rhyme feature of the second language (the language to be translated) via the rhyme encoder 910, the attention 920, and the rhyme decoder 930. In one example, the rhyme translator 870 can transform the rhyme characteristics of the original language into the rhyme features of the language to be translated by learning using a sequence-to-sequence model (seq2seq) . That is, the sequence-to-sequence learning model is applied to an encoder-decoder architecture based on a recurrent neural network (RNN) (see "Sequence to Sequence Learning with Neural Networks," Ilya Sutskever, et al. Attention-based Neural Machine Translation, "Minh-Thang Luong, at al., &Quot; Dzmitry Bahdanau, at al., 2015 and" Effective Approaches to Attention-based Neural Machine Translation, 2015). ≪ / RTI >
도 10은 본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성기(1000)의 구성을 나타내는 도면이다. 도시된 것과 같이, 다중 언어 텍스트-음성 합성기(1000)는 인코더(1010), 디코더(1020) 및 보코더(1030)를 포함할 수 있다. 인코더(1010)는 입력 텍스트를 수신할 수 있다.FIG. 10 is a diagram illustrating a configuration of a multi-lingual text-to-speech synthesizer 1000 according to an embodiment of the present disclosure. As shown, the multilingual text-to-speech synthesizer 1000 may include an encoder 1010, a decoder 1020, and a vocoder 1030. The encoder 1010 may receive the input text.
입력 텍스트는 복수의 언어로 되어 있을 수 있으며, 언어 식별자나 언어에 대한 정보를 포함하지 않을 수 있다. 예를 들어서, 입력 텍스트는 "안녕하세요" 또는 "How are you?" 와 같은 문장을 포함할 수 있다. 인코더(1010)는 수신된 입력 텍스트를 자모 단위, 글자 단위, 음소(phoneme) 단위로 분리할 수 있다. 또는 인코더(1010)는 자모 단위, 글자 단위, 음소(phoneme) 단위로 분리된 입 력 텍스트를 수신할 수 있다.The input text may be in a plurality of languages, and may not include information on language identifiers or languages. For example, the input text may be "Hello" or "How are you?" And the like. The encoder 1010 can separate the received input text into alphabet, letter, and phoneme units. Or the encoder 1010 may receive input text separated in alphabet, character, and phoneme units.
인코더(1010)는 적어도 하나의 임베딩 레이어(예: EL 언어1, EL 언어2, ..., EL 언어N)를 포함할 수 있다. 인코더(1010)의 적어도 하나의 임베딩 레이어는 자모 단위, 글자 단위, 음소(phoneme) 단위로 분리된 입력 텍스트 각각을 텍스트 임베딩 벡터로 변환할 수 있다. 인코더(1010)는 분리된 입력 텍스트를 텍스트 임베딩 벡터로 변환하기 위하여 이미 학습된 기계 학습 모델을 사용할 수 있다. 인코더는 기계 학습을 수행하면서 기계 학습 모델을 갱신할 수 있다. 기계 학습 모델이 갱신되는 경우, 분리된 입력 텍스트에 대한 텍스트 임베딩 벡터도 변경될 수 있다.The encoder 1010 may include at least one embedded layer (e.g., EL language 1, EL language 2, ..., EL language N). At least one embedded layer of the encoder 1010 may convert each of the input texts separated by alphabet, letter, and phoneme into a text embedding vector. The encoder 1010 may use a previously learned machine learning model to transform the discrete input text into a text embedding vector. The encoder can update the machine learning model while performing machine learning. When the machine learning model is updated, the text embedding vector for the discrete input text can also be changed.
인코더(1010)는 텍스트 임베딩 벡터를 완전히 연결된 레이어(fully-connected layer)로 구성된 DNN(Deep Neural Network) 모듈에 입력할 수 있다. DNN은 일반적인 피드포워드 레이어(feedforward layer) 또는 선형 레이어(linear layer)일 수 있다.The encoder 1010 may input the text embedding vector to a Deep Neural Network (DNN) module configured as a fully-connected layer. The DNN may be a general feedforward layer or a linear layer.
인코더(1010)는 DNN의 출력을 CNN(convolutional neural network)과 RNN(Recurrent Neural Network) 중 적어도 하나가 포함된 모듈에 입력할 수 있다. 이 때, CNN과 RNN 중 적어도 하나가 포함된 모듈은 DNN의 출력과 함께 디코더(1020)의 임베딩 레이어의 출력(s)도 수신할 수 있다. CNN은 컨볼루션 커널(convolution kernel) 사이즈에 따른 지역적 특성을 포착할 수 있으며, RNN은 장기 의존성(long term dependency)을 포착할 수 있다. CNN과 RNN 중 적어도 하나가 포함된 모듈은 출력으로서 인코더(1010)의 숨겨진 상태들(h)을 출력할 수 있다.The encoder 1010 may input the output of the DNN to a module including at least one of a convolutional neural network (CNN) and a recurrent neural network (RNN). At this time, a module including at least one of CNN and RNN can receive the output (s) of the embedding layer of the decoder 1020 along with the DNN output. CNN can capture local characteristics according to the size of the convolution kernel, and the RNN can capture long term dependency. A module containing at least one of CNN and RNN may output the hidden states (h) of the encoder 1010 as an output.
디코더(1020)의 임베딩 레이어는 인코더(1010)의 임베딩 레이어와 유사한 연산을 수행할 수 있다. 임베딩 레이어는 화자 ID를 수신할 수 있다. 예를 들어 화자 ID는 원-핫 벡터일 수 있다. 일 실시예에서, "트럼프"의 화자 ID는 "1"로, "문재인"의 화자 ID는 "2"로, "오바마"의 화자 ID는 "3"으로 지정될 수 있다. 디코더(1020)의 임베딩 레이어는 화자 ID를 화자 임베딩 벡터(s)로 변환할 수 있다. 디코더(1020)는 화자 ID를 화자 임베딩 벡터(s)로 변환하기 위하여 이미 학습된 기계 학습 모델을 사용할 수 있다. 디코더(1020)는 기계 학습을 수행하면서 기계 학습 모델을 갱신할 수 있다. 기계 학습 모델이 갱신되는 경우, 화자 ID에 대한 화자 임베딩 벡터(s)도 변경될 수 있다.The embedding layer of the decoder 1020 may perform an operation similar to the embedding layer of the encoder 1010. The embedding layer may receive the speaker ID. For example, the speaker ID may be a one-hot vector. In one embodiment, the speaker ID of "Trump" may be designated as "1," the speaker ID of "MoonJin" may be designated as "2," and the speaker ID of "Obama" may be designated as "3". The embedding layer of decoder 1020 may convert the speaker ID into a speaker embedding vector s. Decoder 1020 may use the already learned machine learning model to transform the speaker ID into the speaker embedding vector s. Decoder 1020 may update the machine learning model while performing machine learning. If the machine learning model is updated, the speaker embedding vector s for the speaker ID can also be changed.
디코더(1020)의 어텐션(Attention)은 인코더로(1010)부터 인코더의 숨겨진 상태들(h)을 수신할 수 있다. 또한 디코더(1020)의 어텐션은 어텐션 RNN으로부터 정보를 수신할 수 있다. 어텐션 RNN으로부터 수신한 정보는 디코더(1020)가 이전 시간-단계(time-step)까지 어떤 음성을 생성했는지에 대한 정보일 수 있다. 또한 디코더(1020)의 어텐션은 어텐션 RNN으로부터 수신한 정보 및 인코더의 숨겨진 상태들(h)에 기초하여 컨텍스트 벡터(Ct)를 출력할 수 있다. 인코더의 숨겨진 상태들(h)은 음성을 생성해야 할 입력 텍스트에 대한 정보일 수 있다.The Attention of the decoder 1020 can receive the hidden states h of the encoder from the encoder 1010. Also, the attentions of the decoder 1020 may receive information from the Attention RNN. The information received from the Attention RNN may be information on which speech the decoder 1020 has generated until the previous time-step. The decoder 1020 can also output the context vector C t based on the information received from the Attention RNN and the hidden states h of the encoder. The hidden states (h) of the encoder may be information about the input text to which the speech should be generated.
컨텍스트 벡터(Ct)는 현재 시간-단계(time-step)에서 입력 텍스트 중 어떤 부분으로부터 음성을 생성할지 결정하기 위한 정보일 수 있다. 예를 들어, 디코더(1020)의 어텐션은 음성 생성의 초반에는 텍스트 입력의 앞부분에 기초하여 음성을 생성하고, 음성이 생성되어 감에 따라 점점 텍스트 입력의 뒷부분에 기초하여 음성을 생성하도록 하는 정보를 출력할 수 있다.The context vector Ct may be information for determining from which part of the input text the speech will be generated at the current time-step. For example, the attentions of the decoder 1020 may generate information based on the beginning of the text input at the beginning of speech generation, and generate information based on the later part of the text input as the speech is generated Can be output.
도시된 바와 같이, 디코더(1020)는 화자 임베딩 벡터(s)를 어텐션 RNN, 디코더 RNN 및 인코더(1010)의 CNN과 RNN 중 적어도 하나가 포함된 모듈에 입력하여, 화자마다 다르게 디코딩을 하도록 인공 신경망의 구조를 구성할 수 있다. 디코더(1020)의 RNN은 자동회귀(autoregressive) 방식으로 구성될 수 있다. 즉, 이전 시간 단계(time-step)에서 출력된 r 프레임들 출력이 이번 시간 단계의 입력으로 사용될 수 있다. 최초 시간 단계(1022)에는 이전 시간 단계가 존재하지 않으므로, 더미 프레임들이 DNN에 입력될 수 있다.As shown, the decoder 1020 inputs the speaker embedding vector s to a module including at least one of the Attention RNN, the Decoder RNN, and the CNN and RNN of the Encoder 1010, Can be constructed. The RNN of the decoder 1020 may be configured in an autoregressive manner. That is, the output of the r frames output at the previous time-step can be used as an input to this time step. Since there is no previous time step in the initial time step 1022, dummy frames may be input to the DNN.
디코더(1022)는 완전히-연결된 레이어(fully-connected layer)로 구성된 DNN을 포함할 수 있다. DNN은 일반적인 피드포워드 레이어(feedforward layer) 또는 선형 레이어(linear layer)일 수 있다. 또한, 디코더(1022)는 GRU로 구성된 어텐션 RNN을 포함할 수 있다. 어텐션 RNN은 어텐션에서 사용될 정보를 출력하는 레이어이다. 어텐션에 대해서는 위에서 설명하였으므로 자세한 설명은 생략한다.The decoder 1022 may include a DNN configured as a fully-connected layer. The DNN may be a general feedforward layer or a linear layer. Also, the decoder 1022 may include an Attention RNN configured as a GRU. Attention RNN is a layer that outputs information to be used in Attention. Attention is described above, so a detailed description is omitted.
디코더(1020)는 레지듀얼(residual) GRU로 구성된 디코더 RNN을 포함할 수 있다. 디코더 RNN은 어텐션으로부터 입력 텍스트의 위치 정보를 수신할 수 있다. 즉, 위치 정보는 디코더(1020)가 입력 텍스트의 어떤 위치를 음성으로 변환하고 있는지에 관한 정보일 수 있다.Decoder 1020 may include a decoder RNN configured with a residual GRU. The decoder RNN may receive location information of the input text from the Attention. That is, the location information may be information on which position of the input text the decoder 1020 is converting to speech.
디코더 RNN은 어텐션 RNN으로부터 정보를 수신할 수 있다. 어텐션 RNN으로부터 수신한 정보는 디코더가 이전 시간-단계(time-step)까지 어떤 음성을 생성했는지에 대한 정보 및 이번 시간-단계에서 생성해야 할 음성에 대한 정보일 수 있다. 디코더 RNN은 지금까지 생성한 음성에 이어질 다음 출력 음성을 생성할 수 있다. 출력 음성은 멜 스펙트로그램 형태를 가질 수 있으며, r개의 프레임으로 구성될 수 있다.The decoder RNN may receive information from the Attention RNN. The information received from the Attention RNN may be information on which voice the decoder has generated up to the previous time-step and information about the voice to be generated in this time-step. The decoder RNN can generate the next output speech that will follow the speech generated so far. The output speech may have a mel-spectrogram shape and may consist of r frames.
텍스트-음성 합성을 위하여 DNN, 어텐션 RNN 및 디코더 RNN의 동작은 반복적으로 수행될 수 있다. 예를 들어, 최초 시간 단계(1022)에서 획득된 r개의 프레임은 다음 시간 단계(1024)의 입력이 될 수 있다. 또한 시간-단계(1024)에서 출력된 r개의 프레임은 그 다음 시간-단계(1026)의 입력이 될 수 있다.The operation of the DNN, the Attention RNN and the Decoder RNN may be repeatedly performed for text-to-speech synthesis. For example, the r frames obtained in the initial time step 1022 may be the inputs of the next time step 1024. Also, the r frames output in the time-step 1024 may be the inputs of the next time-step 1026. [
상술한 바와 같은 과정을 통하여 텍스트의 모든 단위에 대한 음성이 생성될 수 있다. 텍스트-음성 합성 시스템은 각각의 시간 단계마다 나온 멜 스펙트로그램을 시간순으로 연결(concatenate)하여 전체 텍스트에 대한 멜 스펙트로그램을 획득할 수 있다. 디코더(1020)에서 생성된 전체 텍스트에 대한 멜 스펙트로그램은 제1 보코더(1030) 또는 제2 보코더(1040)로 출력될 수 있다.Through the above-described process, speech for all units of text can be generated. The text-to-speech synthesis system can concatenate mel-spectrograms at each time step in chronological order to obtain a mel-spectrogram for the entire text. The mel-spectrogram for the entire text generated at the decoder 1020 may be output to the first vocoder 1030 or the second vocoder 1040.
제1 보코더(1030)는 CNN과 RNN 중 적어도 하나가 포함된 모듈과 Griffin-Lim 복원 모듈을 포함할 수 있다. 제1 보코더(1030)의 CNN과 RNN 중 적어도 하나가 포함된 모듈은 인코더(1010)의 CNN과 RNN 중 적어도 하나가 포함된 모듈과 유사한 동작을 할 수 있다. 즉, 제1 보코더(1030)의 CNN과 RNN 중 적어도 하나가 포함된 모듈은 지역적 특성과 장기 의존성을 포착할 수 있으며, 선형-스케일 스펙트로그램(linear-scale spectrogram)을 출력할 수 있다. 제1 보코더(1030)는 선형-스케일 스펙트로그램에 대해 Griffin-Lim 알고리즘을 적용하여 입력 텍스트에 대응되는 음성 신호를 화자 ID에 해당하는 목소리로 모사하여 출력할 수 있다.The first vocoder 1030 may include a module including at least one of CNN and RNN and a Griffin-Lim reconstruction module. A module including at least one of CNN and RNN of the first vocoder 1030 may perform an operation similar to a module including at least one of CNN and RNN of the encoder 1010. [ That is, the module including at least one of CNN and RNN of the first vocoder 1030 can capture the regional characteristics and long-term dependency, and can output a linear-scale spectrogram. The first vocoder 1030 may apply a Griffin-Lim algorithm to the linear-scale spectrogram to output a speech signal corresponding to the input text, with a voice corresponding to the speaker ID.
제2 보코더(1040)는 기계학습모델에 기초하여 멜 스펙트로그램으로부터 음성 신호를 획득할 수 있다. 기계학습모델은 멜 스펙트로그램으로부터 음성 신호를 예측하는 네트워크를 학습한 것일 수 있다. 예를 들어, 기계학습모델은 WaveNet 또는 WaveGlow와 같은 모델이 사용될 수 있다. 제2 보코더(1040)는 제1 보코더(1030)를 대체하여 사용될 수 있다.The second vocoder 1040 may obtain a speech signal from the mel spectrogram based on a machine learning model. The machine learning model may have learned a network that predicts speech signals from mel-spectrograms. For example, a machine learning model can be a model such as WaveNet or WaveGlow. The second vocoder 1040 may be used in place of the first vocoder 1030. [
이러한 인공 신경망 기반의 다중 언어 텍스트-음성 합성기(1000)는 다국어의 학습 텍스트와 그에 대응되는 학습 음성 신호의 쌍으로 존재하는 대용량의 데이터 베이스를 이용하여 학습된다. 다중 언어 텍스트-음성 합성기(1000)는 학습 텍스트를 수신하고, 출력된 음성 신호를 학습 음성 신호와 비교하여 손실 함수(loss function)를 정의할 수 있다. 음성 합성기는 손실 함수를 오차 역전파(error back propagation) 알고리즘을 통해 학습하여, 최종적으로 임의의 텍스트를 입력했을 때 원하는 음성 출력이 나오는 인공 신경망을 얻을 수 있다.The artificial neural network-based multi-language text-to-speech synthesizer 1000 is learned by using a large-capacity database existing as a pair of learning texts of a multi-language language and corresponding learning speech signals. The multi-lingual text-to-speech synthesizer 1000 can receive the training text and compare the output speech signal with the training speech signal to define a loss function. The speech synthesizer learns the loss function through the error back propagation algorithm and finally obtains the artificial neural network with the desired speech output when arbitrary text is input.
다중 언어 텍스트-음성 합성기(1000)는 위와 같은 방법으로 생성된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여, 특정 화자의 목소리를 모사하는 음성을 합성할 수 있다. 또한 다중 언어 텍스트-음성 합성기(1000)는 특정 화자의 모국어와 다른 언어의 음성도 해당 화자의 목소리를 모사하여 합성할 수 있다. 즉, 다중 언어 텍스트-음성 합성기(1000)는 제1 언어를 구사하는 화자가 제2 언어를 말하는 음성을 합성할 수 있다. 예를 들어, 트럼프가 입력된 한국어 텍스트를 한국어로 말하는 것처럼 음성을 합성할 수 있다.The multi-lingual text-to-speech synthesizer 1000 can synthesize a voice simulating a voice of a specific speaker using a single artificial neural network text-speech synthesis model generated by the above method. In addition, the multi-language text-to-speech synthesizer 1000 can synthesize voices of a speaker in a language different from the native language of a specific speaker by synthesizing voices of the speaker. That is, the multilingual text-to-speech synthesizer 1000 can synthesize a speech in which a speaker who speaks a first language speaks a second language. For example, a voice can be synthesized as if a trump is spoken in Korean in the input Korean text.
도 11은 IPA(International Phonetic Alphabet)와 KoG2P 음소의 대응관계 및 영어와 한국어의 공통된 발음을 가지는 음소의 대응관계를 나타낸다. 서로 다른 언어의 발음은 하나의 알파벳 체계인 IPA(International Phonetic Alphabet)에 의해 기술될 수 있다. 서로 다른 언어의 발음에 대한 IPA는 유사성 정보로 이용될 수 있다. IPA-CMUdict와 IPA-KoG2P의 변환 표는 표(1110)와 같다. IPA 측면에서 제1 언어 음소와 제2 언어의 음소 간에는 일대일 대응이 이루어지지 않지만, 제1 언어와 제2 언어의 공통된 발음을 갖는 음소를 포함하는 부분집합을 선택할 수 있다. 예를 들어, 영어와 한국어의 공통된 발음을 갖는 음소를 선택한 하위 집합은 표(1120)와 같다.Fig. 11 shows correspondence relationships between IPA (International Phonetic Alphabet) and KoG2P phonemes and phonemes having common pronunciation in English and Korean. Pronunciation of different languages can be described by the International Phonetic Alphabet (IPA), an alphabetic system. IPA for pronunciation of different languages can be used as similarity information. The conversion tables of IPA-CMUdict and IPA-KoG2P are shown in Table 1110. In terms of IPA, a one-to-one correspondence is not made between the first language phoneme and the second language phoneme, but a subset including phonemes having a common pronunciation of the first language and the second language can be selected. For example, a subset of phonemes with a common pronunciation of English and Korean is shown in Table 1120.
제1 언어와 제2 언어는 서로 다른 문자 체계를 가지고 있을 수 있으며, 서로 다른 발음 체계를 가지고 있을 수 있다. 동일한 알파벳 체계인 IPA를 이용하여 제1 언어와 제2 언어를 표현하는 경우, 각각의 언어에 대하여 표준화된 처리를 통하여 음성 합성 모델을 획득할 수 있다. 하지만, IPA는 각각의 언어를 동일한 알파벳 체계로 표현할 뿐, 서로 다른 언어의 발음 또는 표기의 유사성을 완벽히 나타내 주지 못한다. 예를 들어, 제1 언어에 사용되는 IPA 알파벳이 제2 언어에서는 전혀 사용되지 않을 수 있다. 음성 합성 모델은 제1 언어에서만 사용되는 IPA 알파벳을 제2 언어의 어느 IPA 알파벳에 대응시킬지 알 수 없으므로, IPA를 이용하는 경우 각각의 언어에 특화된 음성 합성 모델만 획득될 수 있다. 즉, 제1 언어에 대한 음성 합성 모델은 제1 언어와 관련된 데이터를 처리할 수 있을 뿐 제2 언어와 관련된 데이터를 처리할 수 없다. 반대로 제2 언어에 대한 음성 합성 모델은 제2 언어와 관련된 데이터를 처리할 수 있을 뿐 제1 언어와 관련된 데이터를 처리할 수 없다.The first language and the second language may have different character systems, and may have different pronunciation systems. When the first language and the second language are expressed using IPA, which is the same alphabetic system, the speech synthesis model can be obtained through standardized processing for each language. IPA, however, does not completely represent the similarity of pronunciation or notation of different languages, although each language is represented by the same alphabetic system. For example, the IPA alphabet used in the first language may not be used at all in the second language. Since the speech synthesis model can not know which IPA alphabet in the second language will correspond to the IPA alphabet used in the first language, only the speech synthesis model specific to each language can be obtained when IPA is used. That is, the speech synthesis model for the first language can only process data associated with the first language and can not process data associated with the second language. Conversely, the speech synthesis model for the second language can only process data associated with the second language and can not process data associated with the first language.
도 12는 한국어 음소와 가장 유사한 영어 음소를 나타낸 표를 나타낸다. 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템은 기계학습모델에 기초하여 언어들의 앵커(anchor) 음소에 대해 음소 간의 코사인 거리를 계산할 수 있다. 코사인 거리를 계산하기 위하여 기계 학습 모델에 기초하여 획득된 음소 임베딩 벡터가 이용될 수 있다. 음소 간의 코사인 거리는 음소 간의 유사도를 나타낼 수 있다.12 shows a table showing English phonemes most similar to Korean phonemes. The text-to-speech synthesis system according to one embodiment of the present disclosure can calculate the cosine distance between phonemes for anchor phonemes of languages based on a machine learning model. The phoneme embedding vectors obtained based on the machine learning model can be used to calculate the cosine distance. The cosine distance between phonemes can indicate the similarity between phonemes.
계산된 음소 간의 코사인 거리에 기초하여 한국어의 음소에 대한 5 개의 가장 가까운 영어의 음소 임베딩을 열거하면, 표(1210)와 같다. 영어 음소 임베딩의 뒤에 붙은 숫자 0, 1 및 2는 각각 "스트레스 없음", "1 차 스트레스"및 "2 차 스트레스"를 나타낸다. CMUdict는 강조된 발음을 구별하는 반면, IPA는 강조된 발음을 구별하지 않을 수 있다. 괄호 안의 기호는 IPA 기호이다.The phonemic embedding of the five closest English words for Korean phonemes based on the calculated cosine distance between phonemes is shown in Table 1210. The numbers 0, 1 and 2 after the English phoneme embedding represent "no stress", "primary stress" and "secondary stress", respectively. While CMUdict distinguishes emphasized pronunciations, IPA may not distinguish emphasized pronunciations. The symbols in parentheses are the IPA symbols.
표(1210)에 따르면, 본 개시의 일 실시예에 따른 기계학습모델에 기초한 앵커(anchor) 음소에 대한 5개의 가장 가까운 음소 임베딩은 도 11의 표(1120)와 유사한 것을 확인할 수 있다. 즉, 본 개시의 일 실시예에 따른 기계 학습 모델은 제1 언어의 음소 및 제2 언어의 음소 사이의 발음에 대한 유사성 정보 또는 표기에 대한 유사성 정보, 제1 언어에 대한 언어 식별자/언어 정보, 그리고 제2 언어에 대한 언어 식별자/언어 정보를 학습시에 입력 받지 않아도, 언어 간의 유사한 발음 또는 표기를 자동으로 학습하는 것을 확인할 수 있다. 따라서 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템은 단일 인공 신경망 텍스트-음성 합성 모델에 기초하여 학습한 복수의 언어에 대하여 텍스트-음성 합성(TTS)을 수행할 수 있다.According to table 1210, it can be seen that the five closest phonemic embedding for an anchor phoneme based on the machine learning model according to one embodiment of the present disclosure is similar to table 1120 of FIG. That is, the machine learning model according to an embodiment of the present disclosure may include similarity information on pronunciation between phonemes of a first language and phonemes of a first language, similarity information on notation, language identifier / language information for a first language, Even if the language identifier / language information for the second language is not input at the time of learning, it can be confirmed that similar pronunciation or notation of the language is automatically learned. Thus, the text-to-speech synthesis system according to one embodiment of the present disclosure can perform text-to-speech synthesis (TTS) on a plurality of languages learned based on a single artificial neural network text-speech synthesis model.
도 13 은 영어 음소로 생성된 음성과 한국어 음소로 생성된 음성의 유사성을 나타내는 스펙트로그램이다. 스펙트로그램(1310)은 "He has many good friends"라는 문장을 영어 음소 시퀀스(HH, IY1, , HH, AE1, Z, , M, EH1, N, IY0, , G, UH1, D, , F, R, EH1, N, D, Z)로 음성을 합성한 결과이다. 스펙트로그램(1320)은 동일한 문장의 영어 음소 시퀀스 내의 각 음소를 가장 가까운 한국어 음소로 대체하여 생성된 한국어 음소 시퀀스(h0, wi, , h0, ya, s0, , mf, ye, nf, ii, , kk, yo, tt, , ph, ks, ye, nf, tt, s0)로 음성을 합성한 결과이다.13 is a spectrogram showing the similarity between a voice generated in English phonemes and a voice generated in Korean phonemes. The spectrogram 1310 contains the sentences "He has many good friends" in English phoneme sequences HH, IY1, HH, AE1, Z, M, EH1, N, IY0, G, UH1, D, R, EH1, N, D, Z). The spectrogram 1320 generates the Korean phoneme sequences h0, wi, h0, ya, s0, mf, ye, nf, ii, and hn, which are generated by replacing each phoneme in the English phoneme sequence of the same sentence with the closest Korean phoneme. kk, yo, tt, ph, ks, ye, nf, tt, s0).
스펙트로그램(1310)과 스펙트로그램(1320)을 비교하면, 영어 음소 시퀀스로 음성을 합성한 결과물과 한국어 음소 시퀀스로 음성을 합성한 결과물이 유사함을 확인할 수 있다. 따라서, 제1 언어의 음소들을 이용하여 제2 언어의 텍스트를 음성으로 합성하여도 고품질의 음성 합성 결과물을 얻을 수 있다는 것을 확인할 수 있다. 즉, 제1 언어로 발화한 화자의 발성 특징을 이용하여 제2 언어의 텍스트를 음성으로 합성해도 제1 언어가 모국어인 해당 화자가 제2 언어로 발화하는 결과물을 얻을 수 있다.The comparison between the spectrogram 1310 and the spectrogram 1320 shows that the result of synthesizing the voice with the English phoneme sequence is similar to the result of synthesizing the voice with the Korean phoneme sequence. Thus, it can be seen that high-quality speech synthesis results can be obtained even if speech of the second language is synthesized by using phonemes of the first language. That is, even if the text of the second language is synthesized by voice using the utterance characteristic of the speaker uttered in the first language, the result that the corresponding speaker of the first language is the utterance in the second language can be obtained.
도 14는 TTS 기계학습 모델을 학습하는데 사용된 영어 데이터의 시간 변화에 따른 character error rate(CER)를 나타내는 표(1410)다. 본 예시에서, TTS 기계학습 모델은 충분한 한국어 학습 데이터가 있는 조건에서, 영어 학습 데이터의 양을 바꿔가면서 학습되었다. 표(1410)는 음성 합성 품질을 수치화하기 위해 텍스트로부터 합성된 음성 출력물을 청취한 사람이 문자로 기록하고, 원본 텍스트와 결과를 비교한 에러율을 나타낸다.14 is a table (1410) showing the character error rate (CER) according to the time change of the English data used for learning the TTS machine learning model. In the present example, the TTS machine learning model was learned by changing the amount of English learning data on condition that there is sufficient Korean learning data. The table 1410 shows the error rate in which the person who listened to the voice output synthesized from the text to characterize the voice synthesis quality records the characters and compares the result with the original text.
표(1410)에 따르면, 영어 텍스트와 한국어 화자의 발성 특징을 TTS 기계학습 모델에 입력하여, 해당 화자의 영어 텍스트에 대응되는 영어 스피치를 합성하는 경우, 사용된 영어 학습 데이터의 시간이 늘어날수록 CER이 줄어든다. 즉, 기계학습에 사용되는 영어 학습 데이터의 시간이 늘어날수록, 한국어 화자가 읽은 영어 텍스트의 스피치에 대한 CER은 줄어든다.According to the table 1410, when the English text and the utterance characteristic of the Korean speaker are input to the TTS machine learning model and the English speech corresponding to the English text of the speaker is synthesized, the CER Is reduced. That is, as the time of the English learning data used in the machine learning increases, the CER for the speech of the English text read by the Korean speaker decreases.
반면, 한국어 텍스트와 영어 화자의 발성 특징을 TTS 기계학습 모델에 입력하여, 해당 화자의 한국어 텍스트에 대응되는 한국어 스피치를 합성하는 경우, 사용된 영어 학습 데이터의 시간이 늘어나더라도 CER은 큰 차이가 없다. 이는 기계학습에 사용한 한국어로 된 데이터의 양이 영어의 데이터양보다 많아서, CER이 이미 임계까지 줄어든 상태를 나타낼 수 있다. 텍스트-음성 합성 시스템이 임계량 이상의 데이터를 이용하여 기계학습을 하는 경우 CER을 충분히 줄일 수 있음을 확인할 수 있다. 또한, 많은 양의 한국어 학습 데이터와 적은 양의 영어 학습 데이터를 이용하여 TTS 기계학습 모델을 학습시키는 경우에도, 영어 텍스트를 스피치로 합성한 결과물이 비교적 높은 품질로 생성되는 것을 확인할 수 있다.On the other hand, when the Korean speech and the utterance characteristic of the English speaker are input to the TTS machine learning model and the Korean speech corresponding to the Korean text of the speaker is synthesized, the CER does not greatly differ even if the time of the English learning data used increases . This means that the amount of data in Korean used in machine learning is larger than the amount of data in English, so that the CER can be already reduced to a critical level. It can be confirmed that the CER can be sufficiently reduced when the text-to-speech synthesis system performs the machine learning using data exceeding a critical amount. In addition, even when the TTS machine learning model is learned using a large amount of Korean learning data and a small amount of English learning data, it can be confirmed that the result of synthesizing the English text with speech is produced with relatively high quality.
본 개시에 따르면, 복수의 언어에 대한 입력 텍스트(text input)와 출력 음성(audio output)만으로 엔드 투 엔드(end-to-end)로 다언어 TTS 기계학습 모델을 생성하는 것이 가능하다. 또한, 기존 방식에서는 서로 다른 언어들이 하나의 언어적 특징 세트(linguistic feature set)로 표현하기 위해 IPA와 같은 여러 언어에서 공통으로 사용할 수 있는 표기법을 필요로 하거나 언어 간의 유사성에 대한 사전 정보를 필요로 했다. 하지만 본 개시에 따르면 언어적 특징(linguistic feature)이 필요한 것이 아니므로 각 언어가 다른 알파벳을 사용해도 무방하고 언어간 유사성에 대한 사전 정보가 필요로 하지 않다.According to the present disclosure, it is possible to create a multilingual TTS machine learning model end-to-end with only text input and output audio for multiple languages. In addition, in the conventional method, different languages need a notation that can be commonly used in various languages such as IPA in order to express a linguistic feature set, or a dictionary information about the similarity between languages is needed did. However, according to this disclosure, linguistic features are not required, so that each language may use a different alphabet and does not require prior knowledge of similarity between languages.
또한, 본 개시는 모델을 엔드 투 엔드(end-to-end)로 학습시키므로 음소 길이(phoneme duration) 등의 기존 TTS에서 필요했던 특징(feature)들을 별도의 모델을 활용하여 예측할 필요가 없이 단일 신경망(neural network) 모델로 텍스트-음성 합성(TTS) 작업을 처리할 수 있다. 또한, 본 개시에 따르면 텍스트 인코더(Text encoder)에서 텍스트 인코딩(text encoding)을 추출하는 과정에서 화자 ID(speaker ID)의 사용여부에 따라 교포말투/유창한 말투를 조절할 수 있다. 예를 들어, 제1 언어의 음성을 생성할 때 제2 언어의 발음이 강한 경우, 학습할 때 패널티를 줄 수 있다. 패널티를 적용한 기계학습모델에 따르면, 보다 제1 언어의 발음에 가깝게 음성이 생성될 수 있다.In addition, this disclosure teaches the model end-to-end so that it is not necessary to predict the features needed in the existing TTS, such as phoneme duration, using a separate model, (TTS) task with a neural network model. In addition, according to the present disclosure, in the process of extracting the text encoding from the text encoder, it is possible to control the Korean / English speech according to whether the speaker ID is used. For example, if the pronunciation of the second language is strong when generating the voice of the first language, a penalty may be given to the learning. According to the machine learning model to which the penalty is applied, speech can be generated more closely to the pronunciation of the first language.
도 15는 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템(1500)의 블록도이다. 일 실시예에 따른 텍스트-음성 합성 시스템(1500)은 데이터 학습부(1510) 및 데이터 인식부(1520)를 포함할 수 있다. 데이터 학습부(1510)는 데이터를 입력하여 기계학습모델을 획득할 수 있다. 또한 데이터 인식부(1520)는 데이터를 기계학습모델에 적용하여 출력 음성을 생성할 수 있다. 상술한 바와 같은 텍스트-음성 합성 시스템(1500)은 프로세서 및 메모리를 포함할 수 있다.15 is a block diagram of a text-to-speech synthesis system 1500 in accordance with one embodiment of the present disclosure. The text-to-speech synthesis system 1500 according to one embodiment may include a data learning unit 1510 and a data recognition unit 1520. The data learning unit 1510 can input data and acquire a machine learning model. The data recognition unit 1520 can also apply the data to the machine learning model to generate output speech. The text-to-speech synthesis system 1500 as described above may include a processor and a memory.
데이터 학습부(1510)는 텍스트에 대한 음성 학습할 수 있다. 데이터 학습부(1510)는 텍스트에 따라 어떤 음성을 출력할지에 관한 기준을 학습할 수 있다. 또한, 데이터 학습부(1510)는 어떤 음성의 특징을 이용하여 음성을 출력할지에 관한 기준을 학습할 수 있다. 음성의 특징은 음소의 발음, 사용자의 어조, 억양 또는 강세 중 적어도 하나를 포함할 수 있다. 데이터 학습부(1510)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 학습모델에 적용함으로써, 텍스트에 따른 음성을 학습할 수 있다.The data learning unit 1510 can learn the voice of the text. The data learning unit 1510 can learn a criterion as to which voice to output according to the text. In addition, the data learning unit 1510 can learn a criterion as to which voice feature should be used to output the voice. The feature of the speech may include at least one of pronunciation of the phoneme, tone of the user, accentuation, or accentuation. The data learning unit 1510 acquires data to be used for learning, and applies the obtained data to a data learning model, which will be described later, so as to learn speech based on the text.
데이터 인식부(1520)는 텍스트에 기초하여 텍스트에 대한 음성을 출력할 수 있다. 데이터 인식부(1520)는 학습된 데이터 학습모델을 이용하여, 소정의 텍스트로부터 음성을 출력할 수 있다. 데이터 인식부(1520)는 학습에 의한 미리 설정된 기준에 따라 소정의 텍스트(데이터)를 획득할 수 있다. 또한, 데이터 인식부(1520)는 획득된 데이터를 입력 값으로 하여 데이터 학습모델을 이용함으로써, 소정의 데이터에 기초한 음성을 출력할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 학습모델에 의해 출력된 결과 값은, 데이터 학습모델을 갱신하는데 이용될 수 있다.The data recognition unit 1520 can output a voice for the text based on the text. The data recognition unit 1520 can output speech from a predetermined text using the learned data learning model. The data recognition unit 1520 can acquire predetermined text (data) according to a preset reference by learning. In addition, the data recognition unit 1520 can output a voice based on predetermined data by using the acquired data as an input value and using the data learning model. Further, the resultant value output by the data learning model with the obtained data as an input value can be used to update the data learning model.
데이터 학습부(1510) 또는 데이터 인식부(1520) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1510) 또는 데이터 인식부(1520) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 이미 설명한 각종 전자 장치에 탑재될 수도 있다.At least one of the data learning unit 1510 or the data recognition unit 1520 may be manufactured in at least one hardware chip form and mounted on the electronic device. For example, at least one of the data learning unit 1510 and the data recognition unit 1520 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or may be a conventional general-purpose processor Or an application processor) or a graphics processor (e.g., a GPU), and may be mounted on various electronic devices already described.
또한 데이터 학습부(1510) 및 데이터 인식부(1520)는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1510) 및 데이터 인식부(1520) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1510) 및 데이터 인식부(1520)는 유선 또는 무선으로 통하여, 데이터 학습부(1510)가 구축한 모델 정보를 데이터 인식부(1520)로 제공할 수도 있고, 데이터 인식부(1520)로 입력된 데이터가 추가 학습 데이터로써 데이터 학습부(1510)로 제공될 수도 있다.Further, the data learning unit 1510 and the data recognition unit 1520 may be mounted on separate electronic devices, respectively. For example, one of the data learning unit 1510 and the data recognizing unit 1520 may be included in the electronic device, and the other one may be included in the server. The data learning unit 1510 and the data recognizing unit 1520 may provide the model information constructed by the data learning unit 1510 to the data recognizing unit 1520 through the wired or wireless communication, 1520 may be provided to the data learning unit 1510 as additional learning data.
한편, 데이터 학습부(1510) 또는 데이터 인식부(1520) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 메모리 또는 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다. At least one of the data learning unit 1510 and the data recognition unit 1520 may be implemented as a software module. When at least one of the data learning unit 1510 and the data recognition unit 1520 is implemented as a software module (or a program module including instructions), the software module may be a memory or a computer readable non- And may be stored in non-transitory computer readable media. Also, in this case, the at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and some of the software modules may be provided by a predetermined application.
본 개시의 일 실시예에 따른 데이터 학습부(1510)는 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 및 모델 평가부(1515)를 포함할 수 있다.The data learning unit 1510 according to an embodiment of the present disclosure includes a data acquisition unit 1511, a preprocessing unit 1512, a learning data selection unit 1513, a model learning unit 1514, and a model evaluation unit 1515 .
데이터 획득부(1511)는 기계학습에 필요한 데이터를 획득할 수 있다. 학습을 위해서는 많은 데이터가 필요하므로, 데이터 획득부(1511)는 복수의 텍스트 및 그에 대응되는 음성을 수신할 수 있다.The data acquisition unit 1511 can acquire data necessary for machine learning. Since a lot of data is required for learning, the data acquisition unit 1511 can receive a plurality of texts and corresponding sounds.
전처리부(1512)는 사용자의 심리 상태 판단을 위하여 획득된 데이터가 기계학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1512)는 후술할 모델 학습부(1514)가 이용할 수 있도록, 획득된 데이터를 미리 설정된 포맷으로 가공할 수 있다. 예를 들어 전처리부(1512)는 텍스트 및 음성을 형태소 분석하여 형태소 임베딩을 획득할 수 있다.The preprocessing unit 1512 can pre-process the acquired data so that the acquired data can be used for machine learning to determine the psychological state of the user. The preprocessing unit 1512 can process the acquired data into a predetermined format so that it can be used by the model learning unit 1514 to be described later. For example, the preprocessor 1512 may morpheme text and speech to obtain morpheme embedding.
학습 데이터 선택부(1513)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1514)에 제공될 수 있다. 학습 데이터 선택부(1513)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1513)는 후술할 모델 학습부(1514)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.The learning data selection unit 1513 can select data necessary for learning from the preprocessed data. The selected data may be provided to the model learning unit 1514. The learning data selection unit 1513 can select data required for learning from among the preprocessed data according to a preset reference. The learning data selection unit 1513 can also select data according to a predetermined reference by learning by the model learning unit 1514, which will be described later.
모델 학습부(1514)는 학습 데이터에 기초하여 텍스트에 따라 어떤 음성을 출력할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1514)는 텍스트에 따라 음성을 출력하는 학습모델을 학습 데이터로써 이용하여 학습시킬 수 있다. 이 경우, 데이터 학습모델은 미리 구축된 모델을 포함할 수 있다. 예를 들어, 데이터 학습모델은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델을 포함할 수 있다.The model learning unit 1514 can learn a criterion as to which speech to output according to the text based on the learning data. In addition, the model learning unit 1514 can use a learning model for outputting speech according to text as learning data. In this case, the data learning model may include a pre-built model. For example, the data learning model may include a pre-built model that receives basic learning data (e.g., a sample image, etc.).
데이터 학습모델은, 학습모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 학습모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델을 포함할 수 있다. 예컨대, Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), BRDNN (Bidirectional Recurrent Deep Neural Network), Convolutional Neural Networks (CNN) 등과 같은 모델이 데이터 학습모델로써 사용될 수 있으나, 이에 한정되지 않는다.The data learning model can be constructed considering the application field of the learning model, the purpose of learning, or the computer performance of the device. The data learning model may include, for example, a model based on a neural network. For example, models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), Bidirectional Recurrent Deep Neural Network (BRDNN), and Convolutional Neural Networks But is not limited thereto.
다양한 실시예에 따르면, 모델 학습부(1514)는 미리 구축된 데이터 학습모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 학습모델을 학습할 데이터 학습모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 학습모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다. According to various embodiments, the model learning unit 1514 can determine a data learning model to learn a data learning model having a great relation between the input learning data and the basic learning data, if there are a plurality of data learning models that are built in advance have. In this case, the basic learning data may be pre-classified according to the type of data, and the data learning model may be pre-built for each data type. For example, the basic learning data may be pre-classified by various criteria such as an area where the learning data is generated, a time at which the learning data is generated, a size of the learning data, a genre of the learning data, a creator of the learning data, .
또한, 모델 학습부(1514)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 학습모델을 학습시킬 수 있다.Also, the model learning unit 1514 can learn a data learning model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
또한, 모델 학습부(1514)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(1514)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(1514)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 학습모델을 학습할 수 있다.Further, the model learning unit 1514 can learn a data learning model through supervised learning using, for example, learning data as an input value. In addition, the model learning unit 1514 learns, for example, the type of data necessary for the situation determination without any further guidance, thereby to perform data learning (e.g., learning) through unsupervised learning The model can be learned. Further, the model learning unit 1514 can learn the data learning model through reinforcement learning using, for example, feedback as to whether the result of the situation judgment based on learning is correct.
또한, 데이터 학습모델이 학습되면, 모델 학습부(1514)는 학습된 데이터 학습모델을 저장할 수 있다. 이 경우, 모델 학습부(1514)는 학습된 데이터 학습모델을 데이터 인식부(1520)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1514)는 학습된 데이터 학습모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.Further, when the data learning model is learned, the model learning unit 1514 can store the learned data learning model. In this case, the model learning unit 1514 can store the learned data learning model in the memory of the electronic device including the data recognition unit 1520. [ Alternatively, the model learning unit 1514 may store the learned data learning model in the memory of the server connected to the electronic device and the wired or wireless network.
이 경우, 학습된 데이터 학습모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.In this case, the memory in which the learned data learning model is stored may also store instructions or data associated with, for example, at least one other component of the electronic device. The memory may also store software and / or programs. The program may include, for example, a kernel, a middleware, an application programming interface (API), and / or an application program (or "application").
모델 평가부(1515)는 데이터 학습모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1514)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 학습모델을 평가하기 위한 기 설정된 데이터를 포함할 수 있다.The model evaluation unit 1515 inputs the evaluation data to the data learning model, and if the result output from the evaluation data does not satisfy the predetermined criterion, the model evaluation unit 1515 can cause the model learning unit 1514 to learn again. In this case, the evaluation data may include predetermined data for evaluating the data learning model.
예를 들어, 모델 평가부(1515)는 평가 데이터에 대한 학습된 데이터 학습모델의 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 학습모델이 총 1,000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1515)는 학습된 데이터 학습모델이 적합하지 않은 것으로 평가할 수 있다.For example, when the number or ratio of evaluation data whose recognition result is not correct is greater than a predetermined threshold value among the results of the learned data learning model for evaluation data, the model evaluation unit 1515 . For example, when a predetermined criterion is defined as a ratio of 2%, and the learned data learning model outputs an incorrect recognition result for evaluation data exceeding 20 out of a total of 1,000 evaluation data, Can be assessed as inappropriate.
한편, 학습된 데이터 학습모델이 복수 개가 존재하는 경우, 모델 평가부(1515)는 각각의 학습된 동영상 학습모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 학습모델로써 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1515)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 학습모델로써 결정할 수 있다.On the other hand, when there are a plurality of learned data learning models, the model evaluating unit 1515 evaluates whether each of the learned moving learning models satisfies a predetermined criterion, and uses a model satisfying a predetermined criterion as a final data learning model You can decide. In this case, when there are a plurality of models satisfying the predetermined criterion, the model evaluation unit 1515 can determine any one or a predetermined number of models previously set in descending order of the evaluation score, using the final data learning model.
한편, 데이터 학습부(1510) 내의 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 또는 모델 평가부(1515) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 또는 모델 평가부(1515) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.At least one of the data acquiring unit 1511, the preprocessing unit 1512, the learning data selecting unit 1513, the model learning unit 1514, or the model evaluating unit 1515 in the data learning unit 1510 includes at least one And can be mounted on an electronic device. For example, at least one of the data acquisition unit 1511, the preprocessor 1512, the learning data selection unit 1513, the model learning unit 1514, or the model evaluation unit 1515 may be an artificial intelligence (AI) Or may be implemented as part of a conventional general-purpose processor (e.g., a CPU or an application processor) or a graphics-only processor (e.g., a GPU) and mounted on the various electronic devices described above.
또한, 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 및 모델 평가부(1515)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 및 모델 평가부(1515) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.The data acquisition unit 1511, the preprocessing unit 1512, the learning data selection unit 1513, the model learning unit 1514, and the model evaluation unit 1515 may be mounted on one electronic device, Electronic devices, respectively. For example, some of the data acquisition unit 1511, the preprocessing unit 1512, the learning data selection unit 1513, the model learning unit 1514, and the model evaluation unit 1515 are included in the electronic device, May be included in the server.
또한, 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 또는 모델 평가부(1515) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 또는 모델 평가부(1515) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.At least one of the data acquisition unit 1511, the preprocessing unit 1512, the learning data selection unit 1513, the model learning unit 1514, and the model evaluation unit 1515 may be implemented as a software module. At least one of the data acquisition unit 1511, the preprocessing unit 1512, the learning data selection unit 1513, the model learning unit 1514 or the model evaluation unit 1515 is a software module (or a program including an instruction) Module), the software module may be stored in a computer-readable, readable non-transitory computer readable media. Also, in this case, the at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and some of the software modules may be provided by a predetermined application.
본 개시의 일 실시예에 따른 데이터 인식부(1520)는 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 및 모델 갱신부(1525)를 포함할 수 있다.The data recognizing unit 1520 according to an embodiment of the present invention includes a data obtaining unit 1521, a preprocessing unit 1522, a recognition data selecting unit 1523, a recognition result providing unit 1524, and a model updating unit 1525, . ≪ / RTI >
데이터 획득부(1521)는 음성을 출력하기 위해 필요한 텍스트를 획득할 수 있다. 반대로 데이터 획득부(1521)는 텍스트를 출력하기 위해 필요한 음성을 획득할 수 있다. 전처리부(1522)는 음성 또는 텍스트를 출력하기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1522)는 후술할 인식 결과 제공부(1524)가 음성 또는 텍스트를 출력하기 위해 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. The data acquisition unit 1521 can acquire the text necessary for outputting the voice. Conversely, the data acquisition unit 1521 can acquire the voice necessary for outputting the text. The preprocessing unit 1522 may preprocess the acquired data so that the acquired data may be used to output voice or text. The preprocessing unit 1522 can process the obtained data into a predetermined format so that the recognition result providing unit 1524, which will be described later, can use the data obtained for outputting voice or text.
인식 데이터 선택부(1523)는 전처리된 데이터 중에서 음성 또는 텍스트를 출력하기 위해 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1524)에게 제공될 수 있다. 인식 데이터 선택부(1523)는 음성 또는 텍스트를 출력하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1523)는 모델 학습부(1514)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.The recognition data selection unit 1523 can select data necessary for outputting voice or text among the preprocessed data. The selected data may be provided to the recognition result provider 1524. The recognition data selection unit 1523 can select some or all of the preprocessed data according to a predetermined criterion for outputting voice or text. The recognition data selecting unit 1523 can also select data according to a predetermined reference by learning by the model learning unit 1514. [
인식 결과 제공부(1524)는 선택된 데이터를 데이터 학습모델에 적용하여 음성 또는 텍스트를 출력할 수 있다. 인식 결과 제공부(1524)는 인식 데이터 선택부(1523)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 학습모델에 적용할 수 있다. 또한, 인식 결과는 데이터 학습모델에 의해 결정될 수 있다.The recognition result provider 1524 may apply the selected data to the data learning model to output voice or text. The recognition result providing unit 1524 can apply the selected data to the data learning model by using the data selected by the recognition data selecting unit 1523 as an input value. In addition, the recognition result can be determined by the data learning model.
모델 갱신부(1525)는 인식 결과 제공부(1524)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 학습모델이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1525)는 인식 결과 제공부(1524)에 의해 제공되는 인식 결과를 모델 학습부(1514)에게 제공함으로써, 모델 학습부(1514)가 데이터 학습모델을 갱신하도록 할 수 있다.The model updating unit 1525 can cause the data learning model to be updated based on the evaluation of the recognition result provided by the recognition result providing unit 1524. [ For example, the model updating unit 1525 may provide the model learning unit 1514 with the recognition result provided by the recognition result providing unit 1524 so that the model learning unit 1514 can update the data learning model have.
한편, 데이터 인식부(1520) 내의 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 또는 모델 갱신부(1525) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 또는 모델 갱신부(1525) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.At least one of the data acquiring unit 1521, the preprocessing unit 1522, the recognition data selecting unit 1523, the recognition result providing unit 1524, or the model updating unit 1525 in the data recognizing unit 1520 may be, It can be manufactured in the form of one hardware chip and mounted on the electronic device. At least one of the data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524 or the model updating unit 1525 may be an artificial intelligence Or may be mounted on a variety of electronic devices as described above and manufactured as part of a conventional general purpose processor (e.g., a CPU or an application processor) or a graphics dedicated processor (e.g., a GPU).
또한, 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 및 모델 갱신부(1525)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 및 모델 갱신부(1525) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.The data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524, and the model updating unit 1525 may be mounted on one electronic device, Lt; RTI ID = 0.0 > electronic devices, respectively. For example, some of the data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524, and the model updating unit 1525 are included in the electronic device, May be included in the server.
또한, 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 또는 모델 갱신부(1525) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 또는 모델 갱신부(1525) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.At least one of the data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524, and the model updating unit 1525 may be implemented as a software module. At least one of the data acquisition unit 1521, the preprocessing unit 1522, the recognition data selection unit 1523, the recognition result providing unit 1524 or the model updating unit 1525 is a software module Program modules), the software modules may be stored in a computer-readable, readable non-transitory computer readable media. Also, in this case, the at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and some of the software modules may be provided by a predetermined application.
이제까지 다양한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.Various embodiments have been described above. It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Therefore, the disclosed embodiments should be considered in an illustrative rather than a restrictive sense. The scope of the present invention is defined by the appended claims rather than by the foregoing description, and all differences within the scope of equivalents thereof should be construed as being included in the present invention.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.The above-described embodiments of the present invention can be embodied in a general-purpose digital computer that can be embodied as a program that can be executed by a computer and operates the program using a computer-readable recording medium. The computer-readable recording medium includes a storage medium such as a magnetic storage medium (e.g., ROM, floppy disk, hard disk, etc.), optical reading medium (e.g., CD ROM,

Claims (10)

  1. 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 방법으로서,A multilingual text-to-speech synthesis method comprising:
    제1 언어의 학습 텍스트 및 상기 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함하는 제1 학습 데이터를 수신하는 단계;Receiving first learning data including learning text data of a first language and learning speech data of a first language corresponding to learning text of the first language;
    제2 언어의 학습 텍스트 및 상기 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함하는 제2 학습 데이터를 수신하는 단계; 및Receiving second learning data including learning text data of a second language and learning speech data of a second language corresponding to the learning text of the second language; And
    상기 제1 학습 데이터 및 상기 제2 학습 데이터에 기초하여, 상기 제1 언어의 음소 및 상기 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계Wherein the similarity information between the phonemes of the first language and the phonemes of the second language is learned based on the first learning data and the second learning data to perform a single artificial neural network text- Steps to create a model
    를 포함하는, 다중 언어 텍스트-음성 합성 방법.≪ / RTI >
  2. 제1항에 있어서,The method according to claim 1,
    상기 제1 언어에 대한 화자의 발성 특징을 수신하는 단계;Receiving a speech feature of the speaker for the first language;
    제2 언어의 입력 텍스트를 수신하는 단계; 및Receiving an input text of a second language; And
    상기 제2 언어의 입력 텍스트 및 상기 제1 언어에 대한 화자의 발성 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 음성을 모사하는 상기 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계Inputting the input text of the second language and the speaker's utterance characteristic of the first language into the single artificial neural network text-speech synthesis model to output the output speech of the input text of the second language simulating the speech of the speaker Step of generating data
    를 더 포함하는, 다중 언어 텍스트-음성 합성 방법.Further comprising the steps < RTI ID = 0.0 > of: < / RTI >
  3. 제2항에 있어서,3. The method of claim 2,
    상기 제1 언어에 대한 화자의 발성 특징은 상기 화자가 제1 언어로 발화한 음성 데이터로부터 특징 벡터를 추출하여 생성되는, 다중 언어 텍스트-음성 합성 방법.Wherein the speaker's utterance characteristic for the first language is generated by extracting a feature vector from speech data uttered by the speaker in the first language.
  4. 제2항에 있어서,3. The method of claim 2,
    감정 특징(emotion feature)을 수신하는 단계; 및Receiving an emotion feature; And
    상기 제2 언어의 입력 텍스트, 상기 제1 언어에 대한 화자의발성 특징 및 상기 감정 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 음성을 모사하는 상기 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계Inputting the input text of the second language, the speaker's utterance characteristic for the first language, and the emotion characteristic to the single artificial neural network text-speech synthesis model to generate an input text of the second language Generating output speech data for
    를 더 포함하는, 다중 언어 텍스트-음성 합성 방법.Further comprising the steps < RTI ID = 0.0 > of: < / RTI >
  5. 제2항에 있어서,3. The method of claim 2,
    운율 특징(prosody feature)을 수신하는 단계; 및Receiving a prosody feature; And
    상기 제2 언어의 입력 텍스트, 상기 제1 언어에 대한 화자의 발성 특징 및 상기 운율 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 음성을 모사하는 상기 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계Inputting the input text of the second language, the speech characteristics of the speaker for the first language, and the rhyme characteristics into the single artificial neural network text-speech synthesis model, and inputting the input text of the second language Generating output speech data for
    를 더 포함하는, 다중 언어 텍스트-음성 합성 방법.Further comprising the steps < RTI ID = 0.0 > of: < / RTI >
  6. 제5항에 있어서,6. The method of claim 5,
    상기 운율 특징은 발화 속도에 대한 정보, 발음 강세에 대한 정보, 음 높이에 대한 정보 및 휴지 구간에 대한 정보 중 적어도 하나를 포함하는, 다중 언어 텍스트-음성 합성 방법.Wherein the prosodic feature comprises at least one of information on a speech rate, information on pronunciation enhancement, information on pitch height, and information on a dormant interval.
  7. 제1항에 있어서,The method according to claim 1,
    제1 언어의 입력 음성을 수신하는 단계;Receiving an input voice in a first language;
    상기 제1 언어의 입력 음성으로부터 특징 벡터를 추출하여 제1 언어에 대한 화자의 발성 특징을 생성하는 단계;Extracting a feature vector from the input speech of the first language to generate a speech feature of the speaker for the first language;
    상기 제1 언어의 입력 음성을 제1 언어의 입력 텍스트로 변환하는 단계;Converting input speech of the first language into input text of a first language;
    상기 제1 언어의 입력 텍스트를 제2 언어의 입력 텍스트로 변환하는 단계; 및Converting an input text of the first language into an input text of a second language; And
    상기 제2 언어의 입력 텍스트 및 상기 제1 언어에 대한 화자의 발성 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 음성을 모사하는 상기 제2 언어의 입력 텍스트에 대한 제2 언어의 출력 음성 데이터를 생성하는 단계Inputting the input text of the second language and the speaker's utterance characteristics for the first language into the single artificial neural network text-speech synthesis model to generate a second artificial neural network text- A step of generating output speech data of a language
    를 더 포함하는, 다중 언어 텍스트-음성 합성 방법.Further comprising the steps < RTI ID = 0.0 > of: < / RTI >
  8. 제1항에 있어서,The method according to claim 1,
    G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 상기 제1 언어의 학습 텍스트 및 상기 제2 언어의 학습 텍스트를 음소 시퀀스(phoneme sequence)로 변환하는, 다중 언어 텍스트-음성 합성 방법.Wherein the learning text of the first language and the learning text of the second language are converted into a phoneme sequence using a Grapheme-to-phoneme algorithm.
  9. 제1항에 있어서,The method according to claim 1,
    상기 단일 인공 신경망 텍스트-음성 합성 모델은 상기 제1 언어의 음소 및 상기 제2 언어의 음소 사이의 발음 및 표기 중 적어도 하나에 대한 유사성 정보의 입력 없이 생성되는, 다중 언어 텍스트-음성 합성 방법.Wherein the single artificial neural network text-to-speech synthesis model is generated without inputting similarity information for at least one of pronunciation and notation between phonemes of the first language and phonemes of the second language.
  10. 제1항의 다중 언어 텍스트-음성 합성 방법에 따른 각각의 단계를 수행하는 명령어를 포함하는 프로그램이 기록된, 컴퓨터 판독가능 저장매체.11. A computer-readable storage medium having stored thereon instructions for performing the respective steps according to the multilingual text-to-speech synthesis method of claim 1.
PCT/KR2019/000509 2018-01-11 2019-01-11 Multilingual text-to-speech synthesis method WO2019139428A1 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2020538690A JP7142333B2 (en) 2018-01-11 2019-01-11 Multilingual Text-to-Speech Synthesis Method
CN201980007944.2A CN111566655B (en) 2018-01-11 2019-01-11 Multi-language text-to-speech synthesis method
EP19738599.0A EP3739476A4 (en) 2018-01-11 2019-01-11 Multilingual text-to-speech synthesis method
US16/682,390 US11217224B2 (en) 2018-01-11 2019-11-13 Multilingual text-to-speech synthesis
US17/533,459 US11769483B2 (en) 2018-01-11 2021-11-23 Multilingual text-to-speech synthesis
JP2022121111A JP7500020B2 (en) 2018-01-11 2022-07-29 Multilingual text-to-speech synthesis method

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR20180004047 2018-01-11
KR10-2018-0004047 2018-01-11
KR10-2018-0036377 2018-03-29
KR20180036377 2018-03-29
KR1020190003979A KR102199067B1 (en) 2018-01-11 2019-01-11 Method of multilingual text-to-speech synthesis
KR10-2019-0003979 2019-01-11

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/682,390 Continuation US11217224B2 (en) 2018-01-11 2019-11-13 Multilingual text-to-speech synthesis

Publications (1)

Publication Number Publication Date
WO2019139428A1 true WO2019139428A1 (en) 2019-07-18

Family

ID=67219814

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/000509 WO2019139428A1 (en) 2018-01-11 2019-01-11 Multilingual text-to-speech synthesis method

Country Status (1)

Country Link
WO (1) WO2019139428A1 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111247581A (en) * 2019-12-23 2020-06-05 深圳市优必选科技股份有限公司 Method, device, equipment and storage medium for synthesizing voice by multi-language text
CN111312228A (en) * 2019-12-09 2020-06-19 中国南方电网有限责任公司 End-to-end-based voice navigation method applied to electric power enterprise customer service
CN111858961A (en) * 2020-07-27 2020-10-30 西交利物浦大学 Multi-language knowledge matching method and device for nodes and links in knowledge graph
CN112365882A (en) * 2020-11-30 2021-02-12 北京百度网讯科技有限公司 Speech synthesis method, model training method, device, equipment and storage medium
CN112652291A (en) * 2020-12-15 2021-04-13 携程旅游网络技术(上海)有限公司 Speech synthesis method, system, device and storage medium based on neural network
GB2591245A (en) * 2020-01-21 2021-07-28 Samsung Electronics Co Ltd An expressive text-to-speech system
CN113409761A (en) * 2021-07-12 2021-09-17 上海喜马拉雅科技有限公司 Speech synthesis method, speech synthesis device, electronic equipment and computer-readable storage medium
JP2021177228A (en) * 2020-05-08 2021-11-11 コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ Electronic device for multilingual multi-speaker individuality expression voice synthesis and processing method for the same
US11830473B2 (en) 2020-01-21 2023-11-28 Samsung Electronics Co., Ltd. Expressive text-to-speech system and method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055162A1 (en) * 2007-08-20 2009-02-26 Microsoft Corporation Hmm-based bilingual (mandarin-english) tts techniques
JP2010237323A (en) * 2009-03-30 2010-10-21 Toshiba Corp Sound model generation apparatus, sound synthesis apparatus, sound model generation program, sound synthesis program, sound model generation method, and sound synthesis method
US20110218804A1 (en) * 2010-03-02 2011-09-08 Kabushiki Kaisha Toshiba Speech processor, a speech processing method and a method of training a speech processor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055162A1 (en) * 2007-08-20 2009-02-26 Microsoft Corporation Hmm-based bilingual (mandarin-english) tts techniques
JP2010237323A (en) * 2009-03-30 2010-10-21 Toshiba Corp Sound model generation apparatus, sound synthesis apparatus, sound model generation program, sound synthesis program, sound model generation method, and sound synthesis method
US20110218804A1 (en) * 2010-03-02 2011-09-08 Kabushiki Kaisha Toshiba Speech processor, a speech processing method and a method of training a speech processor

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ILYA SUTSKEVER ET AL., SEQUENCE TO SEQUENCE LEARNING WITH NEURAL NETWORKS, 2014
JAVIER LATORRE: "New approach to the polyglot speech generation by means of an HMM-based speaker adaptable synthesizer", SPEECH COMMUNICATION, vol. 48, no. 10, October 2006 (2006-10-01), pages 1227 - 1242, XP027926287, Retrieved from the Internet <URL:https://www.sciencedirect.com/science/article/pii/S0167639306000483> *
See also references of EP3739476A4 *
TATYANA POLYAKOVA: "Main issues in grapheme-to-phoneme conversion for TTS", PROCESAMIENTO DEL LENGUAJE NATURAL 2005, January 2005 (2005-01-01), pages 29 - 34, XP055625392, Retrieved from the Internet <URL:https://www.researchgate.net/publication/28166791_Main_issues_in_grapheme-to-phoneme_conversion_for_TTS> *
YOUNGGUN LEE: "Learning pronunciation from a foreign language in speech synthesis networks", 22 October 2018 (2018-10-22), XP081053625, Retrieved from the Internet <URL:https://openreview.net/revisions?id=HkeYCNgooQ> *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312228A (en) * 2019-12-09 2020-06-19 中国南方电网有限责任公司 End-to-end-based voice navigation method applied to electric power enterprise customer service
CN111247581A (en) * 2019-12-23 2020-06-05 深圳市优必选科技股份有限公司 Method, device, equipment and storage medium for synthesizing voice by multi-language text
CN111247581B (en) * 2019-12-23 2023-10-10 深圳市优必选科技股份有限公司 Multi-language text voice synthesizing method, device, equipment and storage medium
US11830473B2 (en) 2020-01-21 2023-11-28 Samsung Electronics Co., Ltd. Expressive text-to-speech system and method
GB2591245A (en) * 2020-01-21 2021-07-28 Samsung Electronics Co Ltd An expressive text-to-speech system
GB2591245B (en) * 2020-01-21 2022-06-15 Samsung Electronics Co Ltd An expressive text-to-speech system
JP2021177228A (en) * 2020-05-08 2021-11-11 コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ Electronic device for multilingual multi-speaker individuality expression voice synthesis and processing method for the same
CN111858961A (en) * 2020-07-27 2020-10-30 西交利物浦大学 Multi-language knowledge matching method and device for nodes and links in knowledge graph
CN111858961B (en) * 2020-07-27 2024-02-02 西交利物浦大学 Multi-language knowledge matching method and device for nodes and links in knowledge graph
CN112365882B (en) * 2020-11-30 2023-09-22 北京百度网讯科技有限公司 Speech synthesis method, model training method, device, equipment and storage medium
CN112365882A (en) * 2020-11-30 2021-02-12 北京百度网讯科技有限公司 Speech synthesis method, model training method, device, equipment and storage medium
CN112652291A (en) * 2020-12-15 2021-04-13 携程旅游网络技术(上海)有限公司 Speech synthesis method, system, device and storage medium based on neural network
CN112652291B (en) * 2020-12-15 2024-04-05 携程旅游网络技术(上海)有限公司 Speech synthesis method, system, equipment and storage medium based on neural network
CN113409761A (en) * 2021-07-12 2021-09-17 上海喜马拉雅科技有限公司 Speech synthesis method, speech synthesis device, electronic equipment and computer-readable storage medium

Similar Documents

Publication Publication Date Title
WO2019139428A1 (en) Multilingual text-to-speech synthesis method
JP7500020B2 (en) Multilingual text-to-speech synthesis method
WO2019139430A1 (en) Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
WO2019139431A1 (en) Speech translation method and system using multilingual text-to-speech synthesis model
WO2020190054A1 (en) Speech synthesis apparatus and method therefor
WO2020027619A1 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
WO2020190050A1 (en) Speech synthesis apparatus and method therefor
JP2022527970A (en) Speech synthesis methods, devices, and computer-readable storage media
US5806033A (en) Syllable duration and pitch variation to determine accents and stresses for speech recognition
KR102306844B1 (en) Method and apparatus for translating speech of video and providing lip-synchronization for translated speech in video
JP2002520664A (en) Language-independent speech recognition
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
WO2022045651A1 (en) Method and system for applying synthetic speech to speaker image
Nursetyo LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and *** API
Zhang et al. Chinese speech synthesis system based on end to end
Lopez-Gonzalo et al. Automatic prosodic modeling for speaker and task adaptation in text-to-speech
Samsudin et al. Constructing a Reusable Linguistic Resource for a Polyglot Speech Synthesis
CANDEIAS CHAPTER TWELVE THE DIALOGUE BETWEEN MAN AND MACHINE: THE ROLE OF LANGUAGE THEORY
Kayte et al. Overview of Hidden Markov Model for Test-To-Speech Synthesis Methods
Sajini et al. Speaker Independent Text to Speech for Malayalam

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19738599

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020538690

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019738599

Country of ref document: EP

Effective date: 20200811