WO2017046887A1 - 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム - Google Patents

音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム Download PDF

Info

Publication number
WO2017046887A1
WO2017046887A1 PCT/JP2015/076269 JP2015076269W WO2017046887A1 WO 2017046887 A1 WO2017046887 A1 WO 2017046887A1 JP 2015076269 W JP2015076269 W JP 2015076269W WO 2017046887 A1 WO2017046887 A1 WO 2017046887A1
Authority
WO
WIPO (PCT)
Prior art keywords
pitch
distribution
information
statistical model
state
Prior art date
Application number
PCT/JP2015/076269
Other languages
English (en)
French (fr)
Inventor
正統 田村
眞弘 森田
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to PCT/JP2015/076269 priority Critical patent/WO2017046887A1/ja
Priority to CN202111029334.8A priority patent/CN113724685B/zh
Priority to CN201580082427.3A priority patent/CN107924678B/zh
Priority to JP2017540389A priority patent/JP6499305B2/ja
Publication of WO2017046887A1 publication Critical patent/WO2017046887A1/ja
Priority to US15/896,774 priority patent/US10878801B2/en
Priority to US16/941,826 priority patent/US11423874B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Definitions

  • Embodiments described herein relate generally to a speech synthesizer, a speech synthesis method, a speech synthesis program, a speech synthesis model learning device, a speech synthesis model learning method, and a speech synthesis model learning program.
  • Speech synthesis technology that converts any text into a synthesized waveform is known.
  • a speech synthesis model learning device that learns a statistical model from feature parameters obtained by analyzing a speech waveform database and a speech synthesis device that uses the learned statistical model for speech synthesis are widely known.
  • the problems to be solved by the present invention include a speech synthesizer, a speech synthesis method, a speech synthesis program, a speech synthesis model learning device, a speech synthesis model learning method, and a speech synthesis device capable of preventing speech degradation and unnatural phoneme duration. It is to provide a speech synthesis model learning program.
  • the speech synthesizer includes a storage unit, a creation unit, a determination unit, a generation unit, and a waveform generation unit.
  • the storage unit stores, as statistical model information, an output distribution of acoustic feature parameters including pitch feature parameters and a duration distribution based on time parameters in each state of a statistical model having a plurality of states.
  • the creation unit creates a statistical model sequence from the context information corresponding to the input text and the statistical model information.
  • the determination unit determines the number of pitch waveforms in each state using the duration information based on the duration distribution of each state of each statistical model in the statistical model sequence and the pitch information based on the output distribution of the pitch feature parameters.
  • the generation unit generates an output distribution sequence of acoustic feature parameters based on the number of pitch waveforms, and generates an acoustic feature parameter based on the output distribution sequence.
  • the waveform generation unit generates a speech waveform from the acoustic feature parameters generated by the generation unit.
  • FIG. 1 is a block diagram showing a speech synthesizer according to an embodiment.
  • storage part has memorize
  • the block diagram which shows the speech synthesis model learning apparatus concerning embodiment.
  • the flowchart which shows the process which a HMM learning part performs.
  • the flowchart which shows the process which the speech synthesizer concerning embodiment performs.
  • the flowchart which shows the process which the speech synthesis model learning apparatus concerning embodiment performs.
  • the block diagram which shows the modification of the speech synthesis model learning apparatus concerning embodiment.
  • the block diagram which shows the modification of the speech synthesizer concerning embodiment.
  • the flowchart which shows the process which a selection part performs.
  • Some speech synthesis model learning devices learn a hidden Markov model (HMM) which is a statistical model having a plurality of states in order to model a time-series signal.
  • Some speech synthesizers synthesize speech based on learned HMMs.
  • a distribution sequence is obtained according to input text, and speech is synthesized by generating feature parameters from the obtained distribution sequence.
  • a model is learned from a feature parameter sequence that combines dynamic feature parameters that represent temporal changes together with static feature parameters using speech spectrum information, acoustic feature parameters, and prosodic feature parameters.
  • the acoustic feature parameter represents sound source information.
  • the prosodic feature parameter represents pitch information that is prosodic information of speech.
  • the diversity of synthesized speech such as the creation of new speaker models and speaker interpolation models based on small amounts of data, and emotion models that can control the degree, etc. It is also possible to widen.
  • HMM speech synthesis a method using a mel cepstrum analysis method or a spectral envelope extraction method by STRIGHT analysis is generally used.
  • voice analysis is performed at a fixed frame rate of, for example, about 5 ms, and feature parameters are analyzed.
  • the correspondence between the center point of the frame and the periodicity of the waveform is not taken into consideration, and a parameter analysis is performed by cutting out a frame having a relatively wide window width including a plurality of periods. Therefore, the analyzed and re-synthesized speech is distorted with respect to the original speech waveform, resulting in sound quality degradation.
  • STRIGHT analysis performs voice analysis at a fixed frame rate.
  • STRAIGHT analysis spectrum analysis is performed while correcting the correspondence between the center of the analysis window and the periodicity by processing in the time direction smoothing and frequency direction smoothing. Therefore, although the sound quality deterioration is reduced, the sound quality deterioration due to the fixed frame rate analysis still occurs, such as the sound quality deterioration at a non-stationary place such as a burst sound or a boundary between the unvoiced friction sound and the voiced sound.
  • a hybrid speech synthesis method combining speech synthesis based on statistical models and speech synthesis based on speech unit selection, a speech synthesis method for selecting feature parameters, and a neural network are used.
  • Voice synthesis method Even in these methods, when a voice analysis method using mel cepstrum analysis or a voice analysis method using STRIGHT is used, there is a problem of mechanical sound quality.
  • the number of frames which is the number of feature parameters, has a linear relationship with the duration length, so the number of frames can be used as a duration distribution. That is, it is possible to perform speech synthesis by learning the parameters of the hidden semi-Markov model (HSMM) using the number of frames in each state of the HMM as a direct duration distribution parameter.
  • HSMM hidden semi-Markov model
  • HSMM is a probability model based on output distribution and state duration distribution, and is a model that performs likelihood calculation using state duration distribution instead of a fixed self-transition probability in the likelihood calculation of HMM.
  • the duration model learns parameters of the duration distribution based on the state occupation probability that statistically associates each voice data with each state and the number of feature parameter frames associated with each state in the state series. Since the time length is determined by multiplying the number of frames by the frame rate, when using speech analysis with a fixed frame rate, a duration distribution having a linear relationship with the time length is learned only from the context corresponding to the feature parameter. can do.
  • the continuous length distribution obtained by tracing the decision tree directly becomes the distribution of the number of frames. Therefore, the number of frames is determined from the continuous length distribution parameter, and a distribution sequence is generated according to the obtained number of frames in each state. Generation and waveform generation processing can be performed. In this way, when speech analysis at a fixed frame rate is used, sound quality degradation occurs, but the number of feature parameter frames is modeled as a duration distribution, and the number of frames during direct speech synthesis is determined from the duration distribution parameters. Can do.
  • pitch synchronization analysis can also be used as one of voice analysis methods.
  • feature parameters are analyzed at intervals corresponding to each pitch period of a speech waveform, instead of a fixed frame rate. For example, create pitch mark information that represents the center time of each period of the periodic waveform of speech, determine the analysis center from the pitch mark position, apply a window function with a window width that depends on the pitch, and extract the pitch waveform, An acoustic feature parameter is obtained by analyzing the cut pitch waveform.
  • the number of pitch waveforms which is the number of frames, and the time information are not in a linear relationship
  • the number of frames is high at a high pitch, and the number of frames is low at a low location. It becomes the analysis of the number.
  • the duration model has a high correlation with mora (beats) and phonemes, it is not the distribution of the number of pitch waveforms in the pitch synchronization analysis that changes depending on the pitch, but the time length based on the time parameter based on the difference between the start time and end time It is desirable to model a parameter that has a linear relationship with the time, such as by using a parameter as a parameter.
  • FIG. 1 is a block diagram showing an embodiment (speech synthesizer 100) of a speech synthesizer.
  • the speech synthesizer 100 includes an analysis unit 101, a creation unit 102, a determination unit 103, a generation unit 104, a waveform generation unit 105, and an HMM storage unit 106.
  • the analysis unit 101 performs morphological analysis on the input text, obtains language information necessary for speech synthesis such as reading information and accent information, and creates context information from the obtained language information.
  • the analysis unit 101 may create corrected context information by accepting corrected reading information and accent information corresponding to separately created input text.
  • the context information is information used as a unit for classifying speech such as phonemes, semi-phonemes, and syllable HMMs.
  • phonemes When phonemes are used as speech units, phoneme name sequences can be used as context information.
  • triphones with preceding and succeeding phonemes phoneme information including two front and back phonemes, classification by voiced and unvoiced sounds, phoneme type information indicating detailed phoneme type attributes, in-sentence / expiration paragraph of each phoneme
  • Context information including linguistic attribute information such as the position within the inner / accent phrase, the number of mora / accent type of the accent phrase, the mora position, the position up to the accent core, the presence / absence of ending, and the added symbol information It is good.
  • the creation unit 102 creates an HMM sequence corresponding to the input text using the HMM stored in the HMM storage unit 106 (described later with reference to FIG. 3) according to the context information input from the analysis unit 101.
  • the HMM is a statistical model represented by a state transition probability and an output distribution of each state.
  • the creation unit 102 creates a statistical model sequence from the context information corresponding to the input text and statistical model information described later.
  • those using (d ⁇ i d, ⁇ i d) is referred to as HSMM (Hidden Semi Markov Models), used to model the duration .
  • the determining unit 103 determines the number of pitch waveforms based on the HMM sequence created by the creating unit 102 using the pitch parameters generated from the output distribution of the duration distribution parameter and the pitch feature parameter. That is, the determination unit 103 uses the pitch information based on the output distribution of the pitch feature parameters together with the duration length based on the duration distribution of each state of each statistical model of the statistical model sequence created by the creation unit 102. Determine the number of pitch waveforms.
  • the generation unit 104 creates a distribution sequence according to the number of pitch waveforms determined by the determination unit 103, and generates acoustic feature parameters from the distribution sequence. Specifically, the generation unit 104 generates an acoustic feature parameter distribution sequence based on the number of pitch waveforms, and generates an acoustic feature parameter based on the generated distribution sequence.
  • the waveform generation unit 105 generates a speech waveform from the acoustic feature parameter series generated by the generation unit 104.
  • the HMM storage unit 106 stores an HMM learned from acoustic feature parameters by pitch synchronization analysis. Specifically, the HMM storage unit 106 stores a model obtained by performing decision tree clustering on the output distribution of each state of the HMM. An acoustic feature parameter output distribution including a pitch feature parameter in each state of the HMM, a duration distribution by a time parameter, and a decision tree for selecting a distribution of each state based on context information are stored as statistical model information.
  • FIG. 3 is a diagram illustrating the HMM stored in the HMM storage unit 106.
  • the HMM storage unit 106 stores, for example, a decision tree that is a model of a feature parameter of each state of the HMM and an output distribution of each leaf node of the decision tree. It also stores decision trees and distributions.
  • Each node in the decision tree is associated with a question that classifies the distribution. For example, a node is associated with questions such as “whether it is silent,” “whether it is voiced,” or “whether it is an accent kernel.” A child node that corresponds to the question and a child that does not Classify into nodes. That is, in the decision tree, the input context information is searched by determining whether it corresponds to the question of each node, and a leaf node is obtained.
  • the creation unit 102 described above constructs an HMM corresponding to each voice unit by using the distribution associated with the obtained leaf node as the output distribution of each state. Then, the creation unit 102 creates an HMM sequence corresponding to the input context information.
  • FIG. 4 is a block diagram showing an embodiment of the speech synthesis model learning device (speech synthesis model learning device 200).
  • the speech synthesis model learning device 200 includes a speech corpus storage unit 201, an analysis unit 203, a feature parameter storage unit 204, an HMM learning unit 205, and an HMM storage unit 106.
  • the HMM storage unit 106 included in the speech synthesis model learning apparatus 200 corresponds to the HMM storage unit 106 described above with reference to FIG. That is, the HMM stored in the HMM storage unit 106 is created by the pitch synthesis analysis using the pitch mark by the speech synthesis model learning device 200 as shown in FIG.
  • the speech corpus storage unit 201 stores speech waveforms (speech data) used for model learning, context information and pitch mark information corresponding to each speech waveform.
  • the speech waveform consists of data cut out for each sentence from the speech recorded by the speaker.
  • the context information is created from the utterance content of each recorded voice.
  • the pitch mark information is created by extracting the pitch from the voice data and extracting the time corresponding to the period for the periodic section of the voiced sound. Also, the pitch mark information can determine the time to smoothly interpolate the pitch of the periodic waveform of the voiced sound section for the section of the non-periodic waveform such as unvoiced sound, plosive sound, and silence, Time information indicating the analysis center position is set for the entire sentence, for example, by setting the time at a fixed frame rate. That is, the pitch mark information includes the analysis time of the non-periodic section. In this way, pitch mark information that is analysis center time information of each speech waveform and is analysis center time corresponding to the pitch period is created in the speech corpus in the periodic waveform section.
  • the analysis unit 203 obtains an acoustic feature parameter from the speech waveform.
  • the acoustic feature parameter is a feature parameter such as a spectral parameter representing the spectral envelope of the speech, a sound source parameter representing the sound source information, a pitch parameter representing the fundamental frequency information, and the like, and is extracted from the speech waveform. That is, the analysis unit 203 analyzes the acoustic feature parameter at each pitch mark time of the pitch mark information from the sound data.
  • Spectra envelope parameters such as mel cepstrum, mel LSP, and linear prediction coefficient can be used as spectrum parameters.
  • band noise intensity BAP: band aperiodicity representing the ratio of non-periodic components in each spectrum band, phase information, group delay information, or the like is used.
  • FIG. 5 is a diagram showing a difference between an analysis based on a fixed frame rate in a periodic waveform section of voiced sound and a pitch synchronization analysis.
  • FIG. 5 (a) shows voice analysis at a fixed frame rate.
  • speech analysis at a fixed frame rate there is no relationship between the center time of the frame and the periodicity of the waveform, and feature analysis is performed at predetermined intervals.
  • a pitch mark is generated at a time corresponding to the pitch period, such as a method of setting a pitch mark near the peak time of each period of the speech waveform.
  • a method is used in which a waveform is cut out using a Hanning window or the like having a window width of about 2 pitches with the pitch mark time as the analysis center.
  • the pitch synchronization analysis it is possible to perform an analysis with a window width depending on the pitch at an appropriate time, and the analysis synthesized speech synthesized from the analyzed feature parameters can obtain a waveform close to the original speech.
  • the uncertainty of the position of the analysis time is corrected by smoothing in the time direction, and smooth spectrum envelope is extracted by smoothing in the frequency direction To do.
  • parameters obtained by pitch synchronization analysis are interpolated and analyzed at fixed frame rate positions, degradation occurs compared to the case of using parameters by pitch synchronization analysis as they are, and the re-synthesized speech waveform and the original speech Distortion occurs between the waveform.
  • Mel LSP and BAP are used as acoustic feature parameters
  • Mel LSP analysis is applied to the sound cut out for each pitch mark to obtain Mel LSP
  • the pitch information is obtained from information on the interval between the left and right pitch marks at each time.
  • Obtained and converted to logarithm F 0, and BAP is obtained by analysis of band noise intensity.
  • band noise intensity for example, based on the PSHF (Pitch Scaled Harmonic Filter) method, the voice is separated into a periodic component and an aperiodic component, and a non-periodic component ratio at each time is obtained and averaged for each predetermined band. By doing so, the BAP can be obtained.
  • PSHF Switch Scaled Harmonic Filter
  • phase information of each pitch waveform cut out in pitch synchronization is expressed as a parameter, and the fixed frame rate of the waveform including a plurality of periods or the shape of the waveform cut out by the center position is not stable.
  • Phase information that is difficult to analyze can be treated as a feature parameter by using pitch synchronization analysis.
  • Pitch information and duration information are feature parameters representing prosodic information, and are similarly extracted from each speech waveform of the speech corpus.
  • the pitch information is information representing the inflection and height change of each phoneme.
  • the continuation length is a characteristic parameter that represents the length of a speech unit such as a phoneme.
  • the pitch characteristic parameter logarithmic fundamental frequency, fundamental frequency, and pitch period information can be used.
  • the continuation length information a phoneme continuation length or the like can be used.
  • the pitch of each time is determined from the left and right intervals of each pitch mark time, and converted to a logarithmic fundamental frequency.
  • the pitch information is a parameter having a value only for voiced sound, but a characteristic parameter may be used by applying the interpolated pitch to the unvoiced sound part, or a value indicating unvoiced sound may be used.
  • Information on the continuation length of each phoneme is added to the context information as information on the phoneme boundary time, and is used for learning of the initial model during HMM learning.
  • the phoneme time may not be prepared as a feature parameter in advance.
  • the analysis unit 203 obtains acoustic feature parameters at each pitch mark time, and creates feature parameters used for HMM learning.
  • dynamic features is information of the slope of the characteristic parameter (delta parameters in figures and delta 2 parameters, etc.) is also added as required. Then, acoustic feature parameters as shown in FIG. 5B are configured.
  • the feature parameter storage unit 204 (FIG. 4) stores the acoustic feature parameters obtained by the analysis unit 203 together with the context information and time boundary information.
  • the HMM learning unit 205 uses the feature parameter stored in the feature parameter storage unit 204 as HMM learning data.
  • the HMM learning unit 205 performs learning of a hidden semi-Markov model that simultaneously estimates parameters of the continuous length distribution as HMM learning. That is, the HMM learning unit 205 inputs the pitch mark information of each voice data in order to use pitch synchronization analysis in addition to the context information and the acoustic feature parameters in the learning of the hidden semi-Markov model, and the duration distribution based on the time information Realize learning.
  • the HMM learning unit 205 learns, from the acoustic feature parameters analyzed by the analysis unit 203, a statistical model having a plurality of states including an output distribution of acoustic feature parameters including a pitch feature parameter and a duration length distribution based on time parameters. To do.
  • FIG. 6 is a flowchart showing processing performed by the HMM learning unit 205.
  • the HMM learning unit 205 first initializes the phoneme HMM (S101), performs maximum likelihood estimation of the phoneme HMM by learning the HSMM (S102), and learns the phoneme HMM that is the initial model. In the case of maximum likelihood estimation, the HMM learning unit 205 associates the HMM with a sentence by connection learning, and probabilistically compares each state and the feature parameter from the HMM of the whole connected sentence and the acoustic feature parameter corresponding to the sentence. Learn while matching.
  • the HMM learning unit 205 initializes the context-dependent HMM using the phoneme HMM (S103). For the context existing in the learning data, as described above, the phoneme, the phoneme environment before and after, the position information in the sentence / accent phrase, etc. A model that is used and initialized with the phoneme is prepared.
  • the HMM learning unit 205 learns by applying maximum likelihood estimation by connection learning to the context-dependent HMM (S104), and applies state clustering based on a decision tree (S105). As described above, the HMM learning unit 205 constructs a decision tree for each state / stream and state duration distribution of the HMM.
  • the HMM learning unit 205 learns rules for classifying the model from the distribution for each state and each stream according to the maximum likelihood criterion, the MDL (Minimum Description Length) criterion, and the like, and the decision tree shown in FIG. Build up. As described above, at the time of speech synthesis, the HMM learning unit 205 selects the distribution of each state by following the decision tree and constructs a corresponding HMM even when an unknown context that does not exist in the learning data is input. be able to.
  • the HMM learning unit 205 estimates the maximum likelihood of the clustered model, and the model learning is completed (S106).
  • the HMM learning unit 205 When performing the clustering, the HMM learning unit 205 constructs a decision tree for each stream of each feature quantity, thereby each stream of spectrum information (mel LSP), sound source information (BAP), and pitch information (logarithmic fundamental frequency). Build a decision tree. Further, the HMM learning unit 205 constructs a HMM-unit duration distribution decision tree by constructing a decision tree for a multidimensional distribution in which durations for each state are arranged. In each maximum likelihood estimation step, the HMM learning unit 205 learns the state duration distribution by referring to the pitch mark time information in addition to the context information and the acoustic feature amount when updating the model.
  • mel LSP spectrum information
  • BAP sound source information
  • pitch information logarithmic fundamental frequency
  • the HMM learning unit 205 when learning the duration distribution using the time information corresponding to each acoustic feature amount, does not use the number of frames associated with each state, but the frame associated with each state.
  • the time length according to the time parameter is obtained from the time at the start point and the time at the end point. Then, the HMM learning unit 205 can obtain a duration distribution from the obtained time length, and an appropriate duration distribution can be obtained even if learning is performed using parameters that are feature-analyzed at non-linear intervals, such as pitch synchronization analysis. Can learn.
  • the HMM storage unit 106 stores the HMM created by the HMM learning unit 205.
  • the creation unit 102 creates an HMM sequence from the input context and the HMM stored in the HMM storage unit 106, and the determination unit 103 determines the number of pitch waveforms in each state of each HMM. Then, the speech synthesizer 100 creates a distribution sequence by repeating the distribution of each state in accordance with the determined number of pitch waveforms, and the generation unit 104 sets each parameter by a parameter generation algorithm that takes into account static and dynamic features. Generate.
  • FIG. 7 is a diagram illustrating a processing example in which the speech synthesizer 100 generates parameters.
  • FIG. 7 illustrates a case where the speech synthesizer 100 synthesizes a “red” speech with a three-state HMM.
  • the creation unit 102 selects the HMM state / stream distribution and duration distribution of the input context, and configures an HMM sequence.
  • “preceding phoneme_subject phoneme_subsequent phoneme_phoneme position_phoneme number_mora position_mora number_accent type” is used as the context, “red” is 3 mora type 2 and the first “a” Since the phoneme is the preceding phoneme “sil”, the phoneme “a”, the succeeding phoneme “k”, the phoneme position 1, the phoneme number 4, the mora position 1, the mora number 3, and the accent type 2, the context is “sil_a_k_1_4_1_3_2”. Become.
  • the determination unit 103 determines the number of frames of the pitch waveform by the following formula 1.
  • the model q is set to the fundamental frequency exp ( ⁇ lf0 qi ) obtained from the average value ⁇ lf0 qi of the static characteristic amount of the logarithmic fundamental frequency stream of the state i.
  • the number of pitch waveforms is determined by multiplying q by the average value ⁇ dur qi of the state duration distribution of state i and applying an integer function int () by truncation or rounding off.
  • pitch information is necessary when obtaining the number of frames. Since the conventional method expresses the number of frames as a continuous length distribution as it is, it is determined by simply converting it into an integer as shown in the following equation 2.
  • Equation 2 the number of frames can be obtained in the form of Equation 2 above.
  • speech analysis is performed at a variable frame rate by pitch synchronization analysis or the like, it is necessary to use time as a parameter of the duration distribution, and the number of waveforms needs to be determined by the form of Equation 1 above.
  • the logarithmic fundamental frequency is used as the characteristic parameter of the pitch information, but the exp () function is not necessary when the fundamental frequency is used. Further, when the pitch period is used as a parameter, it is obtained by division as shown in Equation 3 below.
  • the generation unit 104 generates a distribution sequence by repeating the distribution of each state of the HMM with the number of pitch waveforms determined in this way, and generates a parameter series by a parameter generation algorithm using static and dynamic feature amounts.
  • the output parameter is determined by the following method.
  • T is the number of frames and J is a state transition sequence.
  • O WC.
  • O is a 3TM vector
  • C is a TM vector
  • W is a 3TM ⁇ TM matrix.
  • .Mu. (. Mu.s00 ',..., .Mu.sJ-1Q-1 ') '
  • .SIGMA. Diag ( .SIGMA.s00 ',..., .SIGMA.sJ-1Q-1 ')' and output at each time.
  • the distribution average vector, the distribution average vector and the covariance matrix corresponding to a sentence in which all diagonal covariances are arranged the above equation 4 is obtained by solving the equation given as C can be obtained.
  • the parameter series can be generated in time order with a delay time, and can be generated with low delay.
  • the processing of the parameter generation unit is not limited to this method, and any other method for generating a feature parameter from a distribution sequence such as a method of interpolating an average vector may be used.
  • the waveform generation unit 105 generates a speech waveform from the parameter series generated in this way.
  • the waveform generation unit 105 generates a sound source signal from a logarithmic fundamental frequency sequence and a band noise intensity sequence, and generates a speech waveform by applying a vocal tract filter based on a mel LSP sequence.
  • FIG. 8 is a diagram illustrating processing performed by the waveform generation unit 105.
  • the waveform generation unit 105 generates a pitch mark from the logarithmic fundamental frequency sequence, generates a sound source waveform by controlling the ratio of the noise component and the pulse component according to the band noise intensity (BAP) sequence, A voice waveform is generated by applying a vocal tract filter based on a mel LSP sequence.
  • the waveform generation unit 105 when modeling using the phase parameter, the waveform generation unit 105 generates a phase spectrum from the phase parameter, generates an amplitude spectrum from the spectrum parameter, and generates a pitch waveform corresponding to each pitch mark by inverse FFT. Then, waveform generation is performed by superimposition processing.
  • the waveform generation unit 105 may generate a sound source waveform from the phase parameter and generate the waveform by a method of applying a filter.
  • the processing described above makes it possible to construct an HMM model using feature parameters using pitch synchronization analysis and use it for speech synthesis. Also, by these processes, synthesized speech corresponding to the input context can be obtained.
  • This algorithm is derived by extending the conventional hidden semi-Markov model learning algorithm to learn the duration distribution from the time information of each feature parameter.
  • the number of frames staying in each state of the HMM is used as a duration distribution relating to the self-transition probability by the hidden semi-Markov model.
  • the HMM learning unit 205 learns the continuous length distribution in units of intervals between pitch mark times of each frame, not the number of frames.
  • the duration distribution becomes a distribution that directly represents the length of phonemes and durations of each state without depending on the pitch, and the problem of unnatural duration due to the effect of pitch mismatch during speech synthesis is solved. Is done.
  • the HMM expresses all state transitions as state transition probabilities as shown in Equation 6 above, but the hidden semi-Markov model HSMM expresses the self-transition probabilities as duration distributions.
  • pi (t, d) represents the probability of staying in the state i for d frames from time t to time t + d
  • a qt + dqt + d + 1 represents the probability of transition to a different state q t + d + 1 at time t + d.
  • the frame number of the observation vector is used as this time t, and the probability of continuing to the same state for d frames and the probability of subsequent state transition are calculated for all state transition sequences.
  • a model parameter can be obtained by maximum likelihood estimation.
  • the waveform is analyzed with the pitch mark position as the center of the frame.
  • the pitch pitch becomes narrower as the pitch is higher.
  • the number of frames In this case, the lower the pitch is, the wider the pitch mark interval is, so the number of frames is reduced, resulting in a distribution of not only the time length but also the state continuation length depending on the pitch.
  • the HMM learning unit 205 models the time length of each state as it is, regardless of the pitch, the length of each phoneme can be modeled without depending on the pitch.
  • the time relationship and the number of frames are used, which is a linear relationship and is not affected.
  • the HMM learning unit 205 can appropriately calculate the duration model even when the frame interval is not constant.
  • the forward probability is calculated by the following equations 10-17.
  • the forward establishment ⁇ (q) j (t, d) is the probability of existing in the model q, state j at time t after continuing d frames.
  • initialization is performed by the following equations 10-13.
  • the backward probability ⁇ (q) i (t, d) is the probability that the d frame stays in the state i at time t and the observation vector until time T is output after that, and is calculated by equations 18-25. .
  • initialization is performed by the following equations 18-21.
  • the probability of staying in the state j of the model q, the mixed m, and the stream s at time t is obtained by the following equations 26 to 28.
  • the above equation 28 or 29 is the sum of all state transition sequences passing through the state j of the model q at time t, taking into account the transitions across the states, as shown in FIG. It has become.
  • the model parameters are updated using the state transition probability, forward probability, and backward probability derived as described above, and the maximum likelihood estimation of the output distribution parameter, the duration model, and the transition probability is performed.
  • the updating formula of the continuation length distribution parameter is expressed by the following expressions 31 and 32.
  • the mixture weight, average vector, and covariance matrix of the output distribution are updated by the following equations 33-35.
  • the HMM learning unit 205 performs maximum likelihood estimation of model parameters.
  • FIG. 10 is a flowchart showing speech synthesis processing executed by the speech synthesizer 100.
  • the analysis unit 101 analyzes the input text to obtain context information (S201).
  • the creation unit 102 creates an HMM sequence corresponding to the input context with reference to the HMM stored in the HMM storage unit 106 (S202).
  • the determining unit 103 determines the number of pitch waveforms in each state using the duration distribution of the HMM sequence and the pitch information (S203).
  • the generation unit 104 creates a distribution sequence by arranging output distributions according to the obtained number of pitch waveforms in each state, and generates a parameter sequence used for speech synthesis from the distribution sequence by applying a parameter generation algorithm or the like (S204). Then, the waveform generation unit 105 generates a speech waveform and obtains synthesized speech (S205).
  • each function of the speech synthesizer 100 may be configured by hardware or may be configured by software executed by the CPU.
  • the speech synthesizer 100 performs speech synthesis by executing a speech synthesis program
  • the CPU executes each step shown in FIG.
  • FIG. 11 is a flowchart showing the speech synthesis model learning process executed by the speech synthesis model learning device 200.
  • the analysis unit 203 uses the audio data and pitch mark information stored in the audio corpus storage unit 201 to perform acoustic characteristics parameters based on spectrum parameters, pitch parameters, and sound source parameters by pitch synchronization analysis. Is extracted (S301).
  • the feature parameter storage unit 204 stores the extracted acoustic feature parameters.
  • the HMM learning unit 205 learns the HMM using the acoustic feature parameters, context information, and pitch mark information (S302).
  • the HMM includes a duration distribution according to a time parameter and an output distribution of pitch information.
  • the learned HMM is stored in the HMM storage unit 106 and used in speech synthesis.
  • each function of the speech synthesis model learning device 200 may be configured by hardware or may be configured by software executed by the CPU.
  • the speech synthesis model learning apparatus 200 performs speech synthesis model learning by executing a speech synthesis model learning program, the CPU executes each step shown in FIG.
  • the HMM learning unit 205 has been described by taking as an example the maximum likelihood estimation of the speaker dependence model using the corpus of the specific speaker, it is not limited to this.
  • the HMM learning unit 205 can use different configurations such as a speaker adaptation technique, a model interpolation technique, and other cluster adaptation learning that are used as a technique for improving diversity of HMM speech synthesis.
  • Different learning methods such as distribution parameter estimation using a deep neural network can also be used. That is, the HMM learning unit 205 uses a model learned by an arbitrary method using time information such as pitch synchronization analysis as a parameter of the duration distribution without using the number of frames as a parameter of the duration distribution in speech analysis at a fixed frame rate. It is possible to learn a speech synthesis model.
  • FIG. 12 is a block diagram showing a modified example (speech synthesis model learning device 200a) of the speech synthesis model learning device 200.
  • the speech synthesis model learning device 200a includes a speech corpus storage unit 201, an analysis unit 203, a feature parameter storage unit 204, a speaker adaptation unit 301, an average voice HMM storage unit 302, and an HMM storage unit 106. Then, the speech synthesis model is learned by performing speaker adaptation from the average voice. In addition, the same code
  • the speaker adaptation unit 301 is obtained by applying the speaker adaptation technique to the average voice model stored in the average voice HMM storage unit 302 using the feature parameter stored in the feature parameter storage unit 204.
  • the adaptive HMM is stored in the HMM storage unit 106.
  • the average voice HMM is an average voice model learned from a plurality of speakers and is a model having average voice characteristics.
  • the speaker adaptation unit 301 obtains an adaptive HMM by converting this average voice using the characteristic parameters of the target speaker.
  • the speaker adaptation unit 301 uses a speaker adaptation method such as maximum likelihood linear regression, so that a model of the average voice HMM can be selected even when there is a shortage of target speaker data. It is possible to create a model that compensates for the lack of context.
  • the mean vector is converted by multiple regression analysis.
  • the speaker adaptation unit 301 associates the learning data with the average voice HMM using the connected learning based on the time parameters shown in the above equations 10 to 35, and obtains the regression matrix. Then, by sharing the regression matrix among a plurality of distributions, it is possible to convert an average vector of a distribution for which no corresponding learning data exists. This makes it possible to synthesize higher quality speech than a model learned using only a small amount of target data, and to synthesize speech from a model adapted to the speaker using acoustic feature parameters by pitch synchronization analysis. .
  • FIG. 13 is a block diagram showing a modification (speech synthesizer 100a) of speech synthesizer 100.
  • the speech synthesizer 100a includes an analysis unit 101, a creation unit 102, a determination unit 103, a generation unit 104, a waveform generation unit 105, an HMM storage unit 106, a feature parameter storage unit 204, and a selection unit 401. Then, speech synthesis is performed by selecting feature parameter series.
  • symbol is attached
  • the selection unit 401 performs processing between the creation unit 102 and the determination unit 103. Specifically, in the speech synthesizer 100a, the selection unit 401 selects a parameter from the acoustic feature parameters stored in the feature parameter storage unit 204 and selects the HMM sequence obtained in the creation unit 102 as a target. A speech waveform is synthesized from the selected parameters. That is, the selection unit 401 selects an acoustic feature parameter including a duration parameter and pitch information corresponding to each state from the acoustic feature parameter candidates based on the statistical model.
  • the selection unit 401 selects a parameter from the acoustic feature parameters, so that deterioration in sound quality due to excessive smoothing of HMM speech synthesis can be suppressed, and a natural synthesized speech closer to an actual utterance can be obtained. It becomes like this.
  • the voice regenerated from the analysis parameters has a sound quality closer to the original sound than when using the conventional feature parameters analyzed at a fixed frame rate. For this reason, in the speech synthesizer 100a, the effect of using the pitch synchronization analysis appears remarkably, and the naturalness is improved as compared with the case where the conventional feature parameter is used.
  • the selection unit 401 selects a feature parameter series based on the HMM.
  • the unit of feature parameter selection can be performed by an arbitrary unit.
  • the feature parameter is selected for each state of the HMM sequence.
  • the feature parameter storage unit 204 stores information that gives a boundary corresponding to the state along with each feature parameter of the speech waveform. For example, the association between each state of the HMM and the speech waveform is obtained in advance by Viterbi alignment, and the time boundary of the obtained maximum likelihood state transition sequence is stored in the feature parameter storage unit 204 as a state boundary.
  • the selection unit 401 selects the optimum feature parameter sequence by dynamic programming using the state of the HMM sequence as a unit.
  • FIG. 14 is a flowchart showing processing executed by the selection unit 401.
  • the selection unit 401 selects candidate feature parameters in the initial state of the first HMM of the text to be synthesized (S401), and calculates a target likelihood for each initial candidate (S402).
  • the target likelihood is obtained by quantifying the degree of matching with the target in the corresponding section, and can be obtained from the likelihood of the distribution of the HMM sequence.
  • the log likelihood is used, it is calculated as the sum of the log likelihoods of the feature parameters in each state section.
  • a feature parameter candidate is a set of feature parameters as a selection source, and learning data used when learning the distribution of leaf nodes of the decision tree in the state of the corresponding HMM can be used as a candidate.
  • a method that uses the same phoneme feature parameter corresponding to the same state as a candidate a method that uses the same phoneme narrowed down in the phoneme environment as a candidate, and a method that determines candidates based on the degree of matching of prosodic attributes Is also possible.
  • the selection unit 401 advances the state number by one, selects a candidate for each state (S403), and performs likelihood calculation such as target likelihood and connection likelihood (S404).
  • the candidate selection process in S403 can be performed in the same manner as the process in S401.
  • the connection likelihood is a numerical value of the degree to which the corresponding section is suitable as a successor of the preceding section.
  • the connection likelihood uses the likelihood when each candidate segment in the corresponding state is selected for each candidate segment in the preceding state segment, and the subsequent segment of each candidate segment in the previous state as an average vector
  • the variance can be calculated by the likelihood of the Gaussian distribution using the variance of the output distribution of each state.
  • the selection unit 401 stores information on the optimal candidate in the previous state for each candidate segment for backtracking.
  • the selection unit 401 determines whether or not the current state is the final state of the final HMM of the HMM sequence corresponding to the input sentence (S405). If it is determined that the selection unit 401 is in the final state (S405: Yes), the process proceeds to S406. If the selection unit 401 determines that the final state is not reached (S405: No), the selection unit 401 advances the state and the HMM by one and returns to the process of S403.
  • the selection unit 401 selects a feature parameter having the maximum likelihood, and obtains an optimum feature parameter sequence by sequentially backtracking the optimum candidate in the preceding state (S406).
  • the selection unit 401 outputs the optimal feature parameter series selected in this way to the determination unit 103.
  • FIG. 15 is a diagram illustrating a specific configuration example of the selection unit 401.
  • the selection unit 401 includes, for example, a candidate selection unit 411, a likelihood calculation unit 412, and a backtrack unit 413.
  • the candidate selection unit 411 selects candidates from the feature parameter storage unit 204.
  • the likelihood calculation unit 412 calculates a target likelihood / connection likelihood.
  • the candidate selection unit 411 and the likelihood calculation unit 412 repeat the processing in units of the state of the HMM sequence, and finally the backtrack unit 413 obtains the optimum feature parameter sequence.
  • likelihood maximizing sequence is taken as an example here, any method for selecting a feature parameter sequence based on the HMM sequence may be used.
  • a cost function that is calculated by the inverse of likelihood, a square error with the average vector, the Mahalanobis distance, or the like may be defined, and feature parameters may be selected by cost minimization.
  • the feature parameter may be selected by calculating the cost only from the acoustic likelihood and the prosodic likelihood instead of selecting the feature parameter by dynamic programming.
  • a feature parameter may be generated from the HMM sequence, and the feature parameter may be selected by calculating a cost from a distance from the generated parameter.
  • the selection unit 401 can select an optimum feature parameter for each state of each HMM in the input HMM sequence, and outputs the information to the determination unit 103.
  • the determining unit 103 determines the number of pitch waveforms from the selected duration distribution series and pitch feature parameter series.
  • the generation unit 104 updates the distribution using the selected feature parameter. Using the variance of the HMM sequence, the distribution is updated by replacing the average vector of the distribution with the selected feature parameter, and the parameter is generated from the updated distribution sequence, thereby generating a parameter reflecting the selected feature parameter. It can be carried out.
  • the waveform generation unit 105 generates synthesized speech from the generated parameters. As described above, the speech synthesizer 100a includes the selection unit 401, so that a waveform can be generated from the acoustic feature amount selected for each section, and natural synthesized speech can be obtained.
  • the speech synthesizer 100, the speech synthesizer 100a, the speech synthesis model learning device 200, and the speech synthesis model learning device 200a can be realized by using, for example, a general-purpose computer device as basic hardware. That is, the speech synthesizer and the speech synthesis model learning device according to the present embodiment can be realized by causing a processor installed in the above-described computer device to execute a program.
  • a program (speech synthesis program or speech synthesis model learning program) executed by the speech synthesizer 100, the speech synthesizer 100a, the speech synthesis model learning device 200, and the speech synthesis model learning device 200a is provided by being incorporated in advance in a ROM or the like.
  • the programs executed by the speech synthesizer 100, the speech synthesizer 100a, the speech synthesizer model learning device 200, and the speech synthesizer model learning device 200a are in an installable format or an executable format file and are a CD-ROM (Compact Disk). It may be configured to be recorded on a computer-readable recording medium such as Read Only Memory (CD), CD-R (Compact Disk Recordable), DVD (Digital Versatile Disk), etc. and provided as a computer program product. Furthermore, these programs may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network.
  • the duration time based on the duration distribution of each state of each statistical model in the statistical model sequence, and the pitch information based on the output distribution of the pitch feature parameter are used.
  • the number of pitch waveforms in the state is determined, a distribution sequence of acoustic feature parameters is generated based on the determined number of pitch waveforms, and an acoustic feature parameter is generated based on the generated distribution sequence.
  • the continuation length can be prevented.
  • the speech synthesizer according to the embodiment models the time length calculated from the pitch mark as the duration distribution while using precise acoustic feature parameters by pitch synchronization analysis, and the duration distribution parameter in the corresponding state at the time of synthesis.
  • the number of pitch waveforms can be calculated based on pitch information generated based on the output distribution of the pitch feature parameters, and speech synthesis can be performed. Therefore, the speech synthesizer according to the embodiment solves the problem of unnatural continuation length due to the effect of pitch mismatch at the time of learning and synthesis while using precise speech analysis, and high-quality speech synthesis. Is possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

音声劣化と不自然な音素継続長とを防止する。 実施形態の音声合成装置は、記憶部と、作成部と、決定部と、生成部と、波形生成部とを有する。記憶部は、複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する。作成部は、入力テキストに対応するコンテキスト情報、及び統計モデル情報から統計モデル系列を作成する。決定部は、統計モデル系列の各統計モデルの各状態の継続長分布に基く継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。生成部は、ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する。波形生成部は、生成した音響特徴パラメータから音声波形を生成する。

Description

音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
 本発明の実施形態は、音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムに関する。
 任意のテキストを合成波形に変換する音声合成技術が知られている。また、音声波形のデータベースを分析して得られる特徴パラメータから統計モデルを学習する音声合成モデル学習装置と、学習された統計モデルを音声合成に用いる音声合成装置が広く知られている。
特開2002-268660号公報
H.Zen, et al, "A Hidden Semi‐Markov Model‐Based Speech Synthesis System", IEICE TRANS. INF. SYST., VOL. E90-D, NO.5 MAY 2007,p.825‐834
 従来は、固定フレームレートの音声分析による音響特徴パラメータを用いた場合、精密な音声分析が行われずに音質劣化が生じるという問題があった。また、ピッチ同期分析によって音声分析を行った場合、学習時と合成時のピッチの不一致の影響等により不自然な音素継続長になるという問題があった。本発明が解決しようとする課題は、音声劣化と不自然な音素継続長とを防止することができる音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムを提供することである。
 実施形態の音声合成装置は、記憶部と、作成部と、決定部と、生成部と、波形生成部とを有する。記憶部は、複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する。作成部は、入力テキストに対応するコンテキスト情報、及び統計モデル情報から、統計モデル系列を作成する。決定部は、統計モデル系列の各統計モデルの各状態の継続長分布に基く継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。生成部は、ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する。波形生成部は、生成部が生成した音響特徴パラメータから音声波形を生成する。
実施形態にかかる音声合成装置を示すブロック図。 HSMMを例示する図。 HMM記憶部が記憶しているHMMを示す図。 実施形態にかかる音声合成モデル学習装置を示すブロック図。 固定フレームレートによる分析と、ピッチ同期分析との違いを示す図。 HMM学習部が行う処理を示すフローチャート。 実施形態にかかる音声合成装置がパラメータを生成する処理例を示す図。 波形生成部が行う処理を示す図。 状態占有確率の計算方法を示す図。 実施形態にかかる音声合成装置が実行する処理を示すフローチャート。 実施形態にかかる音声合成モデル学習装置が実行する処理を示すフローチャート。 実施形態にかかる音声合成モデル学習装置の変形例を示すブロック図。 実施形態にかかる音声合成装置の変形例を示すブロック図。 選択部が実行する処理を示すフローチャート。 選択部の具体的な構成例を示す図。
 まず、本発明がなされるに至った背景について説明する。音声合成モデル学習装置には、時系列信号をモデル化するために、複数の状態を持つ統計モデルである隠れマルコフモデル(HMM:Hidden Markov Model)を学習するものがある。また、音声合成装置には、学習されたHMMに基づいて音声を合成するものがある。
 HMMに基づく音声合成では、入力されたテキストに従って分布列を求め、得られた分布列から特徴パラメータを生成することにより音声を合成する。例えば、音声のスペクトル情報、音響特徴パラメータ及び韻律特徴パラメータを用いて、静的特徴パラメータと共に時間変化を表す動的特徴パラメータを併せた特徴パラメータ列からモデルを学習し、静的及び動的特徴パラメータの尤度を最大化するパラメータ生成アルゴリズムを適用して、滑らかな特徴パラメータ系列による音声を生成することができる。音響特徴パラメータは、音源情報を表す。韻律特徴パラメータは、音声の韻律情報であるピッチ情報を表す。
 さらに、HMMの話者適応技術・話者補間技術等を応用することにより、少量データによる新話者モデルや話者補間モデル、度合いの制御が可能な感情モデルの作成など、合成音声の多様性を広げることも可能である。
 HMM音声合成では、メルケプストラム分析方法やSTRAIGHT分析によるスペクトル包絡抽出方法を用いる方法が一般的に利用されている。これらの方法は、スペクトル分析を行うときに、例えば5ms程度の固定のフレームレートによる音声分析を行い、特徴パラメータを分析する。
 メルケプストラム分析を用いる場合は、フレームの中心点と波形の周期性との対応は考慮されず、複数の周期を含む比較的広い窓幅のフレームを切り出してパラメータ分析を行う。よって、分析し再合成した音声は元の音声波形に対して歪みが生じ、音質劣化が生じる。
 STRAIGHT分析も同様に、固定のフレームレートによる音声分析を行う。STRAIGHT分析では、時間方向平滑化及び周波数方向平滑化の処理により、分析窓の中心と周期性との対応を補正しつつスペクトル分析を行う。よって、音質劣化は低減されるものの、破裂音や無声摩擦音と有声音の境界などの非定常個所における音質劣化等、固定フレームレート分析に起因する音質劣化は依然として生じる。
 また、HMMに基づく音声合成の拡張として、統計モデルに基づく音声合成と音声素片選択に基づく音声合成を組み合わせたハイブリッド型音声合成方法や、特徴パラメータを選択する音声合成方法、及びニューラルネットを利用した音声合成方法などがある。しかし、これらの方法においても、メルケプストラム分析を用いた音声分析方法や、STRAIGHTを利用した音声分析方法を用いる場合には、同様に機械的な音質になる問題が生じる。
 固定のフレームレートによる音声分析方法を用いた場合、特徴パラメータの個数であるフレーム数は継続時間長と線形な関係になるため、フレーム数を継続長分布として利用することができる。すなわち、HMMの各状態のフレーム数を直接継続長分布のパラメータとして、隠れセミマルコフモデル(HSMM)のパラメータを学習した音声合成が可能である。
 HSMMは、出力分布と状態継続長分布による確率モデルであり、HMMの尤度計算において固定の自己遷移確率ではなく状態継続長分布を用いて尤度計算を行うモデルである。この場合、継続長モデルは、各音声データを各状態と統計的に対応づける状態占有確率と、状態系列における各状態に対応付けた特徴パラメータのフレーム数により、継続長分布のパラメータを学習する。時間長はフレーム数にフレームレートを乗じることによって求められるため、固定のフレームレートの音声分析を用いた場合、特徴パラメータと対応するコンテキストのみから、時間長と線形な関係を持つ継続長分布を学習することができる。
 パラメータ生成時には、決定木を辿って得られる継続長分布が直接フレーム数の分布となるため、継続長分布パラメータからフレーム数を定め、得られた各状態のフレーム数に従って分布列を生成し、パラメータ生成及び波形生成処理を行うことができる。このように、固定フレームレートによる音声分析を用いた場合、音質劣化は生じるものの、特徴パラメータのフレーム数を継続長分布としてモデル化し、継続長分布のパラメータから直接音声合成時のフレーム数を定めることができる。
 一方で、音声の分析方法の一つとして、ピッチ同期分析を用いることも可能である。ピッチ同期分析では、固定のフレームレートではなく、音声波形の各ピッチ周期に対応した間隔で特徴パラメータの分析を行う。例えば、音声の周期的な波形の各周期の中心時刻を表すピッチマーク情報を作成し、ピッチマーク位置から分析中心を定め、ピッチに依存した窓幅の窓関数を適用してピッチ波形を切り出し、切り出したピッチ波形を分析して音響特徴パラメータを求める。
 ここで、適切に付与したピッチマーク位置を分析中心時刻として分析することにより、音声波形の局所的な変化にも対応した適切な分析が可能となるため、分析合成音声の原音との一致性を増すことができ、音質劣化が低減される。しかし、この場合、各フレームの間隔が一定でなくなるため、フレームの個数であるピッチ波形数と時刻の情報が線形な関係ではなくなり、ピッチの高い個所では多くのフレーム数となり、低い個所では少ないフレーム数の分析となる。
 このように、ピッチ同期分析を用いた場合、音声フレームの個数を継続長分布のパラメータとしてモデル学習及び合成に用いると、学習時のピッチと合成時のピッチの不一致の影響により不自然な長さの合成音声となる問題が生じる。継続長モデルは、モーラ(拍)や音素との相関が高いため、ピッチに依存して変化するピッチ同期分析のピッチ波形数の分布ではなく、開始時刻と終了時刻の差による時刻パラメータによる時間長をパラメータとする方法などにより、時刻と線形な関係にあるパラメータをモデル化することが望ましい。
 次に、添付図面を参照して、音声合成装置の実施形態について説明する。図1は、音声合成装置の実施形態(音声合成装置100)を示すブロック図である。図1に示すように、音声合成装置100は、解析部101、作成部102、決定部103、生成部104、波形生成部105及びHMM記憶部106を有する。
 解析部101は、入力テキストに対して形態素解析を行い、読み情報及びアクセント情報などの音声合成に必要な言語情報を求め、得られた言語情報からコンテキスト情報を作成する。解析部101は、別途作成された入力テキストに対応する修正済みの読み情報及びアクセント情報などを受入れて、コンテキスト情報を作成してもよい。
 ここで、コンテキスト情報とは、音素・半音素・音節HMM等の音声を分類する単位として用いられる情報である。音声単位として音素を用いる場合、コンテキスト情報として音素名の系列を用いることができる。さらに、先行音素・後続音素を付加したトライフォン、前後2音素ずつ含めた音素情報、有声音・無声音による分類、詳細化した音素種別の属性を表す音素種別情報、各音素の文内・呼気段落内・アクセント句内の位置、アクセント句のモーラ数・アクセント型、モーラ位置、アクセント核までの位置、語尾上げの有無の情報、付与された記号情報等の言語的な属性情報を含めてコンテキスト情報としてもよい。
 作成部102は、解析部101から入力されたコンテキスト情報に従って、HMM記憶部106が記憶しているHMM(図3を用いて後述)を用いて、入力テキストに対応するHMM系列を作成する。HMMは、状態遷移確率と各状態の出力分布とにより表される統計モデルである。具体的には、作成部102は、入力テキストに対応するコンテキスト情報、及び後述する統計モデル情報から、統計モデル系列を作成する。
 HMMは、left-to-right型HMMである場合、図2に示すように、各状態の出力分布N(o|μ、Σ)と、状態遷移確率aij(i,jは状態インデックス)によりモデル化され、隣接する状態への遷移確率及び自己遷移確率のみ値を持つ形でモデル化される。ここで、自己遷移確率aijの代わりに継続長分布N(d|μ d、Σ d)を用いるものは、HSMM(隠れセミマルコフモデル)と呼ばれ、継続長のモデル化に用いられる。以下、HSMMも含めてHMMと記載する。
 決定部103は、作成部102が作成したHMM系列に基づいて、継続長分布パラメータ及びピッチ特徴パラメータの出力分布から生成されるピッチパラメータを用いてピッチ波形数を決定する。つまり、決定部103は、作成部102が作成した統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長と共に、ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。
 生成部104は、決定部103が決定したピッチ波形数に従って分布列を作成し、分布列から音響特徴パラメータを生成する。具体的には、生成部104は、ピッチ波形数に基づいて、音響特徴パラメータの分布列を生成し、生成した分布列に基づいて音響特徴パラメータを生成する。
 波形生成部105は、生成部104が生成した音響特徴パラメータの系列から音声波形を生成する。
 HMM記憶部106は、ピッチ同期分析による音響特徴パラメータから学習したHMMを記憶している。具体的には、HMM記憶部106は、HMMの各状態の出力分布を決定木クラスタリングしたモデルを記憶している。HMMの各状態におけるピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続長分布と、コンテキスト情報に基づいて各状態の分布を選択するための決定木を統計モデル情報として記憶する。
 図3は、HMM記憶部106が記憶しているHMMを示す図である。図3に示すように、HMM記憶部106は、例えばHMMの各状態の特徴パラメータのモデルである決定木及び決定木の各リーフノードの出力分布を記憶しており、さらに継続長分布のための決定木及び分布も記憶している。
 決定木の各ノードには、分布を分類する質問が関連付けられている。例えば、ノードは、「無音かどうか」、「有声音であるかどうか」、「アクセント核かどうか」といった質問が関連付けられており、その質問に該当する場合の子ノードと、該当しない場合の子ノードに分類する。つまり、決定木では、入力されたコンテキスト情報に対して、各ノードの質問に該当するか否かを判断することによって探索し、リーフノードを得る。
 つまり、上述した作成部102は、得られたリーフノードに対応付けられている分布を各状態の出力分布として用いることにより、各音声単位に対応するHMMを構築する。そして、作成部102は、入力されたコンテキスト情報に対応するHMM系列を作成する。
 次に、音声合成モデル学習装置の実施形態について説明する。図4は、音声合成モデル学習装置の実施形態(音声合成モデル学習装置200)を示すブロック図である。図4に示すように、音声合成モデル学習装置200は、音声コーパス記憶部201、分析部203、特徴パラメータ記憶部204、HMM学習部205及びHMM記憶部106を有する。なお、音声合成モデル学習装置200が有するHMM記憶部106は、図1を用いて上述したHMM記憶部106に対応する。つまり、HMM記憶部106に記憶されるHMMは、図4に示したように、音声合成モデル学習装置200がピッチマークを用いたピッチ同期分析を行って作成している。
 音声コーパス記憶部201は、モデル学習に用いる音声波形(音声データ)、各音声波形に対応するコンテキスト情報及びピッチマーク情報を記憶している。音声波形は、発話者の収録音声から文ごとに切り出されたデータからなる。コンテキスト情報は、各収録音声の発声内容から作成される。
 ピッチマーク情報は、有声音の周期的な区間に対しては、音声データからピッチ抽出し、周期に対応した時刻を抽出することにより作成される。また、ピッチマーク情報は、無声音や破裂音・無音などの非周期波形の区間に対しては、有声音区間の周期波形のピッチを滑らかに補間するように時刻を定めることや、非周期区間では固定のフレームレートに時刻を定めることなどにより、文全体に対して分析中心位置を示す時刻情報が設定される。つまり、ピッチマーク情報は、非周期区間の分析時刻も含む。このように、各音声波形の分析中心時刻の情報であり、周期波形区間においてはピッチ周期に対応した分析中心時刻であるピッチマーク情報が音声コーパスに作成されている。
 分析部203は、音声波形から音響特徴パラメータを求める。音響特徴パラメータは、音声のスペクトル包絡を表すスペクトルパラメータ及び音源情報を表す音源パラメータ、基本周波数の情報を表すピッチパラメータ等による特徴パラメータであり、音声波形から抽出される。つまり、分析部203は、音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する。
 スペクトルパラメータとしては、メルケプストラム、メルLSP、線形予測係数などのスペクトル包絡パラメータが利用できる。音源パラメータとしては、各スペクトル帯域の非周期成分の割合を表す帯域雑音強度(BAP:band aperiodicity)、位相情報又は群遅延情報等が用いられる。
 よって、分析部203は、各ピッチマーク時刻に対応した音響特徴パラメータを適切に求めることができる。図5は、有声音の周期波形区間における固定フレームレートによる分析と、ピッチ同期分析との違いを示す図である。
 図5(a)は、固定フレームレートによる音声分析を表している。固定フレームレートによる音声分析では、フレームの中心時刻と、波形の周期性との間に関連がなく、予め定めた間隔によって特徴分析が行われる。
 例えば、固定フレームレートによる音声分析では、25ms程度の窓関数で複数の周期波形を含む範囲を切り出した分析が広く用いられるが、音声波形のピーク位置とフレーム位置との間に関連がなくなるため歪みが生じる。この影響により、固定フレームレートによる音声分析は、定常的な音声区間においても不安定なスペクトル包絡となる場合がある。また、変化の急な個所においては、広い窓幅等の影響により過剰に平滑化された分析結果となり、変化する波形を適切に再現できない問題も生じる。
 これに対し、ピッチ同期分析による特徴抽出では、図5(b)に示したように、音声波形の各周期のピーク時刻付近にピッチマークを定める方法など、ピッチ周期に応じた時刻にピッチマークが付与され、ピッチマーク時刻を分析中心として、2ピッチ程度の窓幅のハニング窓等を用いて波形が切り出される方法が用いられる。
 このように、ピッチ同期分析では、適切な時刻においてピッチに依存する窓幅で分析を行うことが可能になり、分析した特徴パラメータから合成する分析合成音声は元の音声に近い波形が得られる。
 また、固定のフレームレート分析の音質劣化を低減するため、STRAIGHT分析では、分析時刻の位置の不定性の補正を時間方向の平滑化によって行い、さらに周波数方向の平滑化によって滑らかなスペクトル包絡を抽出する。また、ピッチ同期分析によって得られたパラメータを固定フレームレート位置に補間して分析する場合にも、ピッチ同期分析によるパラメータをそのまま用いる場合と比較すると劣化が生じ、再合成した音声波形と元の音声波形との間には歪みが生じる。
 音響特徴パラメータとして、メルLSP,BAPを用いる場合、各ピッチマーク毎に切り出した音声にメルLSP分析を適用してメルLSPを求め、各時刻の左右のピッチマークの間隔の情報などからピッチ情報を求めて対数Fに変換し、帯域雑音強度の分析によりBAPを求める。帯域雑音強度の分析では、例えばPSHF(Pitch Scaled Harmonic Filter)方式に基づいて、音声を周期成分と非周期成分に分離し、各時刻の非周期成分比率を求め、予め定めた帯域毎に平均化すること等によりBAPを求めることができる。
 さらに、位相特徴パラメータを用いる場合は、ピッチ同期に切り出した各ピッチ波形の位相情報をパラメータとして表し、複数周期を含む波形や中心位置によって切り出した波形の形状が安定しない形となる固定フレームレートの分析では困難な位相情報も、ピッチ同期分析を用いることにより特徴パラメータとして扱うことが可能となる。
 ピッチ情報や継続長情報は、韻律情報を表す特徴パラメータであり、同様に音声コーパスの各音声波形から抽出される。ピッチ情報は、各音韻の抑揚や高さの変化を表す情報である。継続長は、音素等音声単位の長さを表す特徴パラメータである。ピッチ特徴パラメータとしては、対数基本周波数、基本周波数、ピッチ周期情報を利用できる。継続長情報としては、音素継続長などを用いることができる。
 ピッチ同期分析では、各ピッチマーク時刻の左右の間隔から各時刻のピッチが定められ、対数基本周波数に変換される。ピッチ情報は、有声音のみ値を持つパラメータであるが、無声音の部分に補間したピッチを当てはめて特徴パラメータとすることや、無声音であることを表す値が用いられてもよい。
 各音素の継続長の情報は、音素境界時刻の情報としてコンテキスト情報に付加しておき、HMMの学習時の初期モデルの学習に用いられる。ただし、HSMMによる継続長分布のパラメータは、HMMの各状態と学習データとの対応づけから最尤推定により求められるため、予め音素時刻を特徴パラメータとして用意しない場合もある。このように、分析部203は、各ピッチマーク時刻における音響特徴パラメータを求めて、HMMの学習に用いる特徴パラメータを作成する。また、分析部203は、特徴パラメータの傾きの情報である動的特徴量(図中のΔパラメータおよびΔパラメータ等)も求めて付加する。そして、図5(b)に示すような音響特徴パラメータが構成される。
 特徴パラメータ記憶部204(図4)は、分析部203が求めた音響特徴パラメータを、そのコンテキスト情報や時間境界情報等とともに記憶する。
 HMM学習部205は、特徴パラメータ記憶部204が記憶した特徴パラメータをHMMの学習データとして用いる。HMM学習部205は、継続長分布のパラメータを同時推定する隠れセミマルコフモデルの学習を、HMMの学習として行う。つまり、HMM学習部205は、隠れセミマルコフモデルの学習において、コンテキスト情報及び音響特徴パラメータに加えて、ピッチ同期分析を用いるために各音声データのピッチマーク情報も入力し、時刻情報による継続長分布の学習を実現する。つまり、HMM学習部205は、分析部203が分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する。
 図6は、HMM学習部205が行う処理を示すフローチャートである。HMM学習部205は、まず音素HMMの初期化を行い(S101)、HSMMの学習により音素HMMの最尤推定をして(S102)、初期モデルである音素HMMを学習する。HMM学習部205は、最尤推定する場合には、連結学習によってHMMを文に対応させて、連結した文全体のHMMと文に対応する音響特徴パラメータから各状態と特徴パラメータとの確率的な対応づけを行いつつ学習する。
 次に、HMM学習部205は、音素HMMを用いてコンテキスト依存HMMを初期化する(S103)。学習データに存在するコンテキストに対しては、上述したように当該音素、前後の音素環境、文内・アクセント句内等の位置情報、アクセント型、語尾上げするか否かといった音韻環境及び言語情報が用いられ、当該音素で初期化されたモデルが用意されている。
 そして、HMM学習部205は、コンテキスト依存HMMに対して連結学習による最尤推定を適用して学習し(S104)、決定木に基づく状態クラスタリングを適用する(S105)。このように、HMM学習部205は、HMMの各状態・各ストリーム及び状態継続長分布に対して、決定木を構築する。
 より具体的には、HMM学習部205は、状態毎・ストリーム毎の分布から、最尤基準やMDL(Minimum Description Length)基準等によりモデルを分類する規則を学習し、図3に示した決定木を構築する。このように、HMM学習部205は、音声合成時には、学習データに存在しない未知のコンテキストが入力された場合にも、決定木を辿ることにより各状態の分布が選択され、対応するHMMを構築することができる。
 最後に、HMM学習部205は、クラスタリングしたモデルを最尤推定し、モデル学習が完了する(S106)。
 HMM学習部205は、クラスタリングを行うときに、各特徴量のストリーム毎に決定木を構築することにより、スペクトル情報(メルLSP)・音源情報(BAP)・ピッチ情報(対数基本周波数)の各ストリームの決定木を構築する。また、HMM学習部205は、状態毎の継続長を並べた多次元分布に対して決定木を構築することにより、HMM単位の継続長分布決定木を構築する。なお、HMM学習部205は、各最尤推定ステップにおいて、モデルの更新を行うときに、コンテキスト情報及び音響特徴量に加えて、ピッチマーク時刻情報を参照して状態継続長分布を学習する。
 また、HMM学習部205は、各音響特徴量に対応する時刻情報を用いて、継続長分布を学習するときに、各状態に対応づけられたフレーム数ではなく、各状態に対応づけられたフレームの開始点における時刻、及び終了点における時刻から、時刻パラメータによる時間長を求める。そして、HMM学習部205は、求めた時間長から継続長分布を求めることが可能となり、ピッチ同期分析のように、非線形な間隔で特徴分析したパラメータを用いて学習しても適切な継続長分布を学習することができる。
 なお、ピッチマーク時刻を用いたHSMMでは、後述するアルゴリズムを用いた連結学習による最尤推定が行われる。そして、HMM学習部205が作成したHMMを、HMM記憶部106が記憶する。
 つまり、音声合成装置100は、作成部102が入力コンテキストとHMM記憶部106が記憶しているHMMからHMM系列を作成し、決定部103が各HMMの各状態のピッチ波形数を決定する。そして、音声合成装置100は、決定したピッチ波形数に従って各状態の分布を繰り返すことにより分布列を作成して、生成部104が静的・動的特徴量を考慮したパラメータ生成アルゴリズムにより各パラメータを生成する。
 図7は、音声合成装置100がパラメータを生成する処理例を示す図である。図7においては、音声合成装置100が3状態のHMMで「赤い」の音声を合成する場合が例示されている。
 まず、作成部102は、入力コンテキストのHMMの各状態・各ストリームの分布及び継続長分布を選択し、HMMの系列を構成する。コンテキストとして「先行音素_当該音素_後続音素_音素位置_音素数_モーラ位置_モーラ数_アクセント型」を用いた場合、「赤い」は、3モーラ2型であり、最初の“a”の音素が、先行音素“sil”、当該音素“a”、後続音素“k”、音素位置1、音素数4、モーラ位置1、モーラ数3、アクセント型2型のため、“sil_a_k_1_4_1_3_2”といったコンテキストになる。
 HMMの決定木を辿る場合、各中間ノードに当該音素がaであるか否か、アクセント型が2型であるか否かといった質問が定められており、質問を辿ることによってリーフノードの分布が選択され、メルLSP,BAP,LogF0の各ストリーム及び継続長分布の分布がHMMの各状態に選択されて、HMM系列が構成される。そして、決定部103は、下式1によってピッチ波形のフレーム数を決定する。
Figure JPOXMLDOC01-appb-M000001
 ここでは、対数Fをピッチ情報の分布としているため、モデルq、状態iの対数基本周波数ストリームの静的特徴量の平均値μlf0 qiから求めた基本周波数exp(μlf0 qi)に、モデルq、状態iの状態継続長分布の平均値μdur qiを乗算し、切り捨て、又は四捨五入等による整数化関数int()が適用されてピッチ波形数が定まる。
 ピッチマーク時刻の時間情報を用いて求められたμdur qiが継続長分布であるため、フレーム数を求める場合にはピッチ情報が必要である。従来法はフレーム数をそのまま継続長分布として表すため、下式2の様に、単に整数化することにより定められる。
Figure JPOXMLDOC01-appb-M000002
 上述したように、特徴パラメータ分析時に固定のフレームレートで分析され、時刻に線形な関係がある場合には、上式2の形でフレーム数を求めることができる。しかし、ピッチ同期分析などにより、可変のフレームレートで音声分析を行った場合には、時刻を継続長分布のパラメータとして用いる必要があり、上式1の形によって波形数を定める必要がある。
 なお、ここではピッチ情報の特徴パラメータとして対数基本周波数を用いているが、基本周波数を用いる場合はexp()関数が不要となる。また、ピッチ周期をパラメータとして用いる場合は下式3のように、除算により求めることになる。
Figure JPOXMLDOC01-appb-M000003
 生成部104は、このように定めたピッチ波形数によってHMMの各状態の分布を繰り返すことにより分布列を作成し、静的・動的特徴量を用いたパラメータ生成アルゴリズムによりパラメータ系列を生成する。ΔとΔを動的特徴パラメータとして用いる場合、以下の方法により出力パラメータが求められる。時刻tの特徴パラメータoは、静的特徴パラメータcと、前後のフレームの特徴パラメータから定まる動的特徴パラメータΔc、Δを用いて、o=(c’、Δc’、Δ’)と表される。P(O|J,λ)を最大化する静的特徴量cからなるベクトルC=(c’、・・・、cT-1’)’は、0TMをT×M次のゼロベクトルとして、下式4として与えられる方程式を解くことによって求められる。
Figure JPOXMLDOC01-appb-M000004
 ただし、Tはフレーム数、Jは状態遷移系列である。特徴パラメータOと静的特徴パラメータCとの関係を、動的特徴を計算する行列Wによって関係付けると、O=WCと表される。Oは3TMのベクトル、CはTMのベクトルとなり、Wは、3TM×TMの行列である。そして、μ=(μs00’,・・・,μsJ-1Q-1’)’、Σ=diag(Σs00’,・・・,ΣsJ-1Q-1’)’と、各時刻における出力分布の平均ベクトル、対角共分散をすべて並べた文に対応する分布の平均ベクトル及び共分散行列としたとき、上式4は、下式5として与えられる方程式を解くことによって最適な特徴パラメータ系列Cを求めることができる。
Figure JPOXMLDOC01-appb-M000005
 この方程式は、コレスキー分解による方法により求められる。また、RLSフィルタの時間更新アルゴリズムに用いられる解法と同様に、遅延時間を伴いつつ時間順にパラメータ系列を生成することもでき、低遅延に生成することも可能となる。なお、パラメータ生成部の処理は本方法に限らず、平均ベクトルを補間する方法等、その他分布列から特徴パラメータを生成する任意の方法が用いられてもよい。
 波形生成部105は、このように生成されたパラメータ系列から音声波形を生成する。例えば、波形生成部105は、対数基本周波数系列及び帯域雑音強度系列から音源信号を作成し、メルLSP系列による声道フィルタを適用して音声波形を生成する。
 図8は、波形生成部105が行う処理を示す図である。図8に示すように、波形生成部105は、対数基本周波数系列からピッチマークを生成し、帯域雑音強度(BAP)系列に従って、ノイズ成分とパルス成分の比率を制御して音源波形を生成し、メルLSP系列による声道フィルタを適用して音声波形を生成する。また、波形生成部105は、位相パラメータも用いてモデル化する場合、位相パラメータから位相スペクトルを生成して、スペクトルパラメータから振幅スペクトルを生成し、逆FFTにより各ピッチマークに対応するピッチ波形を生成して、重畳処理によって波形生成を行う。また、波形生成部105は、位相パラメータから音源波形を生成し、フィルタを適用する方法により波形生成を行ってもよい。
 上述した処理により、ピッチ同期分析を用いた特徴パラメータを用いてHMMモデルを構築し、音声合成に利用することが可能となる。また、これらの処理により、入力コンテキストに対応した合成音声が得られる。
 次に、HMM学習部205が行う最尤推定処理におけるモデル更新アルゴリズムの詳細について説明する。本アルゴリズムは、従来の隠れセミマルコフモデル学習アルゴリズムを、継続長分布を各特徴パラメータの時刻情報から学習するように拡張して導出したものである。従来法では、隠れセミマルコフモデルにより、HMMの各状態に何フレーム滞在したかを自己遷移確率に関する継続長分布として用いる。これに対し、HMM学習部205は、フレーム数ではなく各フレームのピッチマーク時刻の間隔を単位として継続長分布を学習する。これにより、継続長分布は、ピッチに依存せずに、音素及び各状態の継続時間の長さを直接表す分布となり、音声合成時にピッチの不一致の影響によって不自然な継続長になる問題が解消される。
 HMMでは、モデルλ、状態遷移系列Q={q、q、・・・、qT-1}、状態iから状態jへの状態遷移確率aij、状態iの出力分布b(o)に対し、観測ベクトル系列O={o,o,・・・,oT-1}の尤度P(O|λ)は、あらゆる状態遷移系列の総和として、下式6によって表される。
Figure JPOXMLDOC01-appb-M000006
 HMMは、上式6のように状態遷移すべてを状態遷移確率として表すが、隠れセミマルコフモデルHSMMでは、自己遷移確率を継続長分布として表す。
Figure JPOXMLDOC01-appb-M000007
 ここで、pi(t,d)は状態iに時刻tから時刻t+dまでdフレーム滞在する確率を表し、aqt+dqt+d+1は時刻t+dにおいて、異なる状態qt+d+1へ遷移する確率を表す。
Figure JPOXMLDOC01-appb-M000008
 従来法では、この時刻tとして観測ベクトルのフレーム番号を用いており、dフレーム同じ状態に継続した場合の確率と、その後状態遷移する確率をすべての状態遷移系列に計算することになる。このようなHSMMに対するForward-backwardアルゴリズムを用いた出力分布パラメータ、状態遷移確率、状態継続長分布パラメータの更新アルゴリズムでは、最尤推定によりモデルパラメータを求めることができる。
 HMM学習部205のピッチ同期分析のためのHSMMでは、状態継続長p(t,d)は、フレーム数ではなく、時刻の情報をパラメータとして表す。そして、HMM学習部205は、各フレームに対応するピッチマークの時刻情報から、各フレームのピッチマーク時刻をpm(t)としたとき、時刻tから時刻t+dの状態継続長が、d(t,d)=pm(t+d)-pm(t-1)となり、継続長分布のパラメータとして、このピッチマーク時刻の間隔を用いる。
Figure JPOXMLDOC01-appb-M000009
 ピッチ同期分析の場合は、ピッチマーク位置をフレームの中心として波形の分析を行うが、このときフレーム数を状態継続長分布として表した場合、ピッチが高いほど、ピッチマークの間隔は狭くなり、多くのフレーム数となる。この場合、ピッチが低いほど、ピッチマークの間隔が広くなるため、少ないフレーム数となり、時間長だけでなく、ピッチに依存した状態継続長の分布となる。
 これに対し、HMM学習部205は、ピッチによらず、各状態の時間長をそのままモデル化するため、各音素の長さをピッチに依存せずにモデル化することができる。固定のフレームレートの分析を行った場合は、時刻情報・フレーム数、どちらを用いても線形な関係になるため、影響を受けない。HMM学習部205は、フレームの間隔が一定でない場合にも、適切に継続長モデルを計算することができる。
 次に、HMM学習部205が最尤推定を行う場合のモデルの連結学習のためのForward-Backwardアルゴリズムによる更新アルゴリズムについて説明する。まず、前向き確率を、以下式10~17により計算する。前向き確立α(q) (t、d)は、dフレーム続いた後に、時刻tにおいて、モデルq、状態jに存在する確率である。まず、時刻(t=1)において下式10~13により初期化する。
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
 そして、下式14~17による再帰計算により、(2≦t≦T)のフレームの前向き確率α(q) (t、d)を求める。
Figure JPOXMLDOC01-appb-M000014
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
 後ろ向き確率β(q) (t、d)は、同様に、時刻tにおいて、状態iにdフレーム滞在し、その後時刻Tまでの観測ベクトルが出力される確率であり式18~25により計算する。まず時刻(t=T)において下式18~21により初期化する。
Figure JPOXMLDOC01-appb-M000018
Figure JPOXMLDOC01-appb-M000019
Figure JPOXMLDOC01-appb-M000020
Figure JPOXMLDOC01-appb-M000021
 そして、下式22~25の再帰(T-1≧t≧1)のステップにより、β(q) (t、d)が計算される。
Figure JPOXMLDOC01-appb-M000022
Figure JPOXMLDOC01-appb-M000023
Figure JPOXMLDOC01-appb-M000024
Figure JPOXMLDOC01-appb-M000025
 これらと混合ガウス分布を用いると、時刻tにおいてモデルqの状態j、混合m、ストリームsに滞在する確率は、下式26~28により求められる。
Figure JPOXMLDOC01-appb-M000026
Figure JPOXMLDOC01-appb-M000027
Figure JPOXMLDOC01-appb-M000028
 また、時刻tにおいてモデルqの状態jに滞在する確率は、下式29により求められる。
Figure JPOXMLDOC01-appb-M000029
 上式28又は上式29は、従来の連結学習とは異なり、図9に示すように、状態をまたがった遷移も考慮した、時刻tにモデルqの状態jを通るあらゆる状態遷移系列の総和となっている。
 また、時刻tから時刻tまでモデルqの状態j、ストリームsに滞在する確率は、下式30によって表される。
Figure JPOXMLDOC01-appb-M000030
 このように導出した状態遷移確率、前向き確率、後ろ向き確率を用いて、モデルパラメータの更新を行い、出力分布のパラメータ、継続長モデル、遷移確率の最尤推定が行われる。継続長分布パラメータの更新式は、下式31,32によって表される。
Figure JPOXMLDOC01-appb-M000031
Figure JPOXMLDOC01-appb-M000032
 また、出力分布の混合重み、平均ベクトル及び共分散行列は、下式33~35により更新される。
Figure JPOXMLDOC01-appb-M000033
Figure JPOXMLDOC01-appb-M000034
Figure JPOXMLDOC01-appb-M000035
 これら式10~35を用いて、HMM学習部205は、モデルパラメータの最尤推定を行う。
 次に、音声合成装置100が実行する音声合成の処理について説明する。図10は、音声合成装置100が実行する音声合成の処理を示すフローチャートである。図10に示すように、まず、解析部101は、入力テキストを解析してコンテキスト情報を求める(S201)。作成部102は、HMM記憶部106が記憶しているHMMを参照して入力コンテキストに対応したHMM系列を作成する(S202)。
 決定部103は、HMM系列の継続長分布及びピッチ情報を用いて各状態のピッチ波形数を決定する(S203)。生成部104は、得られた各状態のピッチ波形数にしたがって出力分布を並べて分布列を作成し、パラメータ生成アルゴリズム等を適用して音声合成に用いるパラメータ系列を分布列から生成する(S204)。そして、波形生成部105は、音声波形を生成し、合成音声を得る(S205)。
 なお、音声合成装置100が有する各機能は、ハードウェアによって構成されてもよいし、CPUが実行するソフトウェアによって構成されてもよい。例えば、音声合成装置100は、音声合成プログラムを実行して音声合成を行う場合、図10に示した各ステップをCPUが実行する。
 次に、音声合成モデル学習装置200が実行する音声合成モデル学習の処理について説明する。図11は、音声合成モデル学習装置200が実行する音声合成モデル学習の処理を示すフローチャートである。図11に示すように、まず、分析部203は、音声コーパス記憶部201が記憶している音声データ、ピッチマーク情報を用いて、ピッチ同期分析によりスペクトルパラメータ、ピッチパラメータ、音源パラメータによる音響特徴パラメータを抽出する(S301)。特徴パラメータ記憶部204が、抽出された音響特徴パラメータを記憶する。
 次に、HMM学習部205は、音響特徴パラメータ、コンテキスト情報及びピッチマーク情報を用いてHMMを学習する(S302)。HMMは、時刻パラメータによる継続長分布及びピッチ情報の出力分布を含む。学習されたHMMは、HMM記憶部106に記憶され、音声合成において用いられる。
 なお、音声合成モデル学習装置200が有する各機能は、ハードウェアによって構成されてもよいし、CPUが実行するソフトウェアによって構成されてもよい。例えば、音声合成モデル学習装置200は、音声合成モデル学習プログラムを実行して音声合成モデル学習を行う場合、図11に示した各ステップをCPUが実行する。
 また、HMM学習部205については、特定話者のコーパスを用いて話者依存モデルを最尤推定する場合を例に説明したが、これに限定されない。例えば、HMM学習部205は、HMM音声合成の多様性向上技術として用いられている話者適応技術、モデル補間技術、その他クラスタ適応学習等の異なる構成を用いることも可能である。また、ディープニューラルネットを用いた分布パラメータ推定等、異なる学習方式を用いることもできる。すなわち、HMM学習部205は、固定のフレームレートによる音声分析でフレーム数を継続長分布のパラメータとせず、ピッチ同期分析等時刻情報を継続長分布のパラメータとする任意の方式で学習したモデルを用いて音声合成モデルを学習することが可能である。
 次に、音声合成モデル学習装置200の変形例について説明する。図12は、音声合成モデル学習装置200の変形例(音声合成モデル学習装置200a)を示すブロック図である。図12に示すように、音声合成モデル学習装置200aは、音声コーパス記憶部201、分析部203、特徴パラメータ記憶部204、話者適応部301、平均声HMM記憶部302及びHMM記憶部106を有し、平均声からの話者適応を行って音声合成モデルを学習する。なお、上述した構成部分と実質的に同じものには、同一の符号が付してある。
 話者適応部301は、平均声HMM記憶部302が記憶している平均声モデルに対し、特徴パラメータ記憶部204が記憶している特徴パラメータを用いて話者適応技術を適用し、得られた適応HMMをHMM記憶部106に記憶させる。
 平均声HMMは、複数の話者から学習した平均的な声のモデルであり、平均的な声の特徴を有するモデルである。話者適応部301は、この平均声を、目標話者の特徴パラメータを用いて変換することにより適応HMMを得る。また、話者適応部301は、最尤線形回帰等の話者適応手法を用いることにより、目標話者データが少量で不足するコンテキストが存在する場合にも、平均声HMMのモデルを目標話者に近づけるため不足コンテキストを補ったモデルを作成することができる。
 最尤線形回帰では、重回帰分析により平均ベクトルを変換する。例えば、話者適応部301は、上式10~35に示した時刻パラメータによる連結学習を用いて学習データと平均声HMMとの対応付けを行い、回帰行列を求める。そして、複数の分布で回帰行列を共有することにより、対応する学習データが存在しない分布の平均ベクトルも変換することが可能となる。これにより、少量の目標データのみを用いて学習したモデルよりも高品質な音声を合成することが可能となり、ピッチ同期分析による音響特徴パラメータを用いて話者適応したモデルから音声合成が可能となる。
 次に、音声合成装置100の変形例について説明する。図13は、音声合成装置100の変形例(音声合成装置100a)を示すブロック図である。図13に示すように、音声合成装置100aは、解析部101、作成部102、決定部103、生成部104、波形生成部105、HMM記憶部106、特徴パラメータ記憶部204及び選択部401を有し、特徴パラメータ系列選択による音声合成を行う。なお、上述した構成部分と実質的に同じものには、同一の符号が付してある。
 音声合成装置100aは、作成部102と決定部103の間において、選択部401が処理を行う。具体的には、音声合成装置100aは、作成部102において得られたHMM系列を目標として、特徴パラメータ記憶部204が記憶している音響特徴パラメータの中からパラメータを選択部401が選択し、選択したパラメータから音声波形を合成する。つまり、選択部401は、統計モデルに基づいて各状態に対応する継続長パラメータ及びピッチ情報を含む音響特徴パラメータを、音響特徴パラメータ候補の中から選択する。このように、選択部401が音響特徴パラメータの中からパラメータを選択することにより、HMM音声合成の過剰平滑化による音質劣化を抑えることができ、より実際の発声に近い自然な合成音声が得られるようになる。
 ピッチ同期分析による特徴パラメータを用いた場合、分析パラメータから再生成した音声は、固定のフレームレートにより分析した従来の特徴パラメータを用いる場合よりも、原音に近い音質となる。このため、音声合成装置100aは、ピッチ同期分析が用いられた効果が顕著に現れ、従来の特徴パラメータを用いる場合よりも自然性が改善する。
 次に、選択部401についてさらに詳述する。選択部401は、HMMに基づいて、特徴パラメータ系列を選択する。特徴パラメータ選択の単位は、任意の単位により行うことが可能にされているが、ここではHMM系列の各状態毎に、特徴パラメータを選択する。
 特徴パラメータ記憶部204には、音声波形の各特徴パラメータとともに、状態に対応する境界を付与した情報が記憶されていることとする。例えば、HMMの各状態と、音声波形との対応付けは予めビタビアライメントにより求められ、得られた最尤状態遷移系列の時間境界が状態の境界として特徴パラメータ記憶部204に記憶される。選択部401は、特徴パラメータの選択に目標尤度及び接続尤度を用いる場合、HMM系列の状態を単位として、動的計画法により最適特徴パラメータ系列を選択する。
 図14は、選択部401が実行する処理を示すフローチャートである。まず、選択部401は、合成する文章の最初のHMMの初期状態における候補特徴パラメータを選択し(S401)、初期の各候補に対する目標尤度を計算する(S402)。
 目標尤度は、該当する区間における目標と適合する度合いを数値化したものであり、HMM系列の分布の尤度から求めることができる。対数尤度を用いる場合、各状態区間内の特徴パラメータの対数尤度の和として計算される。特徴パラメータの候補は、選択元の特徴パラメータの集合であり、該当するHMMの状態における決定木のリーフノードの分布を学習するときに用いた学習データを候補とすることができる。同一の状態に対応する同一音素の特徴パラメータを候補とする方法や、音韻環境で絞った同一音素を候補とする方法、韻律属性の一致度合いによって候補を決定する方法など、他の方法により決めることも可能である。
 そして、選択部401は、状態番号を一つ進め、各状態に対する候補を選択し(S403)、目標尤度及び接続尤度などの尤度計算を行う(S404)。
 なお、HMMの最終状態の場合は、後続するHMMの初期状態に進めていく。S403の候補選択の処理は、S401の処理と同様に行うことができる。接続尤度は、該当区間が先行区間の後続として適合する度合いを数値化したものである。接続尤度は、先行状態区間の各候補素片に対し、該当状態における各候補素片が選ばれたときの尤度を用い、平均ベクトルとして一つ前の状態の各候補素片の後続区間の平均ベクトルを用い、分散は各状態の出力分布の分散を用いたガウス分布の尤度により計算することができる。
 そして、選択部401は、バックトラックするため、各候補素片に対して、一つ前の状態の最適候補の情報を保存しておく。選択部401は、現在の状態が入力文章に対応するHMM系列の最終HMMの最終状態であるか否かを判定する(S405)。選択部401は、最終状態である(S405:Yes)と判定すれば、S406の処理に進む。また、選択部401は、最終状態でない(S405:No)と判定すれば、状態及びHMMを一つ進めてS403の処理に戻る。
 最後に、選択部401は、尤度最大となる特徴パラメータを選択し、その先行状態の最適候補を順にバックトラックすることにより、最適特徴パラメータ系列を求める(S406)。選択部401は、このように選択された最適特徴パラメータ系列を決定部103に対して出力する。
 図15は、選択部401の具体的な構成例を示す図である。選択部401は、例えば候補選択部411、尤度計算部412及びバックトラック部413を備える。候補選択部411は、特徴パラメータ記憶部204から候補を選択する。尤度計算部412は、目標尤度・接続尤度を計算する。選択部401は、HMM系列の状態を単位として、候補選択部411及び尤度計算部412が処理を繰り返し、最後にバックトラック部413が最適特徴パラメータ系列を求める。
 なお、ここでは尤度最大化系列を例としたが、HMM系列に基づいて特徴パラメータ系列を選択する任意の方法が用いられてもよい。尤度の逆数や、平均ベクトルとの二乗誤差やマハラノビス距離などによって計算するコスト関数を定義し、コスト最小化により特徴パラメータの選択を行ってもよい。また、動的計画法による特徴パラメータ選択ではなく、音響的尤度と韻律的尤度のみからコストを計算し、特徴パラメータの選択も行ってもよい。
 さらに、HMM系列から特徴パラメータを生成し、生成されたパラメータからの距離からコスト計算を行って特徴パラメータの選択を行ってもよい。パラメータ選択を行う場合、最適パラメータ系列のみでなく、各区間に複数のパラメータ系列を選択し、平均化したパラメータを利用してもよい。選択部401は、これらの処理により、入力されたHMM系列の各HMMの各状態に対して、最適特徴パラメータを選択することができ、これらの情報を決定部103に対して出力する。
 決定部103は、選択された継続長分布系列及びピッチ特徴パラメータの系列からピッチ波形数を決定する。生成部104は、選択された特徴パラメータを用いて分布を更新する。HMM系列の分散を用い、選択された特徴パラメータで分布の平均ベクトルを置き換えることにより分布を更新し、更新された分布列からパラメータを生成することにより、選択された特徴パラメータを反映したパラメータ生成を行うことができる。波形生成部105は、生成されたパラメータから合成音声を生成する。このように、音声合成装置100aは、選択部401を備えることにより、各区間に選択された音響特徴量より波形生成が可能となり、自然な合成音声が得られる。
 なお、音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aは、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、本実施形態における音声合成装置及び音声合成モデル学習装置は、上述のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。
 音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aで実行されるプログラム(音声合成プログラム又は音声合成モデル学習プログラム)は、ROM等に予め組み込まれて提供される。
 また、音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。さらに、これらのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
 このように、実施形態にかかる音声合成装置によれば、統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定し、決定したピッチ波形数に基づいて、音響特徴パラメータの分布列を生成し、生成した分布列に基づいて音響特徴パラメータを生成するので、音声劣化と不自然な音素継続長とを防止することができる。また、実施形態にかかる音声合成装置は、ピッチ同期分析による精密な音響特徴パラメータを用いつつ、継続長分布としてピッチマークから算出される時間長をモデル化し、合成時には該当する状態の継続長分布パラメータ及びピッチ特徴パラメータの出力分布に基づいて生成されるピッチ情報に基づいてピッチ波形数を算出して音声合成することができる。よって、実施形態にかかる音声合成装置は、精密な音声分析を利用しつつ学習時と合成時のピッチの不一致の影響に起因する不自然な継続長となる問題を解消し、高品質な音声合成が可能となる。
 また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (13)

  1.  複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する記憶部と、
     入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成する作成部と、
     前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する決定部と、
     前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する生成部と、
     前記生成部が生成した音響特徴パラメータから音声波形を生成する波形生成部と、
     を有する音声合成装置。
  2.  前記決定部は、
     前記時刻パラメータによる継続長分布に基づく継続時間長に対して、ピッチ特徴パラメータの出力分布に基づくピッチ情報に対応する基本周波数の乗算を行うこと、又はピッチ周期の除算を行うことによりピッチ波形数を決定する
     請求項1に記載の音声合成装置。
  3.  前記記憶部は、
     静的特徴パラメータ及び動的特徴パラメータから構成される特徴パラメータの分布によるHMM出力分布を含むHMM情報を記憶し、
     前記生成部は、
     HMM出力分布の静的特徴パラメータ及び動的特徴パラメータの平均及び分散を用いて平滑化特徴パラメータを生成する
     請求項1に記載の音声合成装置。
  4.  前記統計モデルに基づいて各状態に対応する継続長パラメータ及びピッチ情報を含む音響特徴パラメータを、音響特徴パラメータ候補の中から選択する選択部
     をさらに有し、
     前記決定部は、
     選択された各状態の継続長パラメータ及びピッチ情報からピッチ波形数を決定する
     請求項1に記載の音声合成装置。
  5.  複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶部が記憶する工程と、
     入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成する工程と、
     前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する工程と、
     前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する工程と、
     生成した音響特徴パラメータから音声波形を生成する工程と、
     を含む音声合成方法。
  6.  複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶部が記憶するステップと、
     入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成するステップと、
     前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定するステップと、
     前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成するステップと、
     生成した音響特徴パラメータから音声波形を生成するステップと、
     をコンピュータに実行させるための音声合成プログラム。
  7.  音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を記憶する音声コーパス記憶部と、
     前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する分析部と、
     前記分析部が分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する統計モデル学習部と、
     を有する音声合成モデル学習装置。
  8.  前記統計モデル学習部は、
     前記音声データのコンテキスト情報、及び各ピッチマーク時刻における音響特徴パラメータとともにピッチマーク時刻情報を用い、前記ピッチマーク時刻情報を参照して継続長分布を学習する
     請求項7に記載の音声合成モデル学習装置。
  9.  前記統計モデル学習部は、
     前記統計モデルとして、自己遷移確率を状態継続長分布として表す隠れセミマルコフモデルを用い、各状態に滞在する開始点のピッチマーク時刻及び終了点のピッチマーク時刻から各状態に滞在する時刻パラメータによる時間長を求め、前記滞在時間長の分布を状態継続長分布とする
     請求項7に記載の音声合成モデル学習装置。
  10.  前記統計モデル学習部は、
     状態継続長分布を用いて各状態の出力分布を推定することにより、前記統計モデルの各状態の出力分布を含むモデルパラメータの推定を行う
     請求項7に記載の音声合成モデル学習装置。
  11.  前記音響特徴パラメータは、音声データの各ピッチマーク時刻におけるピッチ特徴パラメータ、スペクトル特徴パラメータ、及び音源特徴パラメータから構成され、音源特徴パラメータとして位相特徴パラメータを含む
     請求項7に記載の音声合成モデル学習装置。
  12.  音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を音声コーパス記憶部が記憶する工程と、
     前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する工程と、
     分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する工程と、
     を含む音声合成モデル学習方法。
  13.  音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を音声コーパス記憶部が記憶するステップと、
     前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析するステップと、
     分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習するステップと、
     をコンピュータに実行させるための音声合成モデル学習プログラム。
PCT/JP2015/076269 2015-09-16 2015-09-16 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム WO2017046887A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
PCT/JP2015/076269 WO2017046887A1 (ja) 2015-09-16 2015-09-16 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
CN202111029334.8A CN113724685B (zh) 2015-09-16 2015-09-16 语音合成模型学习装置、语音合成模型学习方法及存储介质
CN201580082427.3A CN107924678B (zh) 2015-09-16 2015-09-16 语音合成装置、语音合成方法及存储介质
JP2017540389A JP6499305B2 (ja) 2015-09-16 2015-09-16 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US15/896,774 US10878801B2 (en) 2015-09-16 2018-02-14 Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations
US16/941,826 US11423874B2 (en) 2015-09-16 2020-07-29 Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/076269 WO2017046887A1 (ja) 2015-09-16 2015-09-16 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/896,774 Continuation US10878801B2 (en) 2015-09-16 2018-02-14 Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations

Publications (1)

Publication Number Publication Date
WO2017046887A1 true WO2017046887A1 (ja) 2017-03-23

Family

ID=58288293

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/076269 WO2017046887A1 (ja) 2015-09-16 2015-09-16 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム

Country Status (4)

Country Link
US (2) US10878801B2 (ja)
JP (1) JP6499305B2 (ja)
CN (2) CN113724685B (ja)
WO (1) WO2017046887A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020166359A1 (ja) * 2019-02-12 2020-08-20 日本電信電話株式会社 推定装置、推定方法、及びプログラム
WO2020241641A1 (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP2021012315A (ja) * 2019-07-08 2021-02-04 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム
CN114360490A (zh) * 2022-01-26 2022-04-15 腾讯科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6499305B2 (ja) * 2015-09-16 2019-04-10 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
US10755694B2 (en) * 2018-03-15 2020-08-25 Motorola Mobility Llc Electronic device with voice-synthesis and acoustic watermark capabilities
CN110930975B (zh) * 2018-08-31 2023-08-04 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
JP6737320B2 (ja) * 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
CN109616131B (zh) * 2018-11-12 2023-07-07 南京南大电子智慧型服务机器人研究院有限公司 一种数字实时语音变音方法
WO2020171034A1 (ja) * 2019-02-20 2020-08-27 ヤマハ株式会社 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN111916093A (zh) * 2020-07-31 2020-11-10 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置
CN111968616A (zh) * 2020-08-19 2020-11-20 浙江同花顺智能科技有限公司 一种语音合成模型的训练方法、装置、电子设备和存储介质
CN112820267B (zh) * 2021-01-15 2022-10-04 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置
US11915714B2 (en) * 2021-12-21 2024-02-27 Adobe Inc. Neural pitch-shifting and time-stretching
US20240119922A1 (en) * 2022-09-27 2024-04-11 Tencent America LLC Text to speech synthesis without using parallel text-audio data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011000934A1 (en) * 2009-07-02 2011-01-06 The University Court Of The Unviersity Of Edinburgh Enabling synthesis of speech having a target characteristic
JP2011237795A (ja) * 2010-05-07 2011-11-24 Toshiba Corp 音声処理方法及び装置

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1219079A (en) * 1983-06-27 1987-03-10 Tetsu Taguchi Multi-pulse type vocoder
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
JP2000310996A (ja) * 1999-04-28 2000-11-07 Oki Electric Ind Co Ltd 音声合成装置および音韻継続時間長の制御方法
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP2002062890A (ja) * 2000-08-18 2002-02-28 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
JP2002268660A (ja) 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP3732793B2 (ja) * 2001-03-26 2006-01-11 株式会社東芝 音声合成方法、音声合成装置及び記録媒体
JP4490818B2 (ja) * 2002-09-17 2010-06-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 定常音響信号のための合成方法
JP4241736B2 (ja) 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4816144B2 (ja) 2006-03-02 2011-11-16 カシオ計算機株式会社 音声合成装置、音声合成方法、及び、プログラム
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
JP4241762B2 (ja) * 2006-05-18 2009-03-18 株式会社東芝 音声合成装置、その方法、及びプログラム
JP4966048B2 (ja) 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
JP4455610B2 (ja) * 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
CN101178896B (zh) * 2007-12-06 2012-03-28 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
JP2010020166A (ja) * 2008-07-11 2010-01-28 Ntt Docomo Inc 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US8781835B2 (en) * 2010-04-30 2014-07-15 Nokia Corporation Methods and apparatuses for facilitating speech synthesis
JP5085700B2 (ja) 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US20130117026A1 (en) * 2010-09-06 2013-05-09 Nec Corporation Speech synthesizer, speech synthesis method, and speech synthesis program
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
WO2012164835A1 (ja) * 2011-05-30 2012-12-06 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和***
JP2013164572A (ja) 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
JP5631915B2 (ja) 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
CN102779508B (zh) * 2012-03-31 2016-11-09 科大讯飞股份有限公司 语音库生成设备及其方法、语音合成***及其方法
CN102592594A (zh) * 2012-04-06 2012-07-18 苏州思必驰信息科技有限公司 基于统计参数模型的增量式语音在线合成方法
JP5840075B2 (ja) * 2012-06-01 2016-01-06 日本電信電話株式会社 音声波形データベース生成装置、方法、プログラム
JP5726822B2 (ja) * 2012-08-16 2015-06-03 株式会社東芝 音声合成装置、方法及びプログラム
WO2015092936A1 (ja) * 2013-12-20 2015-06-25 株式会社東芝 音声合成装置、音声合成方法およびプログラム
BR112016016310B1 (pt) * 2014-01-14 2022-06-07 Interactive Intelligence Group, Inc Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros
WO2016042659A1 (ja) 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6499305B2 (ja) * 2015-09-16 2019-04-10 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US9972304B2 (en) * 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10475438B1 (en) * 2017-03-02 2019-11-12 Amazon Technologies, Inc. Contextual text-to-speech processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011000934A1 (en) * 2009-07-02 2011-01-06 The University Court Of The Unviersity Of Edinburgh Enabling synthesis of speech having a target characteristic
JP2011237795A (ja) * 2010-05-07 2011-11-24 Toshiba Corp 音声処理方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
H. ZEN ET AL.: "A Hidden Semi-Markov Model-Based Speech Synthesis System", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. E90-D, no. 5, 1 May 2007 (2007-05-01), pages 825 - 834, XP055373286 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020166359A1 (ja) * 2019-02-12 2020-08-20 日本電信電話株式会社 推定装置、推定方法、及びプログラム
JP2020129099A (ja) * 2019-02-12 2020-08-27 日本電信電話株式会社 推定装置、推定方法、及びプログラム
JP7197786B2 (ja) 2019-02-12 2022-12-28 日本電信電話株式会社 推定装置、推定方法、及びプログラム
WO2020241641A1 (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP2021012315A (ja) * 2019-07-08 2021-02-04 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム
JP7093081B2 (ja) 2019-07-08 2022-06-29 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム
CN114360490A (zh) * 2022-01-26 2022-04-15 腾讯科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
US11423874B2 (en) 2022-08-23
US20180174570A1 (en) 2018-06-21
CN113724685A (zh) 2021-11-30
US10878801B2 (en) 2020-12-29
JPWO2017046887A1 (ja) 2018-04-12
CN107924678B (zh) 2021-12-17
US20200357381A1 (en) 2020-11-12
JP6499305B2 (ja) 2019-04-10
CN113724685B (zh) 2024-04-02
CN107924678A (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
JP6499305B2 (ja) 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
US11170756B2 (en) Speech processing device, speech processing method, and computer program product
US9135910B2 (en) Speech synthesis device, speech synthesis method, and computer program product
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5300975B2 (ja) 音声合成装置、方法およびプログラム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
Sasou Glottal inverse filtering by combining a constrained LP and an HMM-based generative model of glottal flow derivative
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
Coto-Jiménez Measuring the Quality of Low-Resourced Statistical Parametric Speech Synthesis Trained with Noise-Degraded Data Supported by the University of Costa Rica
JP2015194781A (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15904076

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017540389

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15904076

Country of ref document: EP

Kind code of ref document: A1