WO2017046904A1 - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法及び音声処理プログラム Download PDF

Info

Publication number
WO2017046904A1
WO2017046904A1 PCT/JP2015/076361 JP2015076361W WO2017046904A1 WO 2017046904 A1 WO2017046904 A1 WO 2017046904A1 JP 2015076361 W JP2015076361 W JP 2015076361W WO 2017046904 A1 WO2017046904 A1 WO 2017046904A1
Authority
WO
WIPO (PCT)
Prior art keywords
group delay
phase
band
parameter
spectrum
Prior art date
Application number
PCT/JP2015/076361
Other languages
English (en)
French (fr)
Inventor
正統 田村
眞弘 森田
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to CN202210141126.5A priority Critical patent/CN114464208A/zh
Priority to CN202210403587.5A priority patent/CN114694632A/zh
Priority to PCT/JP2015/076361 priority patent/WO2017046904A1/ja
Priority to CN201580082452.1A priority patent/CN107924686B/zh
Priority to JP2017540402A priority patent/JP6496030B2/ja
Publication of WO2017046904A1 publication Critical patent/WO2017046904A1/ja
Priority to US15/898,337 priority patent/US10650800B2/en
Priority to US16/841,833 priority patent/US11170756B2/en
Priority to US16/841,839 priority patent/US11348569B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • Embodiments described herein relate generally to a voice processing device, a voice processing method, and a voice processing program.
  • Speech analyzers that analyze speech waveforms and extract feature parameters, and speech synthesizers that synthesize speech from feature parameters obtained by analysis include text-to-speech synthesis technology, speech coding technology, speech recognition technology, etc. Widely used in speech processing technology.
  • the problem to be solved by the present invention is to provide a voice processing device, a voice processing method, and a voice processing program capable of improving the reproducibility of a voice waveform.
  • the speech processing apparatus includes a spectrum parameter calculation unit, a phase spectrum calculation unit, a group delay spectrum calculation unit, a band group delay parameter calculation unit, and a band group delay correction parameter calculation unit.
  • the spectrum parameter calculation unit calculates a spectrum parameter for each voice frame of the input voice.
  • the phase spectrum calculation unit calculates a first phase spectrum for each voice frame.
  • the group delay spectrum calculation unit calculates a group delay spectrum from the first phase spectrum based on the frequency component of the first phase spectrum.
  • the band group delay parameter calculation unit calculates a band group delay parameter in a predetermined frequency band from the group delay spectrum.
  • the band group delay correction parameter calculation unit calculates a band group delay correction parameter for correcting a difference between the second phase spectrum reconstructed from the band group delay parameter and the first phase spectrum.
  • the block diagram which shows the structural example of the audio
  • the flowchart which shows the process which a speech analyzer performs.
  • the flowchart which shows the detail of a band group delay parameter calculation step.
  • FIG. 1 is a block diagram showing a first embodiment of a speech synthesizer.
  • the figure which shows the waveform generation example corresponding to the area shown in FIG. The block diagram which shows 2nd Embodiment of a speech synthesizer.
  • the flowchart which shows the process which a sound source signal generation part performs.
  • the block diagram which shows the structure of a sound source signal generation part.
  • the flowchart which shows the process which a sound source signal generation part performs The figure which illustrates the audio
  • FIG. 1 is a block diagram illustrating a configuration example of a speech analysis apparatus 100 according to the embodiment.
  • the speech analysis apparatus 100 includes an extraction unit (speech frame extraction unit) 101, a spectrum parameter calculation unit 102, a phase spectrum calculation unit 103, a group delay spectrum calculation unit 104, a band group delay parameter calculation unit 105, A band group delay correction parameter calculation unit 106 is provided.
  • the extraction unit 101 accepts the input voice and the pitch mark, cuts out the input voice frame by frame and outputs it (voice frame extraction). An example of processing performed by the extraction unit 101 will be described later with reference to FIG.
  • the spectrum parameter calculation unit (first calculation unit) 102 calculates a spectrum parameter from the voice frame output from the extraction unit 101. An example of processing performed by the spectrum parameter calculation unit 102 will be described later with reference to FIG.
  • the phase spectrum calculation unit (second calculation unit) 103 calculates the phase spectrum of the voice frame output from the extraction unit 101. An example of processing performed by the phase spectrum calculation unit 103 will be described later with reference to FIG.
  • the group delay spectrum calculation unit (third calculation unit) 104 calculates a group delay spectrum described later from the phase spectrum calculated by the phase spectrum calculation unit 103. An example of processing performed by the group delay spectrum calculation unit 104 will be described later with reference to FIG.
  • the band group delay parameter calculation unit (fourth calculation unit) 105 calculates a band group delay parameter from the group delay spectrum calculated by the group delay spectrum calculation unit 104. An example of processing performed by the band group delay parameter calculation unit 105 will be described later with reference to FIG.
  • the band group delay correction parameter calculation unit (fifth calculation unit) 106 calculates the phase spectrum reconstructed from the band group delay parameter calculated by the band group delay parameter calculation unit 105 and the phase spectrum calculated by the phase spectrum calculation unit 103. A correction amount (band group delay correction parameter: correction parameter) for correcting the difference is calculated. An example of processing performed by the band group delay correction parameter calculation unit 106 will be described later with reference to FIG.
  • the extraction unit 101 receives pitch mark information representing the center time of each voice frame based on the periodicity along with the input voice.
  • FIG. 2 is a diagram exemplifying voice waveforms and pitch marks received by the extraction unit 101.
  • FIG. 2 shows the waveform of the voice “da”, and the pitch mark time extracted according to the periodicity of the voiced sound along with the voice waveform.
  • the extraction unit 101 extracts a voice frame by multiplying a window function having a length twice as large as the pitch with the pitch mark as the center.
  • the pitch mark is obtained by, for example, a method of extracting a pitch by a pitch extracting device and extracting a peak of a pitch period.
  • a silent sequence having no periodicity can be used as a pitch mark by creating a time sequence serving as an analysis center by a process of interpolating a fixed frame rate or a pitch mark in a periodic interval.
  • a Hanning window can be used to extract a voice frame.
  • window functions having different characteristics such as a Hamming window and a Blackman window may be used.
  • the extraction unit 101 uses a window function to cut out a pitch waveform, which is a unit waveform in a periodic section, as an audio frame.
  • the extraction unit 101 also cuts a voice frame by multiplying a window function according to a time determined by interpolating a fixed frame rate or a pitch mark even in an aperiodic section such as a silent / unvoiced sound section.
  • the spectrum parameter calculation unit 102 obtains a spectrum parameter for the voice frame extracted by the extraction unit 101.
  • the spectral parameter calculation unit 102 obtains an arbitrary spectral parameter representing a spectral envelope such as a mel cepstrum, a linear prediction coefficient, a mel LSP, a sine wave model, or the like.
  • parameter extraction may be performed using these parameters or a spectral envelope extraction method by STRIGHT analysis.
  • spectral parameters by Mel LSP are used.
  • FIG. 3 is a diagram illustrating a processing example of the spectrum parameter calculation unit 102.
  • FIG. 3A shows a speech frame
  • FIG. 3B shows a spectrum obtained by Fourier transform.
  • the spectrum parameter calculation unit 102 applies mel LSP analysis to this spectrum to obtain mel LSP coefficients.
  • the zeroth order of the mel LSP coefficient represents a gain term, but the first order or higher is a line spectrum frequency on the frequency axis, and a grid line is shown for each LSP frequency.
  • Mel LSP analysis is applied to 44.1 kHz speech.
  • the spectrum envelope obtained as a result is a parameter representing the outline of the spectrum (FIG. 3C).
  • FIG. 4 is a diagram illustrating a processing example of the phase spectrum calculation unit 103 and a processing example of the group delay spectrum calculation unit 104.
  • FIG. 4A shows a phase spectrum obtained by the phase spectrum calculation unit 103 by Fourier transform. The phase spectrum is unwrapped.
  • the phase spectrum calculation unit 103 obtains a phase spectrum by applying a high-pass filter for both amplitude and phase so that the phase of the DC component is zero.
  • the group delay spectrum calculation unit 104 obtains the group delay spectrum shown in FIG. 4B from the phase spectrum shown in FIG.
  • Equation 1 ⁇ ( ⁇ ) represents a group delay spectrum, ⁇ ( ⁇ ) represents a phase spectrum, and “′” represents a differential operation.
  • the group delay is a frequency derivative of the phase, and is a value representing the average time of each band (the centroid time of the waveform: delay time) in the time domain. Since the group delay spectrum corresponds to the differential value of the unwrapped phase, the range is a value between ⁇ and ⁇ .
  • FIG. 4B it can be seen from FIG. 4B that a group delay close to ⁇ occurs in the low band. That is, there is a difference close to ⁇ in the phase spectrum at the frequency. Further, when looking at the amplitude spectrum of FIG. 3B, a valley is seen at the frequency position.
  • the low frequency and high frequency divided in this frequency have such a shape because the sign of the signal is reversed, and the frequency at which the step in the phase represents the boundary frequency. Reproducing discontinuous changes in the group delay, including the group delay near ⁇ on the frequency axis, is important for reproducing the original speech waveform and obtaining high-quality analysis-synthesized speech. is there. Further, the group delay parameter used for speech synthesis is required to be a parameter that can reproduce such a steep change in group delay.
  • the band group delay parameter calculation unit 105 calculates a band group delay parameter from the group delay parameter calculated by the group delay spectrum calculation unit 104.
  • the band group delay parameter is a group delay parameter for each predetermined frequency band. Thereby, the order of the group delay spectrum is reduced, and the parameter can be used as a parameter of the statistical model.
  • the band group delay parameter is obtained by the following equation 2.
  • the band group delay according to Equation 2 represents the average time in the time domain and represents the shift amount from the zero phase waveform.
  • the following formula 3 is used.
  • band group delay parameter weighting based on the power spectrum is used, but an average of group delays may be simply used. Also, different calculation methods such as weighted average based on the amplitude spectrum may be used, and any parameters that represent the group delay of each band may be used.
  • the band group delay parameter is a parameter representing the group delay of a predetermined frequency band. Therefore, reconstruction of the group delay from the band group delay parameter is performed by using the band group delay parameter corresponding to each frequency as shown in the following equation 4.
  • phase reconstruction from the generated group delay is obtained by the following equation 5.
  • the phase of the DC component may be actually stored and used.
  • Omega b is used in these is the frequency scale is the boundary of a band when determining the band group delay.
  • An arbitrary scale can be used as the frequency scale, but the low range can be set finely and the high range can be set at rough intervals according to the auditory characteristics.
  • FIG. 5 is a diagram showing an example of creating a frequency scale.
  • the group delay parameter expresses the low range where the power becomes strong and the high range is set at a rough interval. This is because the waveform power is low at high frequencies, and the random phase component due to the non-periodic component is strong, so that stable phase parameters cannot be obtained. Further, it is known that the high-frequency phase has a small effect on hearing.
  • the control of the random phase component and the pulse excitation component is expressed by the intensity of the noise component in each band, which is the intensity of the periodic component and the non-periodic component.
  • a waveform is generated including a band noise intensity parameter described later. Therefore, here, the high-frequency phase with a strong noise component is expressed in a rough manner, and the order is reduced.
  • FIG. 6 is a diagram exemplifying the result of analysis using the band group delay parameter using the frequency scale shown in FIG.
  • FIG. 6A shows the band group delay parameter obtained by Equation 3 above.
  • the band group delay parameter is a weighted average of the group delay of each band, but it can be seen that fluctuations seen in the group delay spectrum cannot be reproduced with an average group delay.
  • FIG. 6B is a diagram illustrating a phase generated from the band group delay parameter.
  • the phase gradient can be generally reproduced, a phase spectrum step such as a phase change close to ⁇ in the low band cannot be captured, and the phase spectrum cannot be reproduced. The location is included.
  • FIG. 6C shows an example in which a waveform is generated by inverse Fourier transforming the generated phase and the amplitude spectrum generated from the mel LSP.
  • the generated waveform has a shape greatly different from the waveform of the analysis source in the vicinity of the center seen in the waveform of FIG.
  • the step of the phase included in the voice cannot be captured, so that a difference is generated between the regenerated waveform and the analysis source waveform.
  • the speech analysis apparatus 100 corrects a band group delay correction parameter for correcting a phase reconstructed from the band group delay parameter at a predetermined frequency to a phase at the frequency of the phase spectrum together with the band group delay parameter. Is used.
  • the band group delay correction parameter calculation unit 106 calculates a band group delay correction parameter from the phase spectrum and the band group delay parameter.
  • the band group delay correction parameter is a parameter for correcting the phase reconstructed by the band group delay parameter to the phase value at the boundary frequency.
  • the first term of the right side of the above equation 6 is a phase in Omega b obtained by analyzing the speech.
  • the phase from the group delay configured in this way is reconstructed by the above equation (5).
  • FIG. 7 is a diagram illustrating the result of analysis using the band group delay correction parameter.
  • FIG. 7A shows a group delay spectrum reconstructed from the band group delay parameter and the band group delay correction parameter according to Equation 7 above.
  • FIG. 7B shows an example in which a phase is generated from this group delay spectrum. As shown in FIG. 7B, the phase close to the actual phase can be reconstructed by using the band group delay correction parameter. In particular, in a low-frequency portion where the frequency scale interval is narrow, reproduction is possible including a portion having a stepped phase where a difference occurs in FIG. 6B.
  • FIG. 7C shows an example in which a waveform is synthesized from the phase parameters reconstructed in this way.
  • the waveform shape is significantly different from the waveform of the analysis source, but in the example shown in FIG. 7C, a speech waveform close to the original waveform is generated.
  • the correction parameter bgrdc of the above equation 6 uses phase difference information here, but may be other parameters such as a phase value at the frequency. For example, any parameter that reproduces the phase at the frequency by using it in combination with the band group delay parameter may be used.
  • FIG. 8 is a flowchart showing processing performed by the speech analysis apparatus 100.
  • the voice analysis device 100 performs a process of calculating a parameter corresponding to each pitch mark by a pitch mark loop.
  • the extraction unit 101 extracts speech frames in the speech frame extraction step (S801).
  • the spectrum parameter calculation unit 102 calculates a spectrum parameter in the spectrum parameter calculation step (S802)
  • the phase spectrum calculation unit 103 calculates a phase spectrum in the phase spectrum calculation step (S803)
  • the group delay spectrum calculation unit 104 In the group delay spectrum calculation step, a group delay spectrum is calculated (S804).
  • the band group delay parameter calculation unit 105 calculates a band group delay parameter in the band group delay parameter calculation step (S805).
  • FIG. 9 is a flowchart showing details of the band group delay parameter calculation step (S805) shown in FIG.
  • the band group delay parameter calculation unit 105 sets the boundary frequency of the band by a loop of each band of a predetermined frequency scale (S901), and calculates the power spectrum weight and the like shown in the above equation 3
  • a band group delay parameter (average group delay) is calculated by averaging the used group delays (S902).
  • FIG. 10 is a flowchart showing details of the band group delay correction parameter calculation step (S806) shown in FIG.
  • the band group delay correction parameter calculation unit 106 first sets the boundary frequency of the band by the loop of each band (S1001).
  • the band group delay correction parameter calculation unit 106 generates the phase at the boundary frequency using the band group delay parameter and the band group delay correction parameter of the band equal to or lower than the current band, using Equation 7 and Equation 5 above. (S1002).
  • the band group delay correction parameter calculation unit 106 calculates the phase spectrum difference parameter by the above equation 8, and sets the calculation result as the band group delay correction parameter (S1003).
  • the voice analysis apparatus 100 calculates and outputs the spectrum parameter, the band group delay parameter, and the band group delay correction parameter corresponding to the input voice by performing the processing shown in FIG. 8 (FIGS. 9 and 10). Therefore, it is possible to improve the reproducibility of the speech waveform when speech synthesis is performed.
  • FIG. 11 is a block diagram showing a first embodiment (speech synthesizer 1100) of a speech synthesizer.
  • the speech synthesizer 1100 includes an amplitude information generation unit 1101, a phase information generation unit 1102, and a speech waveform generation unit 1103, and includes a spectrum parameter series, a band group delay parameter series, and a band group delay correction parameter series. And receives time information of the parameter series to generate a speech waveform (synthesized speech).
  • Each parameter input to the speech synthesizer 1100 is calculated by the speech analyzer 100.
  • the amplitude information generation unit 1101 generates amplitude information from the spectrum parameters at each time.
  • the phase information generation unit 1102 generates phase information from the band group delay parameter and the band group delay correction parameter at each time.
  • the voice waveform generation unit 1103 generates a voice waveform according to the time information of each parameter from the amplitude information generated by the amplitude information generation unit 1101 and the phase information generated by the phase information generation unit 1102.
  • FIG. 12 is a diagram illustrating a configuration example of a speech synthesizer 1200 that performs inverse Fourier transform and waveform superposition.
  • the speech synthesizer 1200 is one specific configuration example of the speech synthesizer 1100, and includes an amplitude spectrum calculator 1201, a phase spectrum calculator 1202, an inverse Fourier transform unit 1203, and a waveform superimposing unit 1204.
  • a waveform at each time is generated by conversion, and synthesized speech is output by superimposing and synthesizing the generated waveform.
  • the amplitude spectrum calculation unit 1201 calculates an amplitude spectrum from the spectrum parameter. For example, when the mel LSP is used as a parameter, the amplitude spectrum calculation unit 1201 checks the stability of the mel LSP, converts it to a mel LPC coefficient, and calculates an amplitude spectrum from the mel LPC coefficient.
  • the phase spectrum calculation unit 1202 calculates the phase spectrum from the band group delay parameter and the band group delay correction parameter according to the above equations 5 and 7.
  • the inverse Fourier transform unit 1203 generates a pitch waveform by performing inverse Fourier transform on the calculated amplitude spectrum and phase spectrum.
  • the waveform generated by the inverse Fourier transform unit 1203 is illustrated in FIG.
  • the waveform superimposing unit 1204 superimposes and synthesizes the generated pitch waveform based on the time information of the parameter series to obtain synthesized speech.
  • FIG. 13 is a diagram showing an example of waveform generation corresponding to the section shown in FIG.
  • FIG. 13A shows the sound waveform of the original sound shown in FIG.
  • FIG. 13B shows a synthesized speech waveform based on a band group delay parameter and a band group delay correction parameter output from the speech synthesizer 1100 (speech synthesizer 1200).
  • the speech synthesizer 1100 can generate a waveform having a shape close to the waveform of the original sound.
  • FIG. 13 (c) shows a synthesized speech waveform when only the band group delay parameter is used as a comparative example.
  • the synthesized speech waveform when only the band group delay parameter is used has a shape different from that of the original sound.
  • the speech synthesizer 1100 can reproduce the phase characteristics of the original sound by using the band group delay correction parameter in addition to the band group delay parameter, and the analysis synthesized waveform can be analyzed. It is possible to generate a high-quality waveform (improving the reproducibility of the speech waveform) by approximating the shape of the speech waveform.
  • FIG. 14 is a block diagram showing a second embodiment (speech synthesizer 1400) of a speech synthesizer.
  • the speech synthesizer 1400 includes a sound source signal generation unit 1401 and a vocal tract filter unit 1402.
  • the sound source signal generation unit 1401 generates a sound source signal using the band group delay parameter series, the band group delay correction parameter series, and the time information of the parameter series.
  • the sound source signal is not phase-controlled and no noise intensity is used, it is generated using a noise signal for the unvoiced sound section and a pulse signal for the voiced sound section, has a flat spectrum, and a vocal tract filter is applied. This is a signal with which a speech waveform is synthesized.
  • the sound source signal generation unit 1401 controls the phase of the pulse component by the band group delay parameter and the band group delay correction parameter. That is, the phase control function of the phase information generation unit 1102 illustrated in FIG. 11 is performed by the sound source signal generation unit 1401. That is, the speech synthesizer 1400 generates a waveform at high speed using the band group delay parameter and the band group delay correction parameter for vocoder-type waveform generation.
  • One method of controlling the phase of a sound source signal is to use inverse Fourier transform.
  • the sound source signal generation unit 1401 performs the process shown in FIG. That is, the sound source signal generation unit 1401 calculates a phase spectrum from the band group delay parameter and the band group delay correction parameter using the above formulas 5 and 7 at each time of the characteristic parameter (S1501), and the inverse Fourier with the amplitude set to 1 Conversion is performed (S1502), and the generated waveform is superimposed (S1503).
  • the vocal tract filter unit 1402 applies a filter determined by a spectral parameter to the generated sound source signal, thereby generating a waveform and outputting a speech waveform (synthesized speech).
  • the vocal tract filter unit 1402 has a function included in the amplitude information generation unit 1101 shown in FIG. 11 in order to control amplitude information.
  • the speech synthesizer 1400 can generate a waveform from the sound source signal.
  • the speech synthesizer 1400 includes a process of inverse Fourier transform, and includes a filter operation. The amount of processing increases compared to (FIG. 12), and the waveform cannot be generated at high speed. Therefore, the sound source signal generation unit 1401 is configured as shown in FIG. 16 so as to generate a sound source signal whose phase is controlled only by processing in the time domain.
  • FIG. 16 is a block diagram illustrating a configuration of a sound source signal generation unit 1401 that generates a sound source signal whose phase is controlled only by processing in the time domain.
  • the sound source signal generation unit 1401 shown in FIG. 16 prepares in advance a phase shift band pulse signal obtained by band-dividing a phase shifted pulse signal, and generates a sound source waveform by delaying and superimposing the phase shift band pulse signal. .
  • the sound source signal generation unit 1401 first causes the storage unit 1605 to shift the phase of the pulse signal and store the band-divided signals in each band.
  • a phase-shifted band pulse signal is a signal with an amplitude spectrum of 1 in the corresponding band and a phase spectrum as a constant value. The phase of the pulse signal is shifted to become a band-divided signal in each band. Is done.
  • the boundary ⁇ b of the band is determined by the frequency scale, and the phase ⁇ is quantized to the P stage by quantizing the range of 0 ⁇ ⁇ ⁇ 2 ⁇ .
  • P 128, a band pulse signal of 128 ⁇ number of bands is generated in increments of 2 ⁇ / 128.
  • the phase-shifted band pulse signal is obtained by dividing the phase-shifted pulse signal into bands, and is selected according to the main value of the band and phase at the time of synthesis.
  • the phase shift band pulse signal created in this way is expressed as bandpulse b ph (b) (t) where the phase shift index of band b is ph (b).
  • FIG. 17 is a diagram illustrating a phase shift band pulse signal.
  • the left column is a pulse signal that is phase-shifted over the entire band.
  • the second to sixth columns show the band pulse signals from the low band to the fifth band of the scale shown in FIG.
  • the storage unit 1605 stores the phase shift band pulse signal generated by the band dividing unit 1606, the phase adding unit 1607, and the inverse Fourier transform unit 1608.
  • Delay time calculation section 1601 calculates the delay time of each band of the phase shift band pulse signal from the band group delay parameter.
  • the band group delay parameter obtained by the above equation 3 represents the average delay time of the band in the time domain, becomes a delay time delay (b) converted into an integer by the following equation 10, and the group delay corresponding to the integer delay time is It is obtained as ⁇ int (b).
  • Phase calculation section 1602 calculates the phase at the boundary frequency from the band group delay parameter and the band group delay correction parameter that are lower than the band to be obtained.
  • the phase of the boundary frequency reconstructed from the parameters is ⁇ ( ⁇ b ) obtained by the above equations 7 and 5.
  • the selection unit 1603 calculates the phase of the pulse signal in each band using the boundary frequency phase and the integer group delay bgrd int (b). This phase is obtained by the following equation 11 as a y-intercept of a straight line passing through ⁇ ( ⁇ b ) and having a slope bgrd int (b).
  • the selection unit 1603 obtains the main phase value obtained by the above equation 11 by adding or subtracting 2 ⁇ so as to be in the range of (0 ⁇ phase (b) ⁇ 2 ⁇ ) (hereinafter, ⁇ phase (b )>),
  • the main value of the obtained phase is obtained as the phase number ph (b) quantized at the time of creating the phase shift band pulse signal (Formula 12).
  • the phase shift band pulse signal is selected based on the band group delay parameter and the band group delay correction parameter by this ph (b).
  • FIG. 18 is a conceptual diagram illustrating a selection algorithm in which the selection unit 1603 performs selection.
  • the selection unit 1603 obtains a group delay bgrd int (b) which is an integerized delay and phase gradient from the band group delay parameter of the band.
  • the selection unit 1603 obtains the y-intercept phase (b) of the straight line having the slope bgrd int (b) through the phase ⁇ ( ⁇ b ) at the boundary frequency generated from the band group delay parameter and the band group delay correction parameter, A phase shift band pulse signal is selected by ph (b) obtained by quantizing the main value ⁇ phase (b)>.
  • FIG. 19 is a diagram showing a phase shift band pulse signal.
  • the pulse signal of the entire band based on the phase phase (b) is a signal having a fixed phase phase (b) and an amplitude of 1, as shown in FIG. If a delay in the time direction is given to this, a fixed group delay is generated according to the delay amount, so that it passes through phase (b) as shown in FIG. 19B and becomes a straight line with a slope bgrd int (b).
  • the entire band Figure 19 (c) becomes one of the band-pass filter to the signal of the linear phase from the application to Omega b were cut Omega b + 1 section of the section 1 of the amplitude from Omega b Omega b + 1, the other frequency domain 0, boundary Omega b of the phase going to signal ⁇ ( ⁇ b) is.
  • the phase shift pulse signal of each band can be appropriately selected by the method shown in FIG.
  • the superimposing unit 1604 delays the phase shift band pulse signal selected in this way by the delay time delay (b) obtained by the delay time calculating unit 1601, and adds the entire band to the band group delay parameter and the band group. A sound source signal reflecting the delay correction parameter is generated.
  • FIG. 20 is a diagram illustrating a generation example of a sound source signal.
  • FIG. 20A shows a sound source signal in each band, and shows a waveform obtained by delaying the selected phase shift pulse signal in five bands in the low band.
  • FIG. 20B shows a sound source signal generated by adding all the bands. The phase spectrum of the signal generated in this way is shown in FIG. 20 (c), and the amplitude spectrum is shown in FIG. 20 (d).
  • phase of the analysis source is indicated by a thin line, and the phases generated by the above formulas 5 and 7 are superimposed by a thick line.
  • the phase generated by the sound source signal generation unit 1401 and the phase regenerated from the parameters are almost overlapped except for a difference due to a difference in high frequency unwrapping, and a phase close to the analysis source phase is generated. ing.
  • the sound source signal generation unit 1401 superimposes and combines the sound source signals generated in this way according to the pitch mark determined by the parameter sequence time information, and generates a sound source signal for the entire sentence.
  • FIG. 21 is a flowchart showing processing performed by the sound source signal generation unit 1401.
  • the sound source signal generation unit 1401 loops each time of the parameter series, calculates the delay time by the above equation 10 in the band pulse delay time calculation step (S2101), and in the boundary frequency phase calculation step, the above equations 5 and 7 To calculate the phase of the boundary frequency (S2102). Then, the sound source signal generation unit 1401 selects the phase shift band pulse signal included in the storage unit 1605 by the above equation 11 and the above equation 12 in the phase shift band pulse selection step (S2103), and in the delayed phase shift band pulse superimposition step. A sound source signal is generated by delaying and superimposing the selected phase shift band pulse signal (S2104).
  • the vocal tract filter unit 1402 applies a vocal tract filter to the sound source signal generated by the sound source signal generation unit 1401 to obtain synthesized speech.
  • the vocal tract filter converts a mel LSP parameter into a mel LPC parameter, performs gain wrapping processing, and the like, and then generates a waveform by applying the mel LPC filter.
  • processing for correcting the minimum phase may be applied when obtaining the band group delay parameter and the band group delay correction parameter from the analysis source phase.
  • the minimum phase an amplitude spectrum is generated from the mel LSP, the logarithmic amplitude spectrum and the zero phase spectrum are subjected to inverse Fourier transform, and the obtained cepstrum is double-transformed with the positive component being zero and the negative component being zero again. Generated on the axis.
  • the minimum phase is corrected by unwrapping the phase obtained in this way and subtracting it from the analyzed phase of the waveform.
  • the band group delay parameter and the band group delay correction parameter are obtained from the phase spectrum subjected to the minimum phase correction, the sound source is generated by the processing of the sound source signal generation unit 1401 described above, and the filter is applied to reproduce the phase of the original waveform. A synthesized speech is obtained.
  • FIG. 22 is a diagram illustrating a speech waveform generated including the minimum phase correction.
  • FIG. 22A shows the same analysis source speech waveform as FIG.
  • FIG. 22B shows an analysis / synthesis waveform based on vocoder-type waveform generation by the speech synthesizer 1400.
  • FIG. 22C shows a vocoder using a pulsed sound source that is widely used. In this case, the waveform shape has a minimum phase.
  • the analysis and synthesis waveform by the speech synthesizer 1400 shown in FIG. 22 (b) reproduces the waveform close to the original sound shown in FIG. 22 (a). Also, a speech waveform close to the waveform shown in FIG. 13B is generated. On the other hand, in the minimum phase shown in FIG. 22 (c), the voice waveform is concentrated in the vicinity of the pitch mark, and the shape of the voice waveform of the original sound cannot be reproduced.
  • the processing time when generating a speech waveform of about 30 seconds was measured.
  • the processing time excluding initial settings such as phase shift band pulse generation is about 9.19 seconds in the case of the configuration of FIG. 12 using the inverse Fourier transform, and about 0.47 seconds in the case of the configuration of the vocoder type in FIG. It was measured by a calculation server of a 2.9 GHz CPU). That is, it was confirmed that the processing time was shortened to about 5.1%. That is, waveform generation can be performed at high speed by vocoder waveform generation.
  • the waveform generation described above a sound source is generated and a filter is applied after superimposing and synthesizing the sound source waveform, but this is not restrictive. Different configurations may be employed, such as generating a sound source waveform for each pitch waveform, applying a filter, and superimposing and synthesizing the generated pitch waveform. Then, the sound source signal may be generated from the band group delay parameter and the band group delay correction parameter using the sound source signal generation unit 1401 based on the phase shift band pulse signal shown in FIG.
  • FIG. 23 is a diagram illustrating a configuration example of a speech synthesizer 2300 in which control by separation of noise components / periodic components using band noise intensity is added to the speech synthesizer 1200 illustrated in FIG.
  • the speech synthesizer 2300 is one of the specific configurations of the speech synthesizer 1100.
  • the amplitude spectrum calculator 1201 calculates an amplitude spectrum from the spectrum parameter sequence, and the periodic component spectrum calculator 2301 and the noise component spectrum calculator 2302 The periodic component spectrum and the noise component spectrum are separated according to the band noise intensity.
  • Band noise intensity is a parameter that represents the ratio of noise components in each band of the spectrum.
  • the PSHF Switch Scaled Harmonic Filter
  • the PSHF Switch Scaled Harmonic Filter
  • FIG. 24 is a diagram illustrating band noise intensity.
  • the speech spectrum and the aperiodic component spectrum of the processing target frame are obtained from the signal obtained by separating the speech into the periodic component and the aperiodic component by PSHF, and the ratio of the aperiodic component of each frequency is obtained.
  • ap ( ⁇ ) At the time of processing, post-processing for setting the voiced sound band to 0 with respect to the ratio by PSHF, processing for clipping the ratio between 0 and 1, and the like are added.
  • the band noise intensity bap (b) shown in FIG. 24B is obtained by calculating an average weighted with a spectrum according to the frequency scale from the noise component ratio thus obtained. Similar to the band group delay, the frequency scale uses the scale shown in FIG.
  • the noise component spectrum calculation unit 2302 multiplies the spectrum generated from the spectrum parameter by the noise intensity of each frequency based on the band noise intensity to obtain a noise component spectrum.
  • the periodic component spectrum calculation unit 2301 obtains a periodic component spectrum excluding the noise component spectrum by multiplying by 1.0-bap (b).
  • the noise component waveform generation unit 2304 generates a noise component waveform by performing an inverse Fourier transform from the random phase created from the noise signal and the amplitude spectrum of the noise component spectrum.
  • the noise component phase can be created, for example, by generating Gaussian noise having an average 0 variance of 1, cutting out by a Hanning window twice the pitch, and Fourier-transforming the cut-out windowed Gaussian noise.
  • the periodic waveform generation unit 2303 generates a periodic component waveform by performing inverse Fourier transform on the phase spectrum calculated from the band group delay parameter and the band group delay correction parameter by the phase spectrum calculation unit 1202 and the amplitude spectrum based on the periodic component spectrum.
  • the waveform superimposing unit 1204 adds the generated noise component waveform and the periodic component waveform, and superimposes them according to the time information of the parameter series to obtain synthesized speech.
  • the noise component by separating the noise component and the periodic component, it is possible to separate a random phase component that is difficult to express as a band group delay parameter, and the noise component can be generated from the random phase. Thereby, it can suppress that the noise component contained in an unvoiced sound area, the high-frequency part of voiced friction sound, and a voiced sound becomes a pulse-like sound quality.
  • the band group delay and band group delay correction parameters obtained from a plurality of random phase components are averaged, the average value approaches zero, and the pulse-like phase component is obtained. There is a tendency to approach.
  • the noise component can be generated from a random phase while the phase component can use an appropriately generated phase. The sound quality of synthesized speech is improved.
  • FIG. 25 is a diagram illustrating a configuration example of a vocoder-type speech synthesizer 2500 for realizing high-speed waveform generation using control based on band noise intensity.
  • the sound source generation of the noise component is performed using a fixed-length band noise signal that is pre-band divided and included in the band noise signal storage unit 2503.
  • the band noise signal storage unit 2503 stores the band noise signal
  • the noise source signal generation unit 2502 controls the amplitude of the band noise signal of each band according to the band noise intensity, and the amplitude-controlled band noise signal. Is added to generate a noise source signal.
  • the speech synthesizer 2500 is a modification of the speech synthesizer 1400 shown in FIG.
  • the pulse sound source signal generation unit 2501 uses the phase shift band pulse signal stored in the storage unit 1605 to generate a sound source signal whose phase is controlled by the configuration shown in FIG. However, when the delayed phase shift band pulse waveform is superimposed, the amplitude of the signal in each band is controlled using the band noise intensity and is generated so as to have an intensity of (1.0 ⁇ bap (b)).
  • the speech synthesizer 2500 adds the pulse sound source signal thus generated and the noise sound source signal to generate a sound source signal, and the vocal tract filter unit 1402 applies a vocal tract filter based on spectral parameters to obtain synthesized speech.
  • the speech synthesizer 2500 generates a noise signal and a periodic signal in the same manner as the speech synthesizer 2300 shown in FIG. 23, and suppresses the occurrence of pulse noise with respect to the noise component, while performing phase control of the periodic component. And a noise component are added to generate a sound source, thereby enabling speech synthesis having a shape close to the shape of the analysis source waveform.
  • the speech synthesizer 2500 can calculate the generation of the noise sound source and the generation of the pulse sound source only by the processing in the time domain, it is possible to generate a waveform at high speed.
  • the first and second embodiments of the speech synthesizer use the band group delay parameter and the band group delay correction parameter to reconstruct the phase with the feature parameters whose dimensions can be statistically modeled.
  • Each sound processing apparatus can generate a waveform at high speed while improving the reproducibility of the waveform by using the band group delay parameter and the band group delay correction parameter.
  • a phase-controlled sound source waveform is generated only by time domain processing, and a waveform can be generated by a vocal tract filter, so that a phase-controlled waveform can be generated.
  • the speech synthesizer can be used in combination with the band noise intensity parameter to improve the reproducibility of the noise component, thereby enabling higher quality speech synthesis.
  • FIG. 26 is a block diagram showing a third embodiment (speech synthesizer 2600) of the speech synthesizer.
  • the voice synthesizer 2600 is obtained by applying the band group delay parameter and the band group delay correction parameter described above to a text voice synthesizer.
  • a band group delay parameter and a band group delay correction parameter are used as feature parameters in voice synthesis based on HMM (Hidden Markov Model), which is a voice synthesis technique based on a statistical model.
  • HMM Hidden Markov Model
  • the speech synthesizer 2600 includes a text analysis unit 2601, an HMM sequence creation unit 2602, a parameter generation unit 2603, a waveform generation unit 2604, and an HMM storage unit 2605.
  • the HMM storage unit (statistical model storage unit) 2605 stores the HMM learned from the acoustic feature parameters including the band group delay parameter and the band group delay correction parameter.
  • the text analysis unit 2601 analyzes the input text, obtains information such as reading and accent, and creates context information.
  • the HMM sequence creation unit 2602 creates an HMM sequence corresponding to the input text from the HMM model stored in the HMM storage unit 2605 according to the context information created from the text.
  • the parameter generation unit 2603 generates an acoustic feature parameter from the HMM sequence.
  • the waveform generation unit 2604 generates a speech waveform from the generated feature parameter series.
  • the text analysis unit 2601 creates context information by language analysis of the input text.
  • the text analysis unit 2601 performs morphological analysis on the input text, obtains language information necessary for speech synthesis such as reading information and accent information, and creates context information from the obtained reading information and language information.
  • Context information may be created from corrected reading / accent information corresponding to input text created separately.
  • the context information is information used as a unit for classifying speech such as phonemes, semiphonemes, and syllable HMMs.
  • phoneme name sequences can be used as context information, triphones with preceding and subsequent phonemes added, phoneme information including two front and back phonemes, voiced / unvoiced classification, More detailed phoneme type information indicating the phoneme type attribute, sentence in each phoneme, breath paragraph, position in accent phrase, number of accent phrase mora / accent type, mora position, position to accent core, ending Context information including linguistic attribute information such as presence / absence information and assigned symbol information can be used.
  • the HMM sequence creation unit 2602 creates an HMM sequence corresponding to the input context information based on the HMM information stored in the HMM storage unit 2605.
  • the HMM is a statistical model represented by the state transition probability and the output distribution of each state.
  • ⁇ i , ⁇ i ) of each state and the state transition probability a ij (where i and j are state indexes) Modeled and modeled with only transition probabilities to adjacent states and self-transition probabilities.
  • the HMM storage unit 2605 stores a model obtained by decision tree clustering of the output distribution of each state of the HMM.
  • the HMM storage unit 2605 stores the decision tree that is a model of the feature parameter of each state of the HMM and the output distribution of each leaf node of the decision tree, and further for the duration distribution. It also stores decision trees and distributions.
  • Each node in the decision tree is associated with a question that classifies the distribution. For example, a question such as "whether it is silent", “whether it is voiced", or "whether it is an accent core” and the question It is classified as a child node when not corresponding to the child node.
  • a decision tree is searched by determining whether or not the input context information corresponds to the question of each node, and a leaf node is obtained.
  • An HMM corresponding to each voice unit is constructed by using the distribution associated with the obtained leaf node as the output distribution of each state. As a result, an HMM sequence corresponding to the input context information is created.
  • the HMM stored in the HMM storage unit 2605 is performed by the HMM learning device 2900 shown in FIG.
  • the voice corpus storage unit 2901 stores a voice corpus including voice data and context information for use in creating an HMM model.
  • the analysis unit 2902 analyzes voice data used for learning and obtains acoustic feature parameters.
  • a band group delay parameter and a band group delay correction parameter are obtained using the voice analysis apparatus 100 described above and used together with a spectrum parameter, a pitch parameter, a band noise intensity parameter, and the like.
  • the analysis unit 2902 obtains an acoustic feature parameter in each voice frame of the voice data as shown in FIG.
  • An audio frame becomes a parameter at each pitch mark time when pitch synchronization analysis is used, and a feature parameter is extracted by using a method of interpolating acoustic feature parameters of adjacent pitch marks when a fixed frame rate is used. .
  • the acoustic feature parameter corresponding to the voice analysis center time is analyzed using the voice analysis apparatus 100 shown in FIG. 1, and the spectral parameter (mel LSP), pitch parameter (logarithm F0), A band noise intensity parameter (BAP), a band group delay parameter, and a band group delay correction parameter (BGRD and BGRDC) are extracted. Further, ⁇ parameters and ⁇ 2 parameters are obtained as dynamic feature amounts of these parameters, and are arranged as acoustic feature parameters at each time.
  • FIG. 31 is a flowchart showing processing performed by the HMM learning unit 2903.
  • the HMM learning unit 2903 initializes the phoneme HMM (S3101), estimates the maximum likelihood of the phoneme HMM by learning the HSMM (S3102), and learns the phoneme HMM that is the initial model.
  • learning is performed by performing probabilistic association between each state and the feature parameter from the HMM of the whole sentence connected with the HMM corresponding to the sentence and the acoustic feature parameter corresponding to the sentence by connection learning. .
  • the HMM learning unit 2903 initializes the context-dependent HMM using the phoneme HMM (S3103).
  • the context exists in the learning data using the phoneme environment, the phoneme environment before and after, the position information in the sentence / accent phrase, etc., the phoneme environment such as accent type, whether to end the word, and language information.
  • a model initialized with the phoneme is prepared for the context.
  • the HMM learning unit 2903 learns by applying maximum likelihood estimation by connection learning to the context-dependent HMM (S3104), and applies state clustering based on a decision tree (S3105). As a result, the HMM learning unit 2903 constructs a decision tree for each state / stream and state duration distribution of the HMM. Then, the HMM learning unit 2903 learns rules for classifying the model based on the maximum likelihood criterion, the MDL (Minimum Description Length) criterion, and the like from the distribution for each state and each stream, and constructs the decision tree shown in FIG. At the time of speech synthesis, even when an unknown context that does not exist in the learning data is input, the distribution of each state is selected by following the decision tree, and a corresponding HMM can be constructed.
  • the HMM learning unit 2903 estimates the maximum likelihood of the context-dependent clustered model, and the model learning is completed (S3106).
  • a decision tree is constructed for each stream of each feature value, so that a band group delay and a band group delay together with a spectrum parameter (Mel LSP), a pitch parameter (logarithmic fundamental frequency), and a band noise intensity (BAP)
  • a decision tree for each stream of correction parameters is constructed.
  • a duration distribution decision tree for each HMM is constructed. The obtained HMM and decision tree are stored in the HMM storage unit 2605.
  • the HMM sequence creation unit 2602 creates an HMM sequence from the input context and the HMM stored in the HMM storage unit 2605, and repeats the distribution of each state according to the number of frames determined by the duration distribution. Create a column.
  • the created distribution column is a column in which the distribution of the number of parameters to be output is arranged.
  • the parameter generation unit 2603 generates a smooth parameter series by generating each parameter with a parameter generation algorithm that takes into account static and dynamic feature quantities widely used for speech synthesis based on HMM.
  • FIG. 32 is a diagram showing a construction example of an HMM sequence / distribution sequence.
  • the HMM sequence creation unit 2602 selects each state / stream distribution and duration distribution of the HMM of the input context, and configures an HMM sequence.
  • “red” is synthesized using “preceding phoneme_present phoneme_subsequent phoneme_phoneme position_phoneme number_mora position_mora number_accent type” as the context, the first “a” because it is a 2-mora 1 type Is a preceding phoneme “sil”, the phoneme “a”, the subsequent phoneme “k”, the phoneme position 1, the phoneme number 3, the mora position 1, the mora number 2, and the accent type 1 type. become.
  • the parameter generation unit 2603 generates a parameter series from the created distribution sequence by a parameter generation algorithm using static / dynamic feature amounts.
  • the output parameter is determined by the following method.
  • a vector C (c 0 ′,..., CT ⁇ 1 ′) ′ composed of static features c t maximizing P (O
  • T is the number of frames and J is a state transition sequence.
  • O WC.
  • O is a 3TM vector
  • C is a TM vector
  • W is a 3TM ⁇ TM matrix.
  • the parameter series can be generated in time order with a delay time, and can be generated with low delay.
  • the parameter generation process is not limited to the method described above, and any other method for generating feature parameters from a distribution sequence, such as a method of interpolating an average vector, may be used.
  • the waveform generation unit 2604 generates a speech waveform from the parameter series generated in this way.
  • the waveform generation unit 2604 synthesizes speech from the mel LSP sequence, logarithmic F0 sequence, band noise intensity sequence, band group delay parameter, and band group delay correction parameter.
  • a waveform is generated using the speech synthesizer 1100 or the speech synthesizer 1400 described above. Specifically, the waveform generation is performed using the inverse Fourier transform configuration shown in FIG. 23 or the vocoder type high-speed waveform generation shown in FIG.
  • the speech synthesizer 1200 using inverse Fourier transform shown in FIG. 12 or the speech synthesizer 1400 shown in FIG. 14 is used.
  • synthesized speech corresponding to the input context is obtained, and speech close to the analysis source speech that reflects the phase information of the speech waveform is synthesized using the band group delay parameter and the band group delay correction parameter. Is possible.
  • HMM learning unit 2903 a configuration is described in which the speaker-dependent model is estimated with maximum likelihood using the corpus of a specific speaker, but the present invention is not limited to this. It is possible to use different configurations such as speaker adaptation technology, model interpolation technology, and other cluster adaptive learning, which are used as techniques for improving diversity in HMM speech synthesis, and estimation of distribution parameters using a deep neural network, etc. Different learning methods may be used.
  • the speech synthesizer 2600 further includes a feature parameter sequence selection unit that selects a feature parameter sequence between the HMM sequence creation unit 2602 and the parameter generation unit 2603, and the sound obtained by the analysis unit 2902 targeting the HMM sequence.
  • the configuration may be such that feature parameters are candidates, feature parameters are selected from them, and a speech waveform is synthesized from the selected parameters.
  • acoustic feature parameter it is possible to suppress deterioration in sound quality due to excessive smoothing of the HMM speech synthesis, and a natural synthesized speech closer to an actual utterance can be obtained.
  • the band group delay parameter and the band group delay correction parameter as the speech synthesis feature parameters, it is possible to generate a waveform at high speed while improving the reproducibility of the waveform.
  • the speech synthesizer such as the speech analysis device 100 and the speech synthesizer 1100 described above can also be realized by using, for example, a general-purpose computer device as basic hardware. That is, the speech analysis device and each speech synthesis device in the present embodiment can be realized by causing a processor installed in a computer device to execute a program. At this time, the program may be realized by installing the program in the computer device in advance, or it may be stored in a storage medium such as a CD-ROM or distributed through the network, and the program may be distributed to the computer device. You may implement
  • the speech synthesizer such as the speech analysis device 100 and the speech synthesizer 1100 may be partially or entirely configured by hardware or software.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)

Abstract

波形の再現性を高めつつ高速に波形生成することを可能にする。実施形態の音声処理装置は、スペクトルパラメータ算出部と、位相スペクトル算出部と、群遅延スペクトル算出部と、帯域群遅延パラメータ算出部と、帯域群遅延補正パラメータ算出部と、を有する。スペクトルパラメータ算出部は、スペクトルパラメータを算出する。位相スペクトル算出部は、第1位相スペクトルを算出する。群遅延スペクトル算出部は、第1位相スペクトルの周波数成分に基づいて、第1位相スペクトルから群遅延スペクトルを算出する。帯域群遅延パラメータ算出部は、群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する。帯域群遅延補正パラメータ算出部は、帯域群遅延パラメータから再構築した第2位相スペクトルと、第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する。

Description

音声処理装置、音声処理方法及び音声処理プログラム
 本発明の実施形態は、音声処理装置、音声処理方法及び音声処理プログラムに関する。
 音声波形を分析して特徴パラメータを抽出する音声分析装置や、分析して得られた特徴パラメータから音声を合成する音声合成装置は、テキスト音声合成技術、音声符号化技術、及び音声認識技術などの音声処理技術に広く用いられている。
国際公開第2014/021318号 特開2013-164572号公報
坂野秀樹他、「時間領域平滑化群遅延を用いた短時間位相の効率的表現方法」、電子情報通信学会論文誌D-II Vol.J84-D-II、 No.4、pp.621-628
 しかしながら、従来は、統計モデルへの利用が困難であったり、再構築した位相と分析元波形の位相との間にずれが生じる問題があった。また、従来は、群遅延特徴量を用いて波形生成する場合には、高速に波形生成できないという問題があった。本発明が解決しようとする課題は、音声波形の再現性を高めることを可能にする音声処理装置、音声処理方法及び音声処理プログラムを提供することである。
 実施形態の音声処理装置は、スペクトルパラメータ算出部と、位相スペクトル算出部と、群遅延スペクトル算出部と、帯域群遅延パラメータ算出部と、帯域群遅延補正パラメータ算出部と、を有する。スペクトルパラメータ算出部は、入力音声の各音声フレームに対し、スペクトルパラメータを算出する。位相スペクトル算出部は、前記各音声フレームに対し、第1位相スペクトルを算出する。群遅延スペクトル算出部は、前記第1位相スペクトルの周波数成分に基づいて、前記第1位相スペクトルから群遅延スペクトルを算出する。帯域群遅延パラメータ算出部は、前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する。帯域群遅延補正パラメータ算出部は、前記帯域群遅延パラメータから再構築した第2位相スペクトルと、前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する。
実施形態にかかる音声分析装置の構成例を示すブロック図。 抽出部が受入れる音声波形とピッチマークを例示する図。 スペクトルパラメータ算出部の処理例を示す図。 位相スペクトル算出部の処理例と群遅延スペクトル算出部の処理を示す図。 周波数スケールの作成例を示す図。 帯域群遅延パラメータによる分析をした結果を例示する図。 帯域群遅延補正パラメータにより分析した結果を例示する図。 音声分析装置が行う処理を示すフローチャート。 帯域群遅延パラメータ算出ステップの詳細を示すフローチャート。 帯域群遅延補正パラメータ算出ステップの詳細を示すフローチャート。 音声合成装置の第1実施形態を示すブロック図。 逆フーリエ変換及び波形重畳を行う音声合成装置の構成例を示す図。 図2に示した区間に対応する波形生成例を示す図。 音声合成装置の第2実施形態を示すブロック図。 音源信号生成部が行う処理を示すフローチャート。 音源信号生成部の構成を示すブロック図。 位相シフト帯域パルス信号を例示する図。 選択部が選択を行う選択アルゴリズムを示す概念図。 位相シフト帯域パルス信号を示す図。 音源信号の生成例を示す図。 音源信号生成部が行う処理を示すフローチャート。 最小位相補正も含めて生成された音声波形を例示する図。 帯域雑音強度を用いた音声合成装置の構成例を示す図。 帯域雑音強度を例示する図。 帯域雑音強度による制御も用いた音声合成装置の構成例を示す図。 音声合成装置の第3実施形態を示すブロック図。 HMMの概略を示す図。 HMM記憶部の概略を示す図。 HMM学習装置の概略を示す図。 分析部が行う処理を示す図。 HMM学習部が行う処理を示すフローチャート。 HMM系列・分布列の構築例を示す図。
(第1の音声処理装置:音声分析装置)
 次に、添付図面を参照して、実施形態にかかる第1の音声処理装置、すなわち、音声分析装置について説明する。図1は、実施形態にかかる音声分析装置100の構成例を示すブロック図である。図1に示すように、音声分析装置100は、抽出部(音声フレーム抽出部)101、スペクトルパラメータ算出部102、位相スペクトル算出部103、群遅延スペクトル算出部104、帯域群遅延パラメータ算出部105、帯域群遅延補正パラメータ算出部106を有する。
 抽出部101は、入力音声及びピッチマークを受入れて、入力音声をフレーム単位に切り出して出力する(音声フレーム抽出)。抽出部101が行う処理例については、図2を用いて後述する。スペクトルパラメータ算出部(第1算出部)102は、抽出部101が出力した音声フレームからスペクトルパラメータを算出する。スペクトルパラメータ算出部102が行う処理例については、図3を用いて後述する。
 位相スペクトル算出部(第2算出部)103は、抽出部101が出力した音声フレームの位相スペクトルを算出する。位相スペクトル算出部103が行う処理例については、図4(a)を用いて後述する。群遅延スペクトル算出部(第3算出部)104は、位相スペクトル算出部103が算出した位相スペクトルから後述する群遅延スペクトルを算出する。群遅延スペクトル算出部104が行う処理例については、図4(b)を用いて後述する。
 帯域群遅延パラメータ算出部(第4算出部)105は、群遅延スペクトル算出部104が算出した群遅延スペクトルから帯域群遅延パラメータを算出する。帯域群遅延パラメータ算出部105が行う処理例については、図6を用いて後述する。帯域群遅延補正パラメータ算出部(第5算出部)106は、帯域群遅延パラメータ算出部105が算出した帯域群遅延パラメータから再構築した位相スペクトルと、位相スペクトル算出部103が算出した位相スペクトルとの差を補正する補正量(帯域群遅延補正パラメータ:補正パラメータ)を算出する。帯域群遅延補正パラメータ算出部106が行う処理例については、図7を用いて後述する。
 次に、音声分析装置100が行う処理についてさらに詳述する。ここでは、音声分析装置100が行う処理に関して、ピッチ同期分析によって特徴パラメータ分析を行う場合について説明する。
 抽出部101は、入力音声と共に、その周期性に基づいて各音声フレームの中心時刻を表したピッチマーク情報を受入れる。図2は、抽出部101が受入れる音声波形とピッチマークを例示する図である。図2は、「だ」という音声の波形を示しており、音声波形と共に、有声音の周期性に従って抽出されたピッチマーク時刻を示している。
 以下、音声フレームのサンプルとして、図2の下側に示した区間(下線の区間)に対する分析例を示す。抽出部101は、ピッチマークを中心として、ピッチの2倍の長さの窓関数を乗算することにより、音声フレームを切り出す。ピッチマークは、例えばピッチ抽出装置によってピッチ抽出し、ピッチ周期のピークを抽出する方法などにより求められる。また、周期性のない無声音区間も、固定のフレームレートや周期区間のピッチマークの補間した処理により、分析中心となる時刻列を作成して、ピッチマークとすることができる。
 音声フレームの抽出には、ハニング窓を用いることができる。また、ハミング窓、ブラックマン窓など特性の異なる窓関数が用いられてもよい。抽出部101は、窓関数を用いて、周期区間の単位波形となるピッチ波形を音声フレームとして切り出す。また、抽出部101は、無音・無声音区間等の非周期区間においても上述したように、固定フレームレートやピッチマークを補間することにより定めた時刻に従って、窓関数を乗じて音声フレームを切り出す。
 なお、本実施形態では、スペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータの抽出にピッチ同期分析を用いた場合を例に説明するが、これに限定されることなく、固定のフレームレートによってパラメータ抽出が行われてもよい。
 スペクトルパラメータ算出部102は、抽出部101が抽出した音声フレームに対するスペクトルパラメータを求める。例えば、スペクトルパラメータ算出部102は、メルケプストラム、線形予測係数、メルLSP、正弦波モデル等のスペクトル包絡を表す任意のスペクトルパラメータを求める。また、ピッチ同期分析でなく、固定のフレームレートによる分析を行う場合にも、これらのパラメータや、STRAIGHT分析によるスペクトル包絡抽出方法などを用いてパラメータ抽出を行ってもよい。ここでは、例としてメルLSPによるスペクトルパラメータを用いる。
 図3は、スペクトルパラメータ算出部102の処理例を示す図である。図3(a)は、音声フレームを示しており、図3(b)は、フーリエ変換して得られたスペクトルを示している。スペクトルパラメータ算出部102は、このスペクトルに対してメルLSP分析を適用し、メルLSP係数を得る。メルLSP係数の0次はゲイン項を表すが、1次以上は周波数軸上の線スペクトル周波数であり、各LSP周波数にグリッド線を示している。ここでは44.1kHzの音声に対してメルLSP分析を適用している。これにより得られたスペクトル包絡は、スペクトルの概形を表すパラメータとなる(図3(c))。
 図4は、位相スペクトル算出部103の処理例と、群遅延スペクトル算出部104の処理例を示す図である。図4(a)は、位相スペクトル算出部103がフーリエ変換により求めた位相スペクトルを示している。位相スペクトルは、アンラップしたものである。位相スペクトル算出部103は、直流成分の位相を0とするように、振幅・位相ともにハイパスフィルタをかけて、位相スペクトルを求める。
 群遅延スペクトル算出部104は、図4(a)に示した位相スペクトルから、下式1によって図4(b)に示した群遅延スペクトルを求める。
Figure JPOXMLDOC01-appb-M000001
 上式1において、τ(ω)は群遅延スペクトル、ψ(ω)は位相スペクトル、「’」は微分の演算を表す。群遅延は、位相の周波数微分であり、時間領域では各帯域の平均時間(波形の重心時刻:遅延時間)を表す値である。群遅延スペクトルは、アンラップした位相の微分値にあたるため、範囲が-πからπの間の値となる。
 ここで、図4(b)を見ると、低域に-πに近い群遅延が生じていることがわかる。つまり、当該周波数における位相スペクトルにπに近い差が生じている。また、図3(b)の振幅スペクトルを見ると、当該周波数位置において、谷が見られる。
 本周波数において分けられる低域と高域では、信号の符号が逆転するためにこのような形状になり、位相に段差の生じる周波数はその境界の周波数を表している。この様な周波数軸上のπ付近の群遅延を含めて、群遅延の不連続な変化を再現することは、分析元の音声波形を再現して高品質な分析合成音声を得るために重要である。また、音声合成に用いる群遅延パラメータとして、この様な群遅延の急峻な変化を再現可能なパラメータであることが求められる。
 帯域群遅延パラメータ算出部105は、群遅延スペクトル算出部104が算出した群遅延パラメータから帯域群遅延パラメータを算出する。帯域群遅延パラメータは、予め定めた周波数帯域毎の群遅延パラメータである。これにより、群遅延スペクトルの次数を削減し、統計モデルのパラメータとして利用可能なパラメータとなる。帯域群遅延パラメータは、下式2によって求められる。
Figure JPOXMLDOC01-appb-M000002
 上式2による帯域群遅延は、時間領域では平均時間を表し、零位相波形からのシフト量を表すことになる。離散スペクトルから平均時間を求める場合には、下式3が用いられる。
Figure JPOXMLDOC01-appb-M000003
 ここでは、帯域群遅延パラメータは、パワースペクトルによる重みづけを用いているが、単に群遅延の平均を用いてもよい。また、振幅スペクトルによる重みづけ平均など異なる算出方法であってもよく、各帯域の群遅延を表すパラメータであればよい。
 このように、帯域群遅延パラメータは、所定の周波数帯域の群遅延を表すパラメータとなる。よって、帯域群遅延パラメータから群遅延の再構築は、下式4に示すように、各周波数に対応する帯域群遅延パラメータを用いることにより行われる。
Figure JPOXMLDOC01-appb-M000004
 この生成した群遅延からの位相の再構築は、下式5によって求められる。
Figure JPOXMLDOC01-appb-M000005
 ω=0における位相の初期値は、上述したハイパス処理をかけているため、0としているが、実際に直流成分の位相を保存しておいて用いてもよい。これらに用いているΩは、帯域群遅延を求めるときの帯域の境界である周波数スケールである。周波数スケールは、任意のスケールを用いることができるが、聴覚特性に合わせて低域は細かく、高域は粗い間隔で設定することができる。
 図5は、周波数スケールの作成例を示す図である。図5に示した周波数スケールは、5kHzまではα=0.35のメルスケールを用い、5kHz以上は等間隔に表したスケールである。群遅延パラメータは、波形の形状の再現性を高めるために、パワーの強くなる低域を細かく表現し、高域は粗い間隔に設定している。これは、高域では波形のパワーが小さくなり、また非周期成分によるランダム位相成分が強くなるため、安定した位相パラメータが得られなくなるためである。また、高域の位相は、聴覚的にも影響が小さいことが知られているためである。
 ランダム位相の成分とパルス励振による成分との制御は、周期成分・非周期成分の強度である各帯域の雑音成分の強度により表現する。音声分析装置100の出力結果を用いて音声合成を行う場合には、後述する帯域雑音強度パラメータも含めて波形生成される。よって、ここでは雑音成分の強い高域の位相は粗い表現にされ、次数が削減されている。
 図6は、図5に示した周波数スケールを用いて、帯域群遅延パラメータによる分析をした結果を例示する図である。図6(a)は、上式3によって得られた帯域群遅延パラメータを示している。帯域群遅延パラメータは、各帯域の群遅延の重み平均になるが、平均的な群遅延では、群遅延スペクトルに見られる変動が再現できないことがわかる。
 図6(b)は、帯域群遅延パラメータから生成した位相を例示する図である。図6(b)に示した例では、位相の傾きは概ね再現できているものの、低域にあるπに近い位相の変化等、位相スペクトルの段差を捉えることができず、位相スペクトルを再現できない箇所が含まれている。
 この生成した位相と、メルLSPから生成した振幅スペクトルを逆フーリエ変換し、波形生成した例が図6(c)に示されている。生成された波形は、図3(a)の波形に見られる中心付近において、分析元の波形と大きく異なる形状となっている。このように、帯域群遅延パラメータのみにより位相をモデル化した場合、音声に含まれる位相の段差をとらえることができないため、再生成した波形と分析元の波形に差異が生じる。
 この問題に対応するため、音声分析装置100は、帯域群遅延パラメータとともに、所定の周波数において、帯域群遅延パラメータから再構築した位相を、位相スペクトルの当該周波数における位相に補正する帯域群遅延補正パラメータを用いる。
 帯域群遅延補正パラメータ算出部106は、位相スペクトル及び帯域群遅延パラメータから帯域群遅延補正パラメータを算出する。帯域群遅延補正パラメータは、帯域群遅延パラメータにより再構築した位相を、境界周波数における位相値に補正するパラメータであり、差分をパラメータとする場合は、下式6によって求められる。
Figure JPOXMLDOC01-appb-M000006
 上式6の右辺第1項は、音声を分析して得られたΩにおける位相である。上式6の第2項は、帯域群遅延パラメータbgrd(b)及び補正パラメータbgrdc(b)により再構築する群遅延を用いて求められる。これは下式7に示すように、上式4の群遅延におけるω=Ωとなる境界において、補正パラメータbgrdc(b)を加算したパラメータとして表される。
Figure JPOXMLDOC01-appb-M000007
 このように構成した群遅延からの位相は、上式5により再構築される。また、上式6の右辺第2項は、上式7及び上式5によってω=Ω-1まで位相を再構築した後、Ωにおける帯域群遅延により再構築した下式8の位相によって求められ、Ωb―1までの帯域の帯域群遅延パラメータ及び帯域群遅延補正パラメータと、Ωにおける帯域群遅延パラメータを用いて再構築した位相として求められる。
Figure JPOXMLDOC01-appb-M000008
 また、上式6によって、右辺第2項の位相と実際の位相との差分を求めることにより、帯域群遅延補正パラメータを求めることにより、周波数Ωにおいて実際の位相が再現される。
 図7は、帯域群遅延補正パラメータにより分析した結果を例示する図である。図7(a)は、上式7による帯域群遅延パラメータ及び帯域群遅延補正パラメータから再構築した群遅延スペクトルを示している。図7(b)は、この群遅延スペクトルから位相を生成した例を示している。図7(b)に示すように、帯域群遅延補正パラメータを用いることにより実際の位相に近い位相が再構築できている。特に、周波数スケールの間隔の狭い低域部分においては、図6(b)において差が生じていた階段状の位相となる箇所も含めて再現できている。
 図7(c)は、このように再構築した位相パラメータから波形を合成した例を示している。図6(c)に示した例では波形の形状が分析元の波形と大きく異なっていたが、図7(c)に示した例では元の波形に近い音声波形が生成されている。上式6の補正パラメータbgrdcは、ここでは位相の差分情報を用いているが、当該周波数における位相値など他のパラメータでもよい。例えば、帯域群遅延パラメータと組み合わせて用いることにより、当該周波数における位相が再現されるパラメータであればよい。
 図8は、音声分析装置100が行う処理を示すフローチャートである。音声分析装置100は、ピッチマークのループにより、各ピッチマークに対応するパラメータを算出する処理を行う。まず、音声分析装置100は、音声フレーム抽出ステップにおいて抽出部101が音声フレームを抽出する(S801)。次に、スペクトルパラメータ算出部102がスペクトルパラメータ算出ステップにおいてスペクトルパラメータを算出し(S802)、位相スペクトル算出部103が位相スペクトル算出ステップにおいて位相スペクトルを算出し(S803)、群遅延スペクトル算出部104が群遅延スペクトル算出ステップにおいて群遅延スペクトルを算出する(S804)。
 次に、帯域群遅延パラメータ算出部105が帯域群遅延パラメータ算出ステップにおいて帯域群遅延パラメータを算出する(S805)。図9は、図8に示した帯域群遅延パラメータ算出ステップ(S805)の詳細を示すフローチャートである。図9に示すように、帯域群遅延パラメータ算出部105は、所定の周波数スケールの各帯域のループにより、帯域の境界周波数を設定し(S901)、上式3に示されたパワースペクトル重み等を用いた群遅延の平均化により帯域群遅延パラメータ(平均群遅延)を算出する(S902)。
 次に、帯域群遅延補正パラメータ算出部106が帯域群遅延補正パラメータ算出ステップにおいて帯域群遅延補正パラメータを算出する(S806:図8)。図10は、図8に示した帯域群遅延補正パラメータ算出ステップ(S806)の詳細を示すフローチャートである。図10に示すように、帯域群遅延補正パラメータ算出部106は、各帯域のループにより、まず帯域の境界周波数を設定する(S1001)。次に、帯域群遅延補正パラメータ算出部106は、帯域群遅延パラメータ及び現帯域以下の帯域の帯域群遅延補正パラメータを用いて境界周波数における位相を、上式7及び上式5を用いて生成する(S1002)。そして、帯域群遅延補正パラメータ算出部106は、上式8により位相スペクトル差分パラメータを算出して、算出結果を帯域群遅延補正パラメータとする(S1003)。
 このように、音声分析装置100は、図8(図9、10)に示した処理を行うことにより、入力音声に対応するスペクトルパラメータ、帯域群遅延パラメータ及び帯域群遅延補正パラメータを算出して出力するので、音声合成を行う場合に音声波形の再現性を高めることを可能にする。
(第2の音声処理装置:音声合成装置)
 次に、実施形態にかかる第2の音声処置装置、すなわち、音声合成装置について説明する。図11は、音声合成装置の第1実施形態(音声合成装置1100)を示すブロック図である。図11に示すように、音声合成装置1100は、振幅情報生成部1101、位相情報生成部1102及び音声波形生成部1103を有し、スペクトルパラメータ系列、帯域群遅延パラメータ系列、帯域群遅延補正パラメータ系列及びパラメータ系列の時刻情報を受入れて音声波形(合成音声)を生成する。音声合成装置1100に入力される各パラメータは、音声分析装置100により算出されたものである。
 振幅情報生成部1101は、各時刻のスペクトルパラメータから振幅情報を生成する。位相情報生成部1102は、各時刻の帯域群遅延パラメータ及び帯域群遅延補正パラメータから位相情報を生成する。音声波形生成部1103は、振幅情報生成部1101が生成した振幅情報、及び位相情報生成部1102が生成した位相情報から、各パラメータの時刻情報に従って音声波形を生成する。
 図12は、逆フーリエ変換及び波形重畳を行う音声合成装置1200の構成例を示す図である。音声合成装置1200は、音声合成装置1100の具体的構成例の1つであり、振幅スペクトル算出部1201、位相スペクトル算出部1202、逆フーリエ変換部1203、及び波形重畳部1204を有し、逆フーリエ変換によって各時刻の波形を生成し、生成した波形を重畳合成することによって合成音声を出力する。
 より具体的には、振幅スペクトル算出部1201は、スペクトルパラメータから振幅スペクトルを算出する。振幅スペクトル算出部1201は、例えばパラメータとしてメルLSPを用いている場合、メルLSPの安定性をチェックし、メルLPC係数に変換し、メルLPC係数から振幅スペクトルを算出する。位相スペクトル算出部1202は、帯域群遅延パラメータ及び帯域群遅延補正パラメータから上式5及び上式7により位相スペクトルを算出する。
 逆フーリエ変換部1203は、算出された振幅スペクトル及び位相スペクトルを逆フーリエ変換してピッチ波形を生成する。逆フーリエ変換部1203によって生成された波形は図7(c)に例示されている。波形重畳部1204は、生成されたピッチ波形をパラメータ系列の時刻情報に基づいて重畳合成し、合成音声を得る。
 図13は、図2に示した区間に対応する波形生成例を示す図である。図13(a)は、図2に示した原音の音声波形を示している。図13(b)は、音声合成装置1100(音声合成装置1200)が出力する帯域群遅延パラメータ及び帯域群遅延補正パラメータによる合成音声波形である。図13(a)、(b)に示すように、音声合成装置1100は、原音の波形に近い形状の波形を生成することができる。
 図13(c)は、比較例として、帯域群遅延パラメータのみを用いた場合の合成音声波形を示している。図13(a)、(c)に示すように、帯域群遅延パラメータのみを用いた場合の合成音声波形は、原音とは異なる形状の波形になっている。
 このように、音声合成装置1100(音声合成装置1200)は、帯域群遅延パラメータに加えて帯域群遅延補正パラメータを用いることにより、原音の位相特性を再現することができ、分析合成波形を分析元の音声波形の形状に近づけて、高品質な波形生成をすること(音声波形の再現性を高めること)ができる。
 図14は、音声合成装置の第2実施形態(音声合成装置1400)を示すブロック図である。音声合成装置1400は、音源信号生成部1401及び声道フィルタ部1402を有する。音源信号生成部1401は、帯域群遅延パラメータ系列及び帯域群遅延補正パラメータ系列と、パラメータ系列の時刻情報を用いて、音源信号を生成する。音源信号は、位相制御されず、雑音強度等も用いられない場合、無声音区間には雑音信号、有声音区間にはパルス信号を用いて生成され、フラットなスペクトルを持ち、声道フィルタが適用されることによって音声波形が合成される信号である。
 音声合成装置1400は、音源信号生成部1401がパルス成分の位相を帯域群遅延パラメータ及び帯域群遅延補正パラメータによって制御する。つまり、図11に示した位相情報生成部1102の位相制御機能は、音源信号生成部1401によって行われる。つまり、音声合成装置1400は、ボコーダ型の波形生成に帯域群遅延パラメータ及び帯域群遅延補正パラメータを利用して高速に波形生成する。
 音源信号を位相制御する方法の一つは、逆フーリエ変換を用いるものである。この場合、音源信号生成部1401は、図15に示した処理を行う。つまり、音源信号生成部1401は、特徴パラメータの各時刻において、帯域群遅延パラメータ及び帯域群遅延補正パラメータから上式5及び上式7により位相スペクトルを算出し(S1501)、振幅を1として逆フーリエ変換を行い(S1502)、生成した波形を重畳する(S1503)。
 声道フィルタ部1402は、生成された音源信号に対してスペクトルパラメータにより定められるフィルタを適用することにより、波形生成を行って音声波形(合成音声)を出力する。声道フィルタ部1402は、振幅情報を制御するために、図11に示した振幅情報生成部1101が備える機能を有する。
 音声合成装置1400は、上述したように位相制御した場合には、音源信号からの波形生成は可能となるが、逆フーリエ変換の処理を含んでおり、フィルタ演算が含まれるために音声合成装置1200(図12)よりも処理量が増加し、高速に波形生成することができない。そこで、音源信号生成部1401は、時間領域の処理のみで位相制御された音源信号を生成するように、図16に示したように構成される。
 図16は、時間領域の処理のみで位相制御された音源信号を生成する音源信号生成部1401の構成を示すブロック図である。図16に示した音源信号生成部1401は、位相シフトしたパルス信号を帯域分割した位相シフト帯域パルス信号を予め用意し、位相シフト帯域パルス信号を遅延させて重畳合成させることによって音源波形を生成する。
 具体的には、音源信号生成部1401は、まず、記憶部1605にパルス信号を位相シフトさせ、帯域分割した各帯域の信号を記憶しておく。位相シフト帯域パルス信号とは、該当する帯域における振幅スペクトルを1、位相スペクトルを定数値とした信号であり、パルス信号の位相をシフトし、帯域分割した各帯域の信号となり、下式9によって作成される。
Figure JPOXMLDOC01-appb-M000009
 ここで、帯域の境界Ωは、周波数スケールによって定められ、位相ψは、0≦ψ<2πの範囲を量子化し、P段階に量子化される。P=128とする場合、2π/128の刻みによって128個×帯域数の帯域パルス信号を作成する。このように、位相シフト帯域パルス信号は、位相シフトしたパルス信号を帯域分割したものであり、合成時には帯域及び位相の主値によって選択される。このように作成した位相シフト帯域パルス信号を帯域bの位相シフトのインデックスをph(b)としたとき、bandpulse ph(b)(t)と表す。
 図17は、位相シフト帯域パルス信号を例示する図である。左欄は全帯域の位相シフトしたパルス信号であり、上段は0位相の場合、下段は位相ψ=π/2の場合を示している。2列目から6列目は、それぞれ図5に示したスケールの低域から5帯域目までの帯域パルス信号を示している。このように、記憶部1605は、帯域分割部1606、位相付与部1607、及び逆フーリエ変換部1608により作成された位相シフト帯域パルス信号を記憶しておく。
 遅延時間算出部1601は、帯域群遅延パラメータから位相シフト帯域パルス信号の各帯域の遅延時間を算出する。上式3によって求められた帯域群遅延パラメータは、時間領域ではその帯域の平均遅延時間を表し、下式10により整数化された遅延時間delay(b)となり、整数遅延時間に対応する群遅延はτint(b)として求められる。
Figure JPOXMLDOC01-appb-M000010
 位相算出部1602は、境界周波数における位相を、求める帯域より低域の帯域群遅延パラメータ及び帯域群遅延補正パラメータから算出する。パラメータから再構築される境界周波数の位相は、上式7及び上式5によって求められるψ(Ω)である。選択部1603は、境界周波数位相及び整数群遅延bgrdint(b)を用いて各帯域のパルス信号の位相を算出する。この位相は、ψ(Ω)を通り傾きbgrdint(b)とした直線のy切片として下式11によって求められる。
Figure JPOXMLDOC01-appb-M000011
 また、選択部1603は、上式11により求めた位相の主値を(0≦phase(b)<2π)の範囲になるように2πの加算又は減算を行うことによって求め(以下〈phase(b)〉と記載)、得られた位相の主値を位相シフト帯域パルス信号作成時に量子化した位相の番号ph(b)として求める(下式12)。
Figure JPOXMLDOC01-appb-M000012
 このph(b)により帯域群遅延パラメータ及び帯域群遅延補正パラメータに基づいた位相シフト帯域パルス信号の選択が行われる。
 図18は、選択部1603が選択を行う選択アルゴリズムを示す概念図である。ここでは、b=1の帯域の音源信号に対応する位相シフト帯域パルス信号の選択の例が示されている。選択部1603は、帯域ΩからΩb+1の音源信号を生成するため、その帯域の帯域群遅延パラメータから整数化した遅延及び位相の傾きである群遅延bgrdint(b)を求める。そして、選択部1603は、帯域群遅延パラメータ及び帯域群遅延補正パラメータから生成した境界周波数における位相ψ(Ω)を通り傾きbgrdint(b)の直線のy切片phase(b)を求め、その主値〈phase(b)〉を量子化したph(b)により位相シフト帯域パルス信号を選択する。
 図19は、位相シフト帯域パルス信号を示す図である。位相phase(b)による全帯域のパルス信号は、図19(a)に示すように固定の位相phase(b)、振幅1の信号である。これに時間方向の遅延を与えると、遅延量に応じた固定の群遅延が生じるため図19(b)に示すようにphase(b)を通り、傾きbgrdint(b)の直線となる。この全帯域の直線位相の信号にバンドパスフィルタを適用してΩからΩb+1の区間を切り出したものが図19(c)となり、振幅はΩからΩb+1の区間1、その他の周波数領域は0となり、境界Ωの位相がψ(Ω)の信号となる。
 このため、図18に示した方法により各帯域の位相シフトパルス信号を適切に選択することができる。重畳部1604は、このように選択された位相シフト帯域パルス信号を、遅延時間算出部1601が求めた遅延時間delay(b)で遅延させ、全帯域にわたって加算することにより帯域群遅延パラメータ及び帯域群遅延補正パラメータを反映した音源信号を生成する。
Figure JPOXMLDOC01-appb-M000013
 図20は、音源信号の生成例を示す図である。図20(a)は、各帯域の音源信号であり、選択された位相シフトパルス信号を遅延させた波形を低域の5つの帯域に示したものである。これらを全帯域加算し、生成された音源信号を図20(b)に示している。このように生成された信号の位相スペクトルを図20(c)に、振幅スペクトルを図20(d)に示す。
 図20(c)に示した位相スペクトルは、分析元の位相を細線で示し、上式5及び上式7によって生成された位相を太線で重ねて示している。このように、音源信号生成部1401によって生成された位相とパラメータから再生成した位相は、高域のアンラップの違いによる差のある箇所を除きほぼ重なっており、分析元位相に近い位相が生成されている。
 図20(d)に示した振幅スペクトルを見ると、位相の変化が大きく零点をまたぐ箇所以外はほぼ振幅1.0のフラットなスペクトルに近い形状となっており、正しく音源波形が生成されていることがわかる。音源信号生成部1401は、このように生成された音源信号をパラメータ系列時刻情報によって定まるピッチマークに従って重畳合成し、文全体の音源信号を生成する。
 図21は、音源信号生成部1401が行う処理を示すフローチャートである。音源信号生成部1401は、パラメータ系列の各時刻のループを行い、帯域パルス遅延時間算出ステップでは上式10によって遅延時間を算出し(S2101)、境界周波数位相算出ステップでは上式5及び上式7により境界周波数の位相を算出する(S2102)。そして、音源信号生成部1401は、位相シフト帯域パルス選択ステップでは上式11及び上式12によって記憶部1605に含まれる位相シフト帯域パルス信号を選択し(S2103)、遅延位相シフト帯域パルス重畳ステップでは選択された位相シフト帯域パルス信号を遅延させて加算及び重畳することにより音源信号を生成する(S2104)。
 声道フィルタ部1402は、音源信号生成部1401が生成した音源信号に対し、声道フィルタを適用し、合成音声を得る。声道フィルタは、メルLSPパラメータの場合は、メルLSPパラメータからメルLPCパラメータに変換し、ゲイン括りだし処理等を行った後、メルLPCフィルタを適用することにより波形生成する。
 声道フィルタの影響により、最小位相特性が加算されるため、分析元の位相から帯域群遅延パラメータ及び帯域群遅延補正パラメータを求めるときに、最小位相の補正を行う処理を適用してもよい。最小位相は、メルLSPから振幅スペクトルを生成し、対数振幅スペクトルと零位相によるスペクトルを逆フーリエ変換し、得られたケプストラムを正の成分は2倍、負の成分は0として再度フーリエ変換した虚軸に生成される。
 このように求めた位相をアンラップし、波形を分析した位相から減算することにより最小位相の補正が行われる。最小位相補正した位相スペクトルから帯域群遅延パラメータ及び帯域群遅延補正パラメータを求め、上述した音源信号生成部1401の処理により音源を生成し、フィルタを適用することにより、元の波形の位相を再現した合成音声が得られる。
 図22は、最小位相補正も含めて生成された音声波形を例示する図である。図22(a)は、図13(a)と同じ分析元の音声波形である。図22(b)は、音声合成装置1400によるボコーダ型波形生成に基づく分析合成波形である。図22(c)は、広く用いられるパルス音源によるボコーダであり、この場合最小位相の波形形状となる。
 図22(b)に示した音声合成装置1400による分析合成波形は、図22(a)に示した原音に近い波形が再現されている。また、図13(b)に示した波形にも近い音声波形が生成されている。それに対し、図22(c)に示した最小位相では、ピッチマーク付近にパワーが集中した音声波形となり、原音の音声波形の形状を再現することはできない。
 また、処理量を比較するために、約30秒の音声波形を生成したときの処理時間を計測した。位相シフト帯域パルス生成等の初期設定を除いた処理時間は、逆フーリエ変換を用いる図12の構成の場合は約9.19秒、ボコーダ型の図14の構成の場合は約0.47秒(2.9GHzのCPUの演算サーバにて計測)となった。つまり、処理時間は約5.1%程度に短縮されることが確認された。つまり、ボコーダ型波形生成により、高速に波形生成することができる。
 これは、逆フーリエ変換を用いず、時間領域の操作のみで位相特性を反映した波形生成が可能となったためである。上述した波形生成では、音源生成し、音源波形を重畳合成したあとフィルタを適用するが、この限りではない。ピッチ波形毎に音源波形を生成してフィルタを適用し、ピッチ波形を生成して生成されたピッチ波形を重畳合成するなど、異なる構成でもよい。そして、図16に示した位相シフト帯域パルス信号による音源信号生成部1401を用いて帯域群遅延パラメータ及び帯域群遅延補正パラメータから音源信号を生成すればよい。
 図23は、図12に示した音声合成装置1200に対し、帯域雑音強度を用いた雑音成分・周期成分の分離による制御を加えた音声合成装置2300の構成例を示す図である。音声合成装置2300は、音声合成装置1100の具体的構成の1つであり、振幅スペクトル算出部1201がスペクトルパラメータ系列から振幅スペクトルを算出し、周期成分スペクトル算出部2301及び雑音成分スペクトル算出部2302が帯域雑音強度に従って周期成分スペクトルと雑音成分スペクトルに分離する。帯域雑音強度は、スペクトルの各帯域の雑音成分の比率を表すパラメータであり、例えばPSHF(Pitch Scaled Harmonic Filter)方式を用いて音声を周期成分と雑音成分に分離し、各周波数の雑音成分比率を求め、予め定めた帯域毎に平均化する方法などにより求めることができる。
 図24は、帯域雑音強度を例示する図である。図24(a)は、PSHFによって音声を周期成分と非周期成分に分離した信号から、処理対象フレームの音声のスペクトルと非周期成分のスペクトルを求め、各周波数の非周期成分の比率を求めたap(ω)である。処理の際には、PSHFによる比率に対して有声音の帯域は0とする後処理や比率を0から1の間にクリッピングする処理等が加えられている。このように求めた雑音成分比率から、周波数スケールに従ってのスペクトルで重みづけした平均を求めたものが図24(b)に示した帯域雑音強度bap(b)である。周波数スケールは、帯域群遅延と同様に図5に示したスケールを用いており、下式14によって求められる。
Figure JPOXMLDOC01-appb-M000014
 雑音成分スペクトル算出部2302は、この帯域雑音強度による各周波数の雑音強度をスペクトルパラメータから生成したスペクトルに乗算し、雑音成分スペクトルを求める。周期成分スペクトル算出部2301は、1.0-bap(b)を乗じることにより、雑音成分スペクトルを除いた周期成分スペクトルを求める。
 雑音成分波形生成部2304は、雑音信号から作成したランダム位相と雑音成分スペクトルによる振幅スペクトルから、逆フーリエ変換することにより雑音成分波形を生成する。雑音成分位相は、例えば平均0分散1となるガウス雑音を生成し、ピッチの2倍のハニング窓により切り出し、切り出した窓かけガウス雑音をフーリエ変換することにより作成できる。
 周期波形生成部2303は、位相スペクトル算出部1202が帯域群遅延パラメータ及び帯域群遅延補正パラメータから算出した位相スペクトルと、周期成分スペクトルによる振幅スペクトルを逆フーリエ変換することにより周期成分波形を生成する。
 波形重畳部1204は、生成された雑音成分波形と周期成分波形を加算し、パラメータ系列の時刻情報に従って重畳して合成音声を得る。
 このように、雑音成分と周期成分を分離することにより、帯域群遅延パラメータとして表現することの困難なランダム位相成分を分離し、雑音成分はランダム位相から生成することができる。これにより、無声音区間や、有声摩擦音の高域部、有声音に含まれる雑音成分がパルス的なバジー感のある音質になってしまうことを抑えることができる。特に、統計的に各パラメータをモデル化した場合、複数のランダムな位相成分から求められた帯域群遅延・帯域群遅延補正パラメータを平均化すると、平均値は0に近づき、パルス的な位相成分に近づく傾向がある。帯域雑音強度を帯域群遅延パラメータ・帯域群遅延補正パラメータと併せて用いることにより、雑音成分はランダムな位相から生成することを可能にしつつ、周期成分は適切に生成された位相を用いることができ、合成音声の音質が向上する。
 図25は、帯域雑音強度による制御も用い、高速波形生成を実現するためのボコーダ型の音声合成装置2500の構成例を示す図である。雑音成分の音源生成は、帯域雑音信号記憶部2503に含まれる予め帯域分割した固定長の帯域雑音信号を用いて行われる。音声合成装置2500は、帯域雑音信号記憶部2503が帯域雑音信号を記憶し、雑音音源信号生成部2502が帯域雑音強度に従って各帯域の帯域雑音信号の振幅を制御し、振幅制御された帯域雑音信号を加算することによって雑音音源信号を生成する。なお、音声合成装置2500は、図14に示した音声合成装置1400の変形例である。
 パルス音源信号生成部2501は、記憶部1605が記憶している位相シフト帯域パルス信号を用い、図16に示した構成によって位相制御した音源信号を生成する。但し、遅延位相シフト帯域パルス波形を重畳する場合、各帯域の信号の振幅を、帯域雑音強度を用いて制御し、(1.0-bap(b))の強度となるように生成する。音声合成装置2500は、このように生成したパルス音源信号と雑音音源信号を加算して音源信号を生成し、声道フィルタ部1402においてスペクトルパラメータによる声道フィルタを適用し、合成音声を得る。
 音声合成装置2500は、図23に示した音声合成装置2300と同様に雑音信号と周期信号をそれぞれ生成し、雑音成分に対してパルス的なノイズが生じることを抑えつつ、位相制御された周期成分と雑音成分とを加えて音源生成することにより、分析元波形の形状に近い形状を持つ音声合成が可能となる。また、音声合成装置2500は、雑音音源の生成もパルス音源の生成も時間領域の処理のみで算出することができるため、高速な波形生成が可能となる。
 このように、音声合成装置の第1実施形態及び第2実施形態は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、統計モデル化可能な次元削減した特徴パラメータで、再構築した位相と波形を分析した位相の類似度を向上させることを可能とし、これらのパラメータから適切に位相制御された音声合成が可能となる。実施形態にかかる各音声処理装置は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、波形の再現性を高めつつ高速に波形生成することを可能にすることができる。さらに、ボコーダ型の音声合成装置では、時間領域の処理のみにより位相制御した音源波形を生成し、声道フィルタによる波形生成を可能とすることにより、高速に位相制御された波形生成が可能となる。また、音声合成装置は、帯域雑音強度パラメータと組み合わせて用いることにより雑音成分の再現性も向上し、より高品質な音声合成が可能となる。
 図26は、音声合成装置の第3実施形態(音声合成装置2600)を示すブロック図である。音声合成装置2600は、上述した帯域群遅延パラメータ及び帯域群遅延補正パラメータをテキスト音声合成装置に適用したものである。ここでは、テキスト音声合成方式として、統計モデルに基づく音声合成技術であるHMM(Hidden Markov Model)に基づく音声合成において、その特徴パラメータに帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いる。
 音声合成装置2600は、テキスト解析部2601、HMM系列作成部2602、パラメータ生成部2603、波形生成部2604、及びHMM記憶部2605を有する。HMM記憶部(統計モデル記憶部)2605は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを含む音響特徴パラメータから学習したHMMを記憶する。
 テキスト解析部2601は、入力テキストを解析して読み・アクセント等の情報を求めコンテキスト情報を作成する。HMM系列作成部2602は、テキストから作成されたコンテキスト情報に従って、HMM記憶部2605に記憶されているHMMモデルから、入力テキストに対応するHMM系列を作成する。パラメータ生成部2603は、HMM系列から音響特徴パラメータを生成する。波形生成部2604は、生成された特徴パラメータ系列から音声波形を生成する。
 より詳細には、テキスト解析部2601は、入力テキストの言語解析よりコンテキスト情報を作成する。テキスト解析部2601は、入力テキストに形態素解析を行い、読み情報及びアクセント情報などの音声合成に必要な言語情報を求め、得られた読み情報及び言語情報から、コンテキスト情報を作成する。別途作成した入力テキストに対応する修正済みの読み・アクセント情報からコンテキスト情報を作成してもよい。コンテキスト情報とは、音素・半音素・音節HMM等の音声を分類する単位として用いられる情報である。
 音声単位として音素を用いる場合、コンテキスト情報として音素名の系列を用いることができ、さらに先行音素・後続音素を付加したトライフォンや、前後2音素ずつ含めた音素情報、有声音・無声音による分類やさらに詳細化した音素種別の属性を表す音素種別情報、各音素の文内、呼気段落内、アクセント句内の位置、アクセント句のモーラ数・アクセント型、モーラ位置、アクセント核までの位置、語尾上げの有無の情報、付与された記号情報等の言語的な属性情報を含めてコンテキスト情報とすることができる。
 HMM系列作成部2602は、HMM記憶部2605が記憶しているHMM情報に基づいて、入力コンテキスト情報に対応するHMM系列を作成する。HMMは状態遷移確率と各状態の出力分布とにより表される統計モデルである。HMMとしてleft-to-right型HMMを用いる場合、図27に示すように、各状態の出力分布N(o|μ、Σ)と状態遷移確率aijは状態インデックス)によりモデル化され、隣接する状態への遷移確率及び自己遷移確率のみ値を持つ形でモデル化される。ここで、自己遷移確率aijの代わりに継続長分布N(d|μ d、Σ d)を用いるものをHSMM(隠れセミマルコフモデル)と呼び、継続長のモデル化に用いられる。
 HMM記憶部2605は、このHMMの各状態の出力分布を決定木クラスタリングしたモデルを記憶している。この場合、図28に示すように、HMM記憶部2605は、HMMの各状態の特徴パラメータのモデルである決定木及び決定木の各リーフノードの出力分布を記憶し、さらに継続長分布のための決定木及び分布も記憶する。決定木の各ノードには、分布を分類する質問が関連付けられており、例えば「無音かどうか」、「有声音であるかどうか」、「アクセント核かどうか」といった質問とその質問に該当する場合の子ノードと該当しない場合の子ノードに分類される。入力されたコンテキスト情報に対して、各ノードの質問に該当するかどうかを判断することによって決定木を探索し、リーフノードを得る。得られたリーフノードに対応づけられている分布を各状態の出力分布として用いることにより、各音声単位に対応するHMMを構築する。これにより、入力されたコンテキスト情報に対応するHMM系列を作成する。
 HMM記憶部2605に記憶されるHMMは、図29に示すHMM学習装置2900によって行われる。音声コーパス記憶部2901は、HMMモデルの作成に用いるための音声データ及びコンテキスト情報を含む音声コーパスを記憶している。
 分析部2902は、学習に用いる音声データを分析し、音響特徴パラメータを求める。ここでは、上述した音声分析装置100を用いて帯域群遅延パラメータ及び帯域群遅延補正パラメータを求め、スペクトルパラメータ、ピッチパラメータ、帯域雑音強度パラメータ等と併せて用いる。
 分析部2902は、図30に示すように、音声データの各音声フレームにおける音響特徴パラメータを求める。音声フレームは、ピッチ同期分析を用いる場合には各ピッチマーク時刻におけるパラメータとなり、また固定フレームレートの場合には隣接するピッチマークの音響特徴パラメータを補間して用いる方法などにより特徴パラメータが抽出される。
 音声の分析中心時刻(図30ではピッチマーク位置)に対応する音響特徴パラメータを、図1に示した音声分析装置100を用いて分析し、スペクトルパラメータ(メルLSP)、ピッチパラメータ(対数F0)、帯域雑音強度パラメータ(BAP)、帯域群遅延パラメータ及び帯域群遅延補正パラメータ(BGRD及びBGRDC)を抽出する。さらに、これらのパラメータの動的特徴量として、Δパラメータ及びΔパラメータを求め、並べて各時刻の音響特徴パラメータとする。
 HMM学習部2903は、このように求められた特徴パラメータから、HMMを学習する。図31は、HMM学習部2903が行う処理を示すフローチャートである。HMM学習部2903は、音素HMMを初期化し(S3101)、HSMMの学習により音素HMMを最尤推定し(S3102)、初期モデルである音素HMMを学習する。最尤推定の際は、連結学習により、HMMを文に対応させて連結した文全体のHMMと文に対応する音響特徴パラメータから各状態と特徴パラメータとの確率的な対応づけを行いつつ学習する。
 次に、HMM学習部2903は、音素HMMを用いてコンテキスト依存HMMを初期化する(S3103)。コンテキストとしては、上述したように当該音素、前後の音素環境、文内・アクセント句内等の位置情報、アクセント型、語尾上げするかどうかといった音韻環境及び言語情報を用いて、学習データに存在するコンテキストに対して、当該音素で初期化したモデルを用意する。
 そして、HMM学習部2903は、コンテキスト依存HMMに対して連結学習による最尤推定を適用して学習し(S3104)、決定木に基づく状態クラスタリングを適用する(S3105)。これにより、HMM学習部2903は、HMMの各状態・各ストリーム及び状態継続長分布に対して、決定木を構築する。そして、HMM学習部2903は、状態毎・ストリーム毎の分布から、最尤基準やMDL(Minimum Description Length)基準等によりモデルを分類する規則を学習し、図28に示した決定木を構築する。また、音声合成時には、学習データに存在しない未知のコンテキストが入力された場合にも、決定木を辿ることにより各状態の分布が選択され、対応するHMMを構築することができる。
 最後に、HMM学習部2903は、コンテキスト依存のクラスタリングしたモデルを最尤推定し、モデル学習が完了する(S3106)。クラスタリングの際に、各特徴量のストリーム毎に決定木を構築することにより、スペクトルパラメータ(メルLSP)、ピッチパラメータ(対数基本周波数)、帯域雑音強度(BAP)とともに、帯域群遅延及び帯域群遅延補正パラメータの各ストリームの決定木が構築される。また、状態毎の継続長を並べた多次元分布に対して決定木を構築することにより、HMM単位の継続長分布決定木が構築される。これら求められたHMM及び決定木がHMM記憶部2605に保存される。
 HMM系列作成部2602(図26)は、入力コンテキストとHMM記憶部2605に記憶されているHMMからHMM系列を作成し、継続長分布により定められるフレーム数に従って、各状態の分布を繰り返すことにより分布列を作成する。作成される分布列は出力するパラメータの個数の分布を並べた列である。
 パラメータ生成部2603は、HMMに基づく音声合成に広く用いられている静的・動的特徴量を考慮したパラメータ生成アルゴリズムにより各パラメータを生成することにより、滑らかなパラメータ系列を生成する。
 図32は、HMM系列・分布列の構築例を示す図である。まず、HMM系列作成部2602は、入力コンテキストのHMMの各状態・各ストリームの分布及び継続長分布を選択し、HMMの系列を構成する。コンテキストとして、「先行音素_当該音素_後続音素_音素位置_音素数_モーラ位置_モーラ数_アクセント型」を用い「赤」を合成する場合、2モーラ1型のため、最初の”a”の音素は、先行音素”sil”、当該音素”a”、後続音素”k”、音素位置1、音素数3、モーラ位置1、モーラ数2、アクセント型1型のため、”sil_a_k_1_3_1_2_1”といったコンテキストになる。
 HMMの決定木を辿る際は、各中間ノードに当該音素がaかどうか、アクセント型が1型かどうかといった質問が定められており、質問を辿る事によってリーフノードの分布が選択され、メルLSP,BAP,BGRD及びBGRDC、LogF0の各ストリーム及び継続長分布の分布がHMMの各状態に選択されて、HMM系列が構成される。このようにモデル単位(例えば音素)ごとのHMM系列及び分布列が構成され、それらを文全体を並べて入力文章に対応する分布列が作成される。
 パラメータ生成部2603は、作成した分布列から、静的・動的特徴量を用いたパラメータ生成アルゴリズムによりパラメータ系列を生成する。ΔとΔを動的特徴パラメータとして用いる場合、以下の方法により出力パラメータが求められる。時刻tの特徴パラメータoは、静的特徴パラメータcと、前後のフレームの特徴パラメータから定まる動的特徴パラメータΔc、Δを用いて、o=(c’、Δc’、Δ2c’)と表される。P(O|J,λ)を最大化する静的特徴量cからなるベクトルC=(c’、…、cT-1’)’は、0TMをT×M次のゼロベクトルとして、下式15の方程式を解くことによって求められる。
Figure JPOXMLDOC01-appb-M000015
 ただし、Tはフレーム数、Jは状態遷移系列である。特徴パラメータOと静的特徴パラメータCとの関係を、動的特徴を計算する行列Wによって関係づけると、O=WCと表される。Oは3TMのベクトル、CはTMのベクトルとなり、Wは、3TM×TMの行列である。そして、μ=(μs00’,…、μsJ-1Q-1’)’、Σ=diag(Σs00’,…、ΣsJ-1Q-1’)’と、各時刻における出力分布の平均ベクトル、対角共分散をすべて並べた文に対応する分布の平均ベクトル及び共分散行列としたとき、上式15は、下式16の方程式を解くことによって最適な特徴パラメータ系列Cが求められる。
Figure JPOXMLDOC01-appb-M000016
 この方程式は、コレスキー分解による方法により求められる。またRLSフィルタの時間更新アルゴリズムに用いられる解法と同様に、遅延時間を伴いつつ時間順にパラメータ系列を生成することもでき、低遅延に生成することも可能となる。なお、パラメータ生成の処理は、上述した方法に限らず、平均ベクトルを補間する方法等、その他分布列から特徴パラメータを生成する任意の方法を用いてもよい。
 波形生成部2604は、このように生成されたパラメータ系列から音声波形を生成する。例えば、波形生成部2604は、メルLSP系列、対数F0系列、帯域雑音強度系列、帯域群遅延パラメータ、及び帯域群遅延補正パラメータから音声を合成する。これらのパラメータを用いる場合、上述した音声合成装置1100又は音声合成装置1400を用いて波形生成される。具体的には、図23に示した逆フーリエ変換による構成、又は図25に示したボコーダ型の高速波形生成を用いて波形生成を行う。帯域雑音強度を用いない場合は、図12に示した逆フーリエ変換による音声合成装置1200、又は図14に示した音声合成装置1400を用いることになる。
 これらの処理により、入力コンテキストに対応した合成音声が得られ、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いて、音声波形の位相情報も反映させた、分析元音声に近い音声を合成することが可能となる。
 なお、上述したHMM学習部2903においては、特定話者のコーパスを用いて話者依存モデルを最尤推定する構成を記載したがこれに限定するものではない。HMM音声合成の多様性向上技術として用いられている話者適応技術、モデル補間技術、その他クラスタ適応学習等の異なる構成を用いることも可能であり、また、ディープニューラルネットを用いた分布パラメータ推定等、異なる学習方式が用いられてもよい。
 また、音声合成装置2600は、HMM系列作成部2602とパラメータ生成部2603の間に特徴パラメータ系列を選択する特徴パラメータ系列選択部をさらに有し、HMM系列を目標として分析部2902によって求められた音響特徴パラメータを候補として、その中から特徴パラメータを選択し、選択されたパラメータから音声波形を合成する構成であってもよい。このように、音響特徴パラメータの選択を行うことにより、HMM音声合成の過剰平滑化による音質劣化を抑えることができ、より実際の発声に近い自然な合成音声が得られるようになる。
 このように、音声合成の特徴パラメータとして、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、波形の再現性を高めつつ高速に波形生成することを可能にすることができる。
 なお、上述した音声分析装置100及び音声合成装置1100等の音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、本実施形態における音声分析装置及び各音声合成装置は、コンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、プログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD-ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、コンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスク又はCD-R、CD-RW、DVD-RAM、DVD-Rなどの記憶媒体などを適宜利用して実現することができる。なお、音声分析装置100及び音声合成装置1100等の音声合成装置は、一部又は全部がハードウェアによって構成されてもよいし、ソフトウェアによって構成されてもよい。
 また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (14)

  1.  入力音声の各音声フレームに対し、スペクトルパラメータを算出するスペクトルパラメータ算出部と、
     前記各音声フレームに対し、第1位相スペクトルを算出する位相スペクトル算出部と、
     前記第1位相スペクトルの周波数成分に基づいて、前記第1位相スペクトルから群遅延スペクトルを算出する群遅延スペクトル算出部と、
     前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する帯域群遅延パラメータ算出部と、
     前記帯域群遅延パラメータから再構築した第2位相スペクトルと、前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する帯域群遅延補正パラメータ算出部と、
     を有する音声処理装置。
  2.  前記帯域群遅延パラメータ算出部は、
     所定の周波数帯域における群遅延の平均値、又はスペクトル若しくはパワースペクトルで重み付けした群遅延の平均値を周波数帯域それぞれの帯域群遅延パラメータとして算出し、
     前記帯域群遅延補正パラメータ算出部は、
     低域から前記帯域群遅延パラメータに基づいて前記第2位相スペクトルを再構築し、前記第2位相スペクトルと、前記位相スペクトル算出部が算出した各周波数帯域の境界周波数における前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する
     請求項1に記載の音声処理装置。
  3.  入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成する振幅情報生成部と、
     前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成する位相情報生成部と、
     各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成する音声波形生成部と、
     を有する音声処理装置。
  4.  前記位相情報生成部は、
     時間領域の処理のみで位相制御された音源信号を生成する
     請求項3に記載の音声処理装置。
  5.  前記振幅情報生成部は、
     各時刻における前記スペクトルパラメータ系列から振幅スペクトルを算出し、
     前記位相情報生成部は、
     前記帯域群遅延パラメータ系列及び前記帯域群遅延補正パラメータ系列から位相スペクトルを算出し、
     前記音声波形生成部は、
     前記振幅スペクトル及び前記位相スペクトルに基づいて、各時刻の音声波形を生成し、生成した各時刻の前記音声波形を重畳合成することによって音声波形を生成する
     請求項3に記載の音声処理装置。
  6.  前記振幅情報と、所定の周波数帯域の雑音成分の比率を表す帯域雑音強度パラメータ系列から各周波数の雑音強度とに基づいて雑音成分スペクトルを算出する雑音成分スペクトル算出部と、
     前記振幅情報と、前記帯域雑音強度パラメータ系列から各周波数の周期成分スペクトルを算出する周期成分スペクトル算出部と、
     前記周期成分スペクトルと、前記帯域群遅延パラメータ系列及び前記帯域群遅延補正パラメータ系列から構築した位相スペクトルから周期成分波形を生成する周期波形生成部と、
     前記雑音成分スペクトルと、雑音信号に対応する位相スペクトルから雑音成分波形を生成する雑音成分波形生成部と、
     を有し、
     前記音声波形生成部は、
     前記周期成分波形及び前記雑音成分波形に基づいて、各時刻の音声波形を生成し、生成した各時刻の前記音声波形を重畳合成することによって音声波形を生成する
     請求項5に記載の音声処理装置。
  7.  位相シフトしたパルス信号を帯域分割した位相シフト帯域パルス信号を記憶する記憶部と、
     各時刻における音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータから、位相シフト帯域パルス信号の遅延時間を算出する遅延時間算出部と、
     前記帯域群遅延パラメータ、及び前記帯域群遅延パラメータから生成される位相情報を補正する帯域群遅延補正パラメータから境界周波数における位相を算出する位相算出部と、
     算出された各帯域の位相に基づいて、前記記憶部から対応する位相シフト帯域パルス信号を選択する選択部と、
     選択された位相シフト帯域パルス信号を、前記遅延時間に従って遅延させて重畳させることにより、位相シフトされた音源信号を生成する重畳部と、
     入力音声の各音声フレームに対して算出されたスペクトルパラメータに対応する声道フィルタを適用し、音声波形を出力する声道フィルタ部と
     を有する音声処理装置。
  8.  前記記憶部は、
     位相の主値を所定の段階に量子化した各位相による帯域パルス信号である位相シフト帯域パルス信号を記憶し、
     前記選択部は、
     前記帯域群遅延パラメータの各周波数帯域において、当該帯域の開始周波数における位相を前記帯域群遅延パラメータ及び前記帯域群遅延補正パラメータから算出し、前記帯域群遅延パラメータから整数化した遅延量を算出して、前記遅延量から群遅延を算出し、前記遅延量から算出した群遅延を傾きとして、前記開始周波数における位相を通る直線の周波数原点における位相値を算出し、算出した位相値の主値に対応する位相シフト帯域パルス信号を選択し、
     前記重畳部は、
     前記遅延量によって遅延させた位相ソフト帯域パルス信号を重畳する
     請求項7に記載の音声処理装置。
  9.  帯域分割された帯域雑音信号を記憶する帯域雑音信号記憶部
     をさらに有し、
     前記声道フィルタ部は、
     所定の周波数帯域の雑音成分の比率を表す帯域雑音強度パラメータの各帯域の強度に基づいて、前記帯域雑音信号から生成される各帯域の雑音信号、及び前記位相シフト帯域パルス信号を混合した混合音源信号に対し、スペクトルパラメータに対応する声道フィルタを適用する
     請求項7に記載の音声処理装置。
  10.  入力音声の各音声フレームに対して算出されたスペクトルパラメータ、前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ、及び前記帯域群遅延パラメータから生成される位相スペクトルを補正する帯域群遅延補正パラメータを用いて学習した統計モデルを記憶する統計モデル記憶部と、
     任意の入力テキストに対応するコンテキスト情報、及び前記統計モデル記憶部に記憶されている統計モデルに基づいて、入力テキストに対応するスペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータを生成するパラメータ生成部と、
     前記パラメータ生成部が生成したスペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータから波形を生成する波形生成部と、
     を有する音声処理装置。
  11.  入力音声の各音声フレームに対し、スペクトルパラメータを算出する工程と、
     前記各音声フレームに対し、第1位相スペクトルを算出する工程と、
     前記第1位相スペクトルの周波数成分に基づいて、前記第1位相スペクトルから群遅延スペクトルを算出する工程と、
     前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する工程と、
     前記帯域群遅延パラメータから再構築した第2位相スペクトルと、前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する工程と、
     を含む音声処理方法。
  12.  入力音声の各音声フレームに対し、スペクトルパラメータを算出するステップと、
     前記各音声フレームに対し、第1位相スペクトルを算出するステップと、
     前記第1位相スペクトルの周波数成分に基づいて、前記第1位相スペクトルから群遅延スペクトルを算出するステップと、
     前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出するステップと、
     前記帯域群遅延パラメータから再構築した第2位相スペクトルと、前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出するステップと、
     をコンピュータに実行させるための音声処理プログラム。
  13.  入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成する工程と、
     前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成する工程と、
     各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成する工程と、
     を含む音声処理方法。
  14.  入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成するステップと、
     前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成するステップと、
     各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成するステップと、
     をコンピュータに実行させるための音声処理プログラム。
PCT/JP2015/076361 2015-09-16 2015-09-16 音声処理装置、音声処理方法及び音声処理プログラム WO2017046904A1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN202210141126.5A CN114464208A (zh) 2015-09-16 2015-09-16 语音处理装置、语音处理方法以及存储介质
CN202210403587.5A CN114694632A (zh) 2015-09-16 2015-09-16 语音处理装置
PCT/JP2015/076361 WO2017046904A1 (ja) 2015-09-16 2015-09-16 音声処理装置、音声処理方法及び音声処理プログラム
CN201580082452.1A CN107924686B (zh) 2015-09-16 2015-09-16 语音处理装置、语音处理方法以及存储介质
JP2017540402A JP6496030B2 (ja) 2015-09-16 2015-09-16 音声処理装置、音声処理方法及び音声処理プログラム
US15/898,337 US10650800B2 (en) 2015-09-16 2018-02-16 Speech processing device, speech processing method, and computer program product
US16/841,833 US11170756B2 (en) 2015-09-16 2020-04-07 Speech processing device, speech processing method, and computer program product
US16/841,839 US11348569B2 (en) 2015-09-16 2020-04-07 Speech processing device, speech processing method, and computer program product using compensation parameters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/076361 WO2017046904A1 (ja) 2015-09-16 2015-09-16 音声処理装置、音声処理方法及び音声処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/898,337 Continuation US10650800B2 (en) 2015-09-16 2018-02-16 Speech processing device, speech processing method, and computer program product

Publications (1)

Publication Number Publication Date
WO2017046904A1 true WO2017046904A1 (ja) 2017-03-23

Family

ID=58288321

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/076361 WO2017046904A1 (ja) 2015-09-16 2015-09-16 音声処理装置、音声処理方法及び音声処理プログラム

Country Status (4)

Country Link
US (3) US10650800B2 (ja)
JP (1) JP6496030B2 (ja)
CN (3) CN114464208A (ja)
WO (1) WO2017046904A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200110881A (ko) * 2019-03-18 2020-09-28 한국전자통신연구원 비음수 행렬 인수분해를 이용하는 데이터 증강 방법 및 장치
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016200391A1 (en) * 2015-06-11 2016-12-15 Interactive Intelligence Group, Inc. System and method for outlier identification to remove poor alignments in speech synthesis
WO2017046904A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
WO2020052756A1 (de) * 2018-09-12 2020-03-19 Ask Industries Gmbh Verfahren zum betrieb einer kraftfahrzeugseitigen audioausgabeeinrichtung
CN109727604B (zh) * 2018-12-14 2023-11-10 上海蔚来汽车有限公司 用于语音识别前端的频域回声消除方法及计算机储存介质
CN110415722B (zh) * 2019-07-25 2021-10-08 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN110535575B (zh) * 2019-08-01 2021-05-14 电子科技大学 一种计算并补偿i/q信号线性相位失衡的方法
DE102019220091A1 (de) * 2019-12-18 2021-06-24 GiaX GmbH Vorrichtung und verfahren zum erfassen von gruppenlaufzeitinformationen und vorrichtung und verfahren zum senden eines messsignals über ein übertragungsmedium
CN111833843B (zh) * 2020-07-21 2022-05-10 思必驰科技股份有限公司 语音合成方法及***
CN112634914B (zh) * 2020-12-15 2024-03-29 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法
CN112949294B (zh) * 2021-02-05 2022-09-30 国家基础地理信息中心 湿延迟数据文本的生成方法、装置、设备及存储介质
CN115295024A (zh) * 2022-04-11 2022-11-04 维沃移动通信有限公司 信号处理方法、装置、电子设备及介质
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219200A (ja) * 1998-01-30 1999-08-10 Sony Corp 遅延検出装置及び方法、並びに音声符号化装置及び方法
WO2014021318A1 (ja) * 2012-08-01 2014-02-06 独立行政法人産業技術総合研究所 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2170377B (en) * 1985-01-29 1988-12-14 Plessey Co Plc Voice synthesis module
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
EP1104101A3 (en) * 1999-11-26 2005-02-02 Matsushita Electric Industrial Co., Ltd. Digital signal sub-band separating / combining apparatus achieving band-separation and band-combining filtering processing with reduced amount of group delay
JP4166405B2 (ja) 2000-03-06 2008-10-15 独立行政法人科学技術振興機構 駆動信号分析装置
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP4406440B2 (ja) * 2007-03-29 2010-01-27 株式会社東芝 音声合成装置、音声合成方法及びプログラム
JP5159279B2 (ja) 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
JP5038995B2 (ja) 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
BE1019445A3 (fr) * 2010-08-11 2012-07-03 Reza Yves Procede d'extraction d'information audio.
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
EP2673880B1 (en) * 2011-02-07 2017-09-06 Qorvo US, Inc. Group delay calibration method for power amplifier envelope tracking
JP5926490B2 (ja) * 2011-02-10 2016-05-25 キヤノン株式会社 音声処理装置
US8891699B2 (en) * 2011-03-25 2014-11-18 Broadcom Corporation Characterization and assessment of communication channel average group delay variation
JP6011039B2 (ja) 2011-06-07 2016-10-19 ヤマハ株式会社 音声合成装置および音声合成方法
JP2013164572A (ja) * 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP5631915B2 (ja) 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
JP6347536B2 (ja) * 2014-02-27 2018-06-27 学校法人 名城大学 音合成方法及び音合成装置
WO2017046904A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219200A (ja) * 1998-01-30 1999-08-10 Sony Corp 遅延検出装置及び方法、並びに音声符号化装置及び方法
WO2014021318A1 (ja) * 2012-08-01 2014-02-06 独立行政法人産業技術総合研究所 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200110881A (ko) * 2019-03-18 2020-09-28 한국전자통신연구원 비음수 행렬 인수분해를 이용하는 데이터 증강 방법 및 장치
KR102520240B1 (ko) * 2019-03-18 2023-04-11 한국전자통신연구원 비음수 행렬 인수분해를 이용하는 데이터 증강 방법 및 장치
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法

Also Published As

Publication number Publication date
JP6496030B2 (ja) 2019-04-03
CN114464208A (zh) 2022-05-10
CN114694632A (zh) 2022-07-01
US11170756B2 (en) 2021-11-09
JPWO2017046904A1 (ja) 2018-03-22
US11348569B2 (en) 2022-05-31
US20200234692A1 (en) 2020-07-23
CN107924686B (zh) 2022-07-26
US10650800B2 (en) 2020-05-12
CN107924686A (zh) 2018-04-17
US20180174571A1 (en) 2018-06-21
US20200234691A1 (en) 2020-07-23

Similar Documents

Publication Publication Date Title
JP6496030B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US11423874B2 (en) Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
US9058807B2 (en) Speech synthesizer, speech synthesis method and computer program product
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
US9343060B2 (en) Voice processing using conversion function based on respective statistics of a first and a second probability distribution
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
Tamura et al. One sentence voice adaptation using GMM-based frequency-warping and shift with a sub-band basis spectrum model
Sasou Glottal inverse filtering by combining a constrained LP and an HMM-based generative model of glottal flow derivative
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15904093

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017540402

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15904093

Country of ref document: EP

Kind code of ref document: A1