DE60202161T2 - Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache - Google Patents

Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache Download PDF

Info

Publication number
DE60202161T2
DE60202161T2 DE60202161T DE60202161T DE60202161T2 DE 60202161 T2 DE60202161 T2 DE 60202161T2 DE 60202161 T DE60202161 T DE 60202161T DE 60202161 T DE60202161 T DE 60202161T DE 60202161 T2 DE60202161 T2 DE 60202161T2
Authority
DE
Germany
Prior art keywords
spectrum envelope
voice
harmonic components
resonances
vibration waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60202161T
Other languages
English (en)
Other versions
DE60202161D1 (de
Inventor
Yasuo Hamamatsu-shi Yoshioka
Bonada Jordi Sanjaume
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YAHAMA CORP HAMAMATSU
Original Assignee
YAHAMA CORP HAMAMATSU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YAHAMA CORP HAMAMATSU filed Critical YAHAMA CORP HAMAMATSU
Publication of DE60202161D1 publication Critical patent/DE60202161D1/de
Application granted granted Critical
Publication of DE60202161T2 publication Critical patent/DE60202161T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • Hintergrund der Erfindung
  • A) Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine Stimmensynthesevorrichtung und im speziellen eine Stimmensynthesevorrichtung zum Synthetisieren bzw. zum künstlichen Herstellen von Stimmen eines Liedes, das von einem Sänger gesungen wird.
  • B) Beschreibung des verwandten Standes der Technik
  • Menschliche Stimmen bestehen aus Phonemen, von denen jedes aus einer Vielzahl von Formanten gebildet werden. Beim Synthetisieren von Stimmen eines Liedes, das durch einen Sänger gesungen wird, werden zuerst alle Formanten, die all diejenigen Phoneme bilden, die von einem Sänger erzeugt werden können, generiert und synthetisiert, um jedes Phonem zu formen. Als Nächstes wird eine Vielzahl der erzeugten Phoneme sequenziell bzw. in Folge gekoppelt, und Tonhöhen werden in Einklang mit der Melodie gesteuert, um dadurch Stimmen eines von einem Sänger gesungenen Liedes zu synthetisieren. Dieses Verfahren ist nicht nur auf menschliche Stimmen anwendbar, sondern auch auf musikalische Klänge, die durch ein musikalisches Instrument, wie beispielsweise ein Blasinstrument, erzeugt werden.
  • Eine Stimmensynthesevorrichtung, welche dieses Verfahren verwendet, ist bereits bekannt. Beispielsweise offenbart das Japanische Patent Nr. 2504172 eine Formantenklang-erzeugende Vorrichtung, welche einen Formantenklang erzeugen kann, der sogar eine hohe Tonlage aufweisen kann, ohne unnötige Spektren zu erzeugen.
  • Die oben beschriebene formantenklang-erzeugende Vorrichtung und die herkömmliche Stimmen synthetisierende bzw. Stimmen erzeugende Vorrichtung können keine individuellen Charakteristiken wie beispielsweise die Stimmenqualität, Eigentümlichkeit und ähnliches jeder Person reproduzieren, falls nur die Tonhöhe verändert wird, obwohl sie pseudonymartig Stimmen eines Liedes synthetisieren können, welches von einer allgemeinen Person gesungen wird.
  • Ein weiteres Beispiel einer bekannten Stimmensynthesevorrichtung wird in P. Cano et al.; "Voice Morphing for impersonating in Karaoke Applications", Proceedings of the International Computer Music Conference 2000, Berlin, Deutschland (2000), S. 1–4, offenbart.
  • Zusammenfassung der Erfindung
  • Es ist eine Aufgabe der vorliegenden Erfindung, so wie sie in den beigefügten Ansprüchen beansprucht wird, eine Stimmensynthesevorrichtung bereitzustellen, welche in der Lage ist, Stimmen eines von einem Sänger gesungenen Liedes zu synthetisieren und individuelle Charaktereigenschaften wie beispielsweise die Klangqualität, Eigentümlichkeit usw. jedes Sängers zu reproduzieren.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, eine Stimmensynthesevorrichtung bereitzustellen, welche in der Lage ist, realistischere Stimmen eines von einem Sänger gesungenen Liedes zu synthetisieren und das Lied in einem natürlichen Zustand bzw. auf natürliche Art zu singen.
  • Gemäß eines Aspekts der vorliegenden Erfindung wird eine Stimmenanalysenvorrichtung bereitgestellt, welche folgendes umfasst: erste Analysemittel zum Analysieren bzw. Zerlegen einer Stimme in harmonische Komponenten und nicht-harmonische Komponenten und zweite Analysemittel zum Analysieren bzw. Zerlegen einer Größenspektrumumhüllenden der harmonischen Komponente in eine Größenspektrumumhüllende einer Stimmbandschwingungswellenform, Resonanzen sowie eine Spektrumumhüllende einer Differenz zwischen der Größenspektrumumhüllenden der harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen; und Mittel zum Speichern der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden der Stimmbandschwingungswellenform, der Resonanzen sowie der Spektrumumhüllenden der Differenz.
  • Gemäß eines anderen Aspekts der Erfindung ist eine Stimmensynthesevorrichtung vorgesehen, welche umfasst: Mittel zum Speichern einer Größenspektrumumhüllenden einer Stimmbandschwingungswellenform, Resonanzen und einer Spektrumumhüllenden einer Differenz zwischen einer Größenspektrumumhüllenden einer harmonischen Komponente aus einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen, jeweils analysiert bzw. zerlegt aus den harmonischen Komponenten, die aus einer Stimme analysiert bzw. zerlegt worden sind, und nicht-harmonischen Komponenten, welche aus der Stimme analysiert bzw. zerlegt worden sind; Mittel zur Eingabe von Information über eine zu synthetisierende Stimme; Mittel zum Erzeugen einer flachen Größenspektrumumhüllenden; und Mittel zum Hinzufügen der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden für die Stimmbandschwingungswellenform, der Resonanzen und der Spektrumumhüllenden der Differenz, die jeweils aus den Mitteln zum Speichern ausgelesen worden sind, zu der flachen Größenspektrumumhüllenden in Übereinstimmung mit der eingegebenen Information.
  • Gemäß eines weiteren Aspekts der Erfindung ist eine Stimmensynthesevorrichtung vorgesehen, welche umfasst: erste Analysemittel zum Analysieren bzw. Zerlegen einer Stimme in harmonische Komponenten und nicht-harmonische Komponenten; zweite Analysemittel zum Analysieren bzw. Zerlegen einer Größenspektrumumhüllenden der harmonischen Komponenten in eine Größenspektrumumhüllende einer Stimmbandschwingungswellenform, Resonanzen sowie eine Spektrumumhüllende einer Differenz zwischen der Größenspektrumumhüllenden der harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen, Mittel zum Speichern der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden der Stimmbandschwingungswellenform, der Resonanzen sowie der Spektrumumhüllenden der Differenz; Mittel zur Eingabe von Information über eine zu synthetisierende Stimme; Mittel zum Erzeugen einer flachen Größenspektrumumhüllenden; und Mittel zum Hinzufügen der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden für die Stimmbandschwingungswellenform, der Resonanzen und der Spektrumumhüllenden der Differenz, die jeweils aus den Mitteln zum Speichern ausgelesen wurden, zu der flachen Größenspektrumumhüllenden in Übereinstimmung mit der eingegebenen Information.
  • Wie oben ist es möglich, eine Stimmensynthesevorrichtung vorzusehen, welche in der Lage ist, menschliche Musikklänge zu synthetisieren und individuelle Charaktereigenschaften wie beispielsweise die Stimmqualität, Eigentümlichkeit usw. jeder Person wiederzugeben bzw. zu reproduzieren.
  • Es ist auch möglich, eine Stimmensynthesevorrichtung vorzusehen, welche in der Lage ist, realistische Stimmen eines von einem Sänger gesungenen Liedes zu synthetisieren und ein Lied auf natürliche Art zu singen.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Diagramm, das eine Stimmenanalyse nach einer Ausführungsform der Erfindung darstellt.
  • 2 ist ein Graph, der eine Spektrumumhüllende harmonischer Komponenten zeigt;
  • 3 ist eine Zeichnung, die eine Größenspektrumumhüllende inharmonischer Komponenten zeigt;
  • 4 ist ein Graph, der Spektrumumhüllende einer Stimmbandschwingungswellenform zeigt.
  • 5 ist ein Graph, der eine Änderung in der Anregungskurve zeigt.
  • 6 ist ein Graph, der die durch VocalTractResonance gebildete Spektrumumhüllenden zeigt.
  • 7 ist ein Graph, der eine Spektrumumhüllende einer ChestResonance-Wellenform zeigt.
  • 8 ist ein Graph, der die Frequenzcharakteristiken der Resonanzen zeigt.
  • 9 ist ein Graph, der ein Beispiel von SpectralShapeDifference zeigt.
  • 10 ist ein Graph, der die Größenspektrumumhüllende der harmonischen Komponenten HC aus 2 zeigt, welche in EpR-Parameter zerlegt worden sind.
  • 11A und 11B sind Graphen, die Beispiele der Gesamtspektrumumhüllenden zeigen, wenn EGain von ExcitationCurve aus 10 geändert wird.
  • 12A und 12B sind Graphen, die Beispiele der Gesamtspektrumumhüllenden zeigen, wenn ESlope von ExcitationCurve aus 10 geändert wird.
  • 13A und 13B sind Graphen, die Beispiele der Gesamtspektrumumhüllenden zeigen, wenn ESlopeDepth von ExcitationCurve aus 10 geändert wird.
  • 14A bis 14C sind Graphen, welche eine Änderung in EpR zusammen mit einer Änderung in Dynamics zeigen.
  • 15 ist ein Graph, der eine Änderung in den Frequenzcharakteristiken zeigt, wenn Opening geändert wird.
  • 16 ist ein Blockdiagramm eines lied-synthetisierenden Antriebs bzw. Moduls einer Stimmensynthesevorrichtung.
  • Beschreibung der bevorzugten Ausführungsformen
  • 1 ist ein Diagramm, das eine Stimmenanalyse bzw. -zerlegung zeigt.
  • Stimmen, die in eine Stimmeneingabeeinheit 1 eingegeben werden, werden an eine Stimmenanalyse- bzw. zerlegeeinheit 2 gesendet. Die Stimmenanalyseeinheit 2 analysiert bzw. zerlegt die gelieferten Stimmen zu jedem konstanten Zeitraum. Die Stimmenanalyseeinheit 2 zerlegt eine Eingangsstimme in harmonische Komponenten HC und nicht-harmonische Komponenten US, beispielsweise durch Spektralmodulierungssynthese (SMS).
  • Die harmonischen Komponenten HC sind Komponenten, die mittels einer Summe von Sinuswellen mit bestimmten Frequenzen und Amplituden bzw. Größen dargestellt werden können. In 2 gezeigte Punkte deuten die Frequenz und Größe (Sinuskomponenten) einer Eingangsstimme an, die man als harmonische Komponenten HC erhält. In dieser Ausführungsform wird ein Satz gerader Linien, welche diese Punkte verbindet, als eine Größenspektrumumhüllende verwendet. Die Größenspektrumumhüllende ist in 2 als gestrichelte Linie gezeigt. Eine Basis- bzw. Grundfrequenz Pitch lässt sich zur gleichen Zeit erhalten, zu der man die harmonischen Komponenten HC erhält.
  • Die nicht-harmonischen Komponenten UC sind Rauschkomponenten der Eingangsstimme, die nicht in harmonische Komponenten HC zerlegt werden können. Die nicht-harmonischen Komponenten UC sind beispielsweise die in 3 gezeigten. Der obere Graph in 3 zeigt ein Größenspektrum, das repräsentativ für die Größe der nicht-harmonischen Komponenten UC ist, und der untere Graph zeigt ein Phasenspektrum, welches repräsentativ für die Phase der nicht-harmonischen Komponenten UC ist. In dieser Ausführungsform sind die Größen und Phasen der nicht-harmonischen Komponenten UC selbst als Rahmeninformation FL aufgezeichnet worden.
  • Die Größenspektrumumhüllende der durch die Analyse bzw. Zerlegung extrahierten harmonischen Komponenten wird in eine Vielzahl von Anregungs- plus Resonanz(EpR)-Parametern zerlegt, um spätere Verfahrensschritte zu erleichtern.
  • In dieser Ausführungsform umfassen die EpR-Parameter vier Parameter: einen ExcitationCurve (Anregungskurven)-Parameter, einen VocalTractResonance (Vokaltraktresonanz)-Parameter, einen ChestResonance (Brustresonanz)-Parameter und einen SpectralShapeDifferential (Spektralformunterschieds)-Parameter. Andere EpR-Parameter können ebenfalls verwendet werden.
  • Wie weiter unten ausgeführt, deutet die ExcitationCurve eine Spektrumumhüllende einer Stimmbandschwingungswellenform an, und die VocalTractResonance ist eine Näherung der Spektrumsform (Formanten), die in einem Vokaltrakt als eine Kombination verschiedener Resonanzen gebildet wird. Die ChestResonance ist, im Gegensatz zu den Formanten der VocalTractResonance, eine Näherung der Formanten niedriger Frequenz, welche als eine Kombination verschiedener Resonanzen (insbesondere Brustresonanzen) gebildet werden.
  • SpectralShapeDifferential stellt die Komponenten dar, welche sich nicht durch die oben beschriebenen drei EpR-Parameter ausdrücken lassen. Insbesondere erhält man SpectralShapeDifferential durch Subtrahieren von ExcitationCurve, VocalTractResonance und ChestResonance von der Größenspektrumumhüllenden.
  • Die nicht-harmonischen Komponenten UC und die EpR-Parameter werden in einer Speichereinheit 3 als Teile der Rahmeninformation FL1 bis FLn gespeichert.
  • 4 ist ein Graph, der die Spektrumumhüllende (ExcitationCurve) einer Stimmbandschwingungswellenform zeigt. Die ExcitationCurve korrespondiert zu der Größenspektrumumhüllenden einer Stimmbandschwingungswellenform.
  • Im speziellen ist die ExcitationCurve aus drei EpR-Parametern aufgebaut: aus einee EGain [dB] Darstellenden der Größe einer Stimmbandschwingungswel lenform; einer ESlope-Darstellenden einer Steigung der Spektrumumhüllenden der Stimmbandschwingungswellenform; und aus einer ESlopeDepth-Darstellenden einer Tiefe bzw. eines Abstands vom Maximalwert zum Minimalwert der Spektrumumhüllenden der Stimmbandschwingungswellenform.
  • Durch Nutzung dieser drei EpR-Parameter kann die Größenspektrumumhüllende (ExcitationCurve Mag dB) der ExcitationCurve bei einer Frequenz fHz durch die folgende Gleichung dargestellt werden:
  • Figure 00080001
  • Aus dieser Gleichung (a) wird es verständlich, dass EGain die Signalgröße bzw. Signalstärke der Größenspektrumumhüllenden von ExcitationCurve tatsächlich ändern kann, und ESlope und ESlopeDepth können die Frequenzcharakteristiken (Steigung) der Signalhöhe der Größenspektrumumhüllenden von ExcitationCurve steuern.
  • 5 ist ein Graph, der eine Änderung in ExcitationCurve aus Gleichung (a) zeigt. ExcitationCurve bewegt sich, startend von EGain [dB] bei einer Frequenz f = 0 Hz, entlang einer Asymptote von EGain – ESlopeDepth [dB]. ESlope bestimmt die Steigung von ExcitationCurve.
  • Als Nächstes wird beschrieben, wie EGain, ESlope und ESlopeDepth berechnet werden. Durch Extrahieren bzw. Herauslösen der EpR-Parameter aus der Größenspektrumumhüllenden der ursprünglichen harmonischen Komponenten HC werden die ersten der oben beschriebenen drei EpR-Parameter berechnet.
  • Beispielsweise werden EGain, ESlope und ESlopeDepth nach der folgenden Methode berechnet.
  • Zuerst wird die maximale Größe der ursprünglichen harmonischen Komponenten HC bei einer Frequenz von 250 Hz oder weniger auf MAX [dB] gesetzt, und MIN wird auf –100[dB] gesetzt.
  • Als Nächstes werden die Größe und Frequenz der i-ten Sinuskomponente der ursprünglichen harmonischen Komponenten HC bei einer Frequenz von 10.000 Hz auf Sin Mag[1] [dB] und Sin Freq[i] [Hz] gesetzt, und die Zahl der Sinuskomponenten bei der Frequenz von 10000 Hz wird auf N gesetzt. Die Mittelwerte werden aus den folgenden Gleichungen (b1) und (b2) berechnet, wobei Sin Freq[0] die niedrigste Frequenz der Sinuskomponenten darstellt:
  • Figure 00090001
  • Durch Verwendung der Gleichungen (b1) und (b2) ergeben sich die folgenden Gleichungen: a = log(MAX – MIN) (b3) b = (a – YAverage)/XAverage (b4) A = ea (b5) B = –b (b6) A0 = A·e–B·SinFreq[0] (b7)
  • Durch Nutzung der Gleichungen (b3) bis (b7) werden EGain, ESlope und ESlopeDepth mittels der folgenden Gleichungen (b8), (b9) und (b10) berechnet: EGain = A0 + MIN (b8) ESlopeDepth = A0 (b9) ESlope = B (b10)
  • Die EpR-Parameter aus EGain, ESlope und ESlopeDepth können in der oben beschriebenen Weise berechnet werden.
  • 6 ist ein Graph, der eine Spektrumumhüllende zeigt, welche durch VocalTractResonance gebildet wird. VocalTractResonance ist eine Näherung der Spektrumsform (Formanten), welche durch einen Vokaltrakt als eine Kombination verschiedener Resonanzen gebildet wird.
  • Beispielsweise korrespondiert ein Unterschied zwischen Phonemen so wie "a" und "i", die durch einen Menschen gebildet werden, mit einem Unterschied der Formen von Bergen einer Größenspektrumumhüllenden, welcher hauptsächlich durch eine Änderung in der Form bzw. im Aussehen des Vokaltrakts erzeugt wird. Dieser Berg wird als Formant bezeichnet. Eine Näherung der Formanten kann mittels einer Nutzung von Resonanzen erlangt werden.
  • In dem in 6 gezeigten Beispiel werden Formanten durch das Verwenden von 11 Resonanzen angenähert. Die i-te Resonanz wird durch Resonance[i] dargestellt, und die Größe der i-ten Resonanz bei einer Frequenz f wird durch Resonance[i] Mag(f) dargestellt bzw. repräsentiert. Die Größenspektrumumhüllende von VocalTractResonance lässt sich aus der folgenden Gleichung (c1) erhalten: YocalTractResonannceMagdB(fHz) = TodB(Σ iResonance[i]Maglinear(fHz)) (c1)
  • Durch Darstellen der Phase der i-ten Resonanz durch Resonance[i]Phase[f], kann die Phase (Phasenspektrum) von VocalTractResonance durch die folgende Gleichung (c2) dargestellt werden: VocalTractResonanncePhase(fHz) = Σ iResonance[i]Phase(fHz) (c2)
  • Jede Resonance[i] kann durch drei EpR-Parameter ausgedrückt werden: eine Mittenfrequenz F, eine Bandbreite bzw. Bandweite Bw und eine Amplitude Amp. Wie eine Resonanz berechnet wird, wird weiter unten beschrieben.
  • 7 ist ein Graph, der eine Spektrumumhüllende (ChestResonance) einer Brustresonanzwellenform. ChestResonance wird mittels einer Brustresonanz gebildet und durch Berge (Formanten) der Größenspektrumumhüllenden bei kleinen Frequenzen dargestellt, welche nicht durch VocalTractResonance dar gestellt werden können, wobei die Berge (Formanten) durch Nutzen von Resonanzen gebildet werden.
  • Die i-te Resonanz der Brustresonanzen wird durch CResonance[i] dargestellt bzw. repräsentiert, und die Größe der i-ten Resonanz bei einer Frequenz f wird durch CResonance[i] Mag(f) dargestellt. Die Größenspektrumumhüllende von ChestResonance kann durch die folgende Gleichung (d) gebildet werden: ChestResonanceMagdB(fHz) = TodB(Σ iCResonance[Maglinear(fHz)) (d)
  • Jede CResonance[i] kann durch drei EpR-Parameter ausgedrückt werden: eine Mittenfrequenz F, eine Bandbreite bzw. Bandweite Bw und eine Amplitude Amp. Wie eine Resonanz berechnet wird, wird weiter unten beschrieben.
  • Jede Resonanz (Resonance[i], CResonance[i] aus VocalTractResonance und ChestResonance) kann durch drei EpR-Parameter definiert werden: die Mittenfrequenz F, Bandbreite bzw. Bandweite Bw und Amplitude Amp.
  • Die Transferfunktion einer z-Fläche einer Resonanz, welche die Mittenfrequenz F und eine Bandbreite Bw aufweist, kann durch die folgende Gleichung (e1) ausgedrückt werden:
    Figure 00110001
    wobei:z = ej2πfT (e2) T = Samplingperiod (e3) C = –e–2πfT (e4) B = 2e–2πfTcos(2πfT) (e5) A = 1 – B – C (e6)
  • Diese Frequenzantwort kann durch die folgende Gleichung (e7) ausgedrückt werden:
  • Figure 00120001
  • 8 ist ein Graph, der Beispiele der Frequenzcharakteristiken von Resonanzen zeigt. In diesen Beispielen betrug die Resonanzmittenfrequenz F 1500 Hz, und die Bandbreite Bw und Amplitude Amp wurden geändert.
  • Wie in 8 gezeigt, wird die Amplitude |T(f)| bei einer Frequenz f, die der Mittenfrequenz F entspricht, maximal. Dieser Maximalwert ist die Resonanzamplitude Amp. Resonance (f) (linearer Wert) einer Resonanz mit Mittenfrequenz F, Bandbreite Bw und Amplitude Amp (linearer Wert), welche durch Gleichung (e7) dargestellt wird, kann durch die folgende Gleichung (e8) ausgedrückt werden:
  • Figure 00120002
  • Die Größe der Resonanz bei einer Frequenz f kann dadurch mittels der folgenden Gleichung (e9), und die Phase kann mittels der folgenden Gleichung (e10) ausgedrückt werden. ResonanceMaglinear(fHz) = |Resonance(fHz)| (e9) ResonancePhase(fHz) = ∠Resonance(fHz) (e10)
  • 9 zeigt ein Beispiel von SpectralShapeDifferential. SpectralShapeDifferential korrespondiert zu den Komponenten der Größenspektrumumhüllenden der ursprünglichen Eingangsstimme, welche sich nicht durch ExcitationCurve, VocalTractResonance und ChestResonance ausdrücken lassen.
  • Durch Darstellen dieser Komponenten durch SpectralShapeDifferential Mag(f)[dB], wird der folgenden Gleichung (f) genügt: OrgMagdB(fHz) = ExcitationCurveMagdB(fHz) + ChestResonanceMagdB(fHz) + YocalTractResonanceMagdB(fHz) + SpetralShapeDifferentialMagdB(fHz) (f)
  • Und zwar ist SpectralShapeDifferential eine Differenz zwischen den anderen EpR-Parametern und den ursprünglichen harmonischen Komponenten, wobei diese Differenz aus einem konstanten Frequenzinteivall berechnet wird. Beispielsweise wird die Differenz in einem 50 Hz-Intervall berechnet, und eine geradlinige Interpolation wird zwischen benachbarten Punkten durchgeführt.
  • Die Größenspektrumumhüllende der harmonischen Komponenten der ursprünglichen Eingangsstimme kann aus Gleichung (f) unter Nutzung der EpR-Parameter reproduziert werden.
  • Ungefähr die gleiche ursprüngliche Eingangsstimme kann dadurch wiedererlangt werden, dass nicht-harmonische Komponenten zur Größenspektrumumhüllenden der reproduzierten bzw. wiederhergestellten harmonischen Komponenten hinzuaddiert werden.
  • 10 ist ein Graph, der die Größenspektrumumhüllende der harmonischen Komponenten HC aus 2, zerlegt in EpR-Parameter zeigt.
  • 10 zeigt: die zu Resonanzen mit einer Mittenfrequenz höher als der zweite in 6 gezeigte Berg korrespondierende VocalTractResonance; ChestResonance, die zu der geringsten in 7 gezeigten Mittenfrequenz aufweisenden Resonanz korrespondiert; SpectralShapeDifterential, welche mittels einer gepunkteten Linie in 9 angedeutet ist; und ExcitationCurve, welche mittels einer fett-gestrichelten Linie angedeutet ist.
  • Die zu VocalTractResonance und ChestResonance korrespondierenden Resonanzen werden zur ExcitationCurve addiert. SpectralShapeDifferential weist einen Differenzwert von 0 zu ExcitationCurve auf.
  • Als Nächstes wird beschrieben, wie die Gesamtspektrumumhüllende sich ändert, wenn ExcitationCurve geändert wird.
  • 11A und 11B zeigen Beispiele der Gesamtspektrumumhüllenden, wenn EGain aus ExcitationCurve aus 10 geändert wird.
  • Wie in 11A gezeigt, wird die Gesamtzunahme (Größe) der Gesamtspektrumumhüllenden groß, wenn EGain groß gemacht wird. Da sich jedoch die Form der Spektrumumhüllenden nicht ändert, wird die Klangfarbe nicht geändert. Nur das Volumen kann daher klein gemacht werden.
  • 12A und 12B zeigen Beispiele der Gesamtspektrumumhüllenden, wenn ESlope aus ExcitationCurve aus 10 geändert wird.
  • Wie in 12A gezeigt, ändert sich, wenn ESlope vergrößert wird, die Form der Spektrumumhüllenden, so dass sich die Klangfarbe ändert, obwohl sich die Zunahme (Größe) der Gesamtspektrumumhüllenden nicht ändert. Durch Setzen von ESlope auf einen hohen Wert kann man die unklare Klangfarbe mit einem unterdrückten Hochfrequenzbereich erhalten.
  • Wie in 12 gezeigt, ändert sich, wenn ESlope klein gemacht wird, die Form der Spektrumumhüllenden, so dass sich die Klangfarbe ändert, obwohl sich der Zuwachs (Größe) der Gesamtspektrumumhüllenden nicht ändert. Durch Setzen von ESlope auf einen kleinen Wert, kann man helle Klangfarben mit einem verbesserten Hochfrequenzbereich erhalten.
  • 13A und 13B zeigen Beispiele der Gesamtspektrumumhüllenden, wenn ESlopeDepth aus ExcitationCurve aus 10 geändert wird.
  • Wenn, wie in 13A gezeigt, ESlopeDepth groß gemacht wird, ändert sich die Form bzw. das Aussehen der Spektrumumhüllenden, so dass sich die Klangfarbe ändert, obwohl der Zuwachs (Größe) der Gesamtspektrumumhüllenden sich nicht ändert. Durch Setzen von ESlopeDepth auf einen großen Wert, kann man die unklare Klangfarbe mit einem unterdrückten Hochfrequenzbereich erhalten.
  • Wenn, wie in 13B gezeigt, ESlopeDepth klein gemacht wird, ändert sich die Form der Spektrumumhüllenden, so dass sich die Klangfarbe ändert, obwohl sich der Zuwachs (Größe) der Gesamtspektrumumhüllenden nicht ändert. Durch Setzen von ESlopeDepth auf einen kleinen Wert, kann man helle Klangfarben mit einem verbesserten Hochfrequenzbereich erhalten.
  • Die Effekte, die sich aus dem Ändern von ESlope und ESlopeDepth ergeben, sind sehr ähnlich.
  • Als Nächstes wird ein Verfahren zum Simulieren einer Änderung in der Klangfarbe einer echten Stimme beschrieben, wenn EpR-Parameter geändert werden. Falls beispielsweise angenommen wird, dass ein-rahmige Phonem-Daten eines gesprochenen Lauts wie beispielsweise "a" durch die EpR-Parameter und Dynamics (das Volumen bzw. die Lautstärke der Stimmenproduktion) dargestellt werden, wird eine Änderung in der Klangfarbe, welche durch Dynamics aus einer Echtstimmenerzeugung geändert werden soll, durch eine Änderung der EpR-Parameter simuliert. Allgemein unterdrückt eine Stimmerzeugung bei einer geringen Lautstärke die Hochfrequenzkomponenten, und je größer die Lautstärke wird, desto stärker erhöhen sich die Hochfrequenzkomponenten, obwohl sich dies von einem zum anderen Stimmerzeuger ändert.
  • 14A bis 14C sind Graphen, die eine Änderung in den EpR-Parametern zeigen, wenn Dynamics geändert wird. 14A zeigt eine Änderung in EGain, 14B zeigt eine Änderung in ESlope und 14C zeigt eine Änderung in ESlopeDepth.
  • Die Abszissen in den 14A bis 14C repräsentieren einen Wert von Dynamics von 0 bis 1,0. Der Wert 0 von Dynamics repräsentiert die kleinste Stimmerzeugung, der Dynamics-Wert 1,0 repräsentiert die größte Stimmproduktion und der Dynamics-Wert 0,5 repräsentiert eine normale Stimmproduktion.
  • Eine Datenbank Timbre DB, welche weiter unten beschrieben wird, speichert EGain, ESlope und ESlopeDepth für eine normale Stimmerzeugung, diese EpR-Parameter werden in Übereinstimmung mit den in den 14A bis 14C gezeigten Funktionen geändert. Im speziellen wird die in 14A gezeigte Funktion durch FEGain (Dynamics) repräsentiert, die in 14B gezeigte Funktion wird durch FESlope (Dynamics) repräsentiert und die in 14C gezeigte Funktion wird durch FESlopeDepth (Dynamics) repräsentiert. Falls ein Dynamics-Parameter gegeben ist, können die Parameter durch die folgenden Gleichungen (g1) bis (g3) ausgedrückt werden: NewEGaindB = FEGaindB(Dynamics) (g1) NewEslope = OriginalESlope*FESlope(Dynamics) (g2) NewESlopeDepthdB = OriginalESlopeDeptdB + FESlopeDepthdB(Dynamics) (g3)wobei Original ESlope und Original ESlopeDepth die ursprünglichen in der Datenbank Timbre DB gespeicherten EpR-Parameter sind.
  • Die in den 14A bis 14C gezeigten Funktionen erhält man durch Analysieren bzw. Zerlegen der Parameter der gleichen Phoneme, welche bei verschiedenen Graden bzw. Stärken der Stimmerzeugung (Dynamics) erzeugt werden. Durch Nutzen dieser Funktionen werden die EpR-Parameter in Übereinstimmung mit Dynamics geändert. Man kann berücksichtigen, dass die in den 14A bis 14C gezeigten Änderungen für jedes Phonem, jeden Stimmerzeuger usw. unterschiedlich sein können. Daher kann man durch Herstellen bzw. Anpassen der Funktion für jedes Phonem und jeden Stimmerzeuger eine Änderung erhalten, die analog zu einer realistischeren Stimmerzeugung ist.
  • Als Nächstes wird mit Bezug auf 15 ein Verfahren zum Reproduzieren einer Änderung in einer Klangfarbe beschrieben, wenn Opening eines Mundes bzw. eine Mundöffnung zur Stimmerzeugung des gleichen Phonems verändert wird.
  • 15 ist ein Graph, der eine Änderung in Frequenzcharakteristiken zeigt, wenn Opening geändert wird. Ähnlich zu Dynamics wird angenommen, dass der Opening-Parameter Werte von 0 bis 1,0 annimmt.
  • Der Opening-Wert 0 repräsentiert das kleinste Öffnen eines Mundes (niedriges Öffnen), der Opening-Wert 1,0 repräsentiert das größte Öffnen eines Mundes (hohes Öffnen) und der Opening-Wert 0,5 repräsentiert ein normales Öffnen eines Mundes (normales Öffnen).
  • Die später beschriebene Datenbank Timbre DB speichert EpR-Parameter ab, welche man erhält, wenn eine Stimme bei einer normalen Mundöffnung erzeugt wird. Die EpR-Parameter werden verändert, so dass sie die in 15 gezeigten Frequenzcharakteristiken bei dem gewünschten Grad an Mundöffnung zeigen.
  • Um diese Änderung zu realisieren, wird die Amplitude (EpR-Parameter) jeder Resonanz wie in 15 gezeigt. Beispielsweise werden die Frequenzcharakteristiken nicht geändert, wenn eine Stimme bei einem normalen Grad einer Mundöffnung (normales Öffnen) erzeugt wird. Wenn eine Stimme bei dem kleinsten Grad an Mundöffnung (niedriges Öffnen) erzeugt wird, werden die Amplituden der Komponenten bei 1 bis 5 kHz abgesenkt. Wenn eine Stimme beim größten Grad an Mundöffnung (hohe Öffnung) erzeugt wird, werden die Amplituden der Komponenten bei 1 bis 5 kHz angehoben.
  • Diese Änderungsfunktion wird durch FOpening (f) repräsentiert. Die EpR-Parameter können geändert werden, so dass sie die Frequenzcharakteristiken beim gewünschten Grad der Mundöffnung, d. h. bei den in 15 gezeigten Frequenzcharakteristiken aufweisen, und zwar durch Ändern der Amplitude jeder Resonanz nach der folgenden Gleichung (h): NewResonance[i]AmpdB = OriginalResonance[i]AmpdB + FOpeningdB(OriginalResonance[i]FreqHz)·(0.5 – Opening)/0.5 (h)
  • Die Funktion FOpening von (f) erhält man durch Analysieren bzw. Zerlegen der Parameter der bei unterschiedlichen Graden der Mundöffnung erzeugten gleichen Phoneme. Durch Nutzen dieser Funktion werden die EpR-Parameter in Übereinstimmung mit den Opening-Werten geändert. Man kann berücksichtigen, dass sich diese Änderung für jedes Phonem, jeden Stimmerzeuger usw. ändern kann. Daher kann man durch Erstellen der Funktion für jedes Phonem und jeden Stimmerzeuger eine Änderung erreichen, die analog zu einer realistischeren Stimmerzeugung ist.
  • Die Gleichung (h) korrespondiert mit der i-ten Resonanz. Original Resonance[i]Amp und Original Resonance[i]Freq repräsentieren jeweils die Amplitude und Mittenfrequenz (EpR-Parameter) der in der Datenbank Timbre DB gespeicherten Resonanz. New Resonance[i]Amp repräsentiert die Amplitude einer neuen Resonanz.
  • Als Nächstes wird mit Bezug auf 16 beschrieben, wie ein Lied synthetisiert wird.
  • 16 ist ein Blockdiagramm eines lied-synthetisierenden Kerns bzw. Moduls einer Stimmensynthesevorrichtung. Das Lied-synthetisierende bzw. das das Lied künstlich herstellende Modul hat mindestens eine Eingabeeinheit 4, eine Pulserzeugereinheit 5, eine Fensterungs- & FFT ("FFT" = Fast Fourier Transformation)-Einheit 6, eine Datenbank 7, eine Vielzahl von Hinzufügungs- bzw. Additionseinheiten 8a bis 8g und eine IFFT (Inverse Fast Fourier Transformation)- & Überlappeinheit 9.
  • In die Eingabeeinheit 4 werden eine Tonhöhe, eine Stimmintensität, eine Phonem- und andere Informationen in Übereinstimmung mit einer Melodie eines von einem Sänger gesungenen Liedes eingegeben, und zwar zu jeder Rahmen- bzw. Frame-Dauer, beispielsweise 5 ms. Die weitere Information ist beispielsweise eine Vibrato-Information einschließlich Vibratogeschwindigkeit und -tiefe. Die Informationseingabe in die Eingabeeinheit 4 wird in zwei Serien aufgeteilt, die zu der Pulserzeugereinheit 5 und der Datenbank 7 gesendet werden.
  • Die Pulserzeugereinheit 5 erzeugt auf der Zeitachse Pulse, welche ein Tonhöhen-Intervall aufweisen, welches zu einer Tonhöhen-Eingabe von der Eingabeeinheit 4 korrespondiert. Durch Ändern der Steigung und des Tonhöhen-Intervalls (Pitch-Intervalls) der erzeugten Pulse, um die erzeugten Pulse selbst mit einer Fluktuation bzw. Schwankung in der Steigung und dem Tonhöhen-Intervall zu versehen, können sogenannte rauhe bzw. barsche Stimmen und ähnliches erzeugt werden.
  • Falls der gerade vorliegende Frame bzw. Datenblock bzw. Rahmen ein stimmloser Laut ist, gibt es keine Tonhöhe, so dass das von der Pulserzeugereinheit 5 angewandte Verfahren nicht notwendig ist. Das von der Pulserzeugereinheit 5 angewandte Verfahren wird nur durchgeführt, wenn ein stimmlicher Laut erzeugt wird.
  • Die Fensterungs- & FFT-Einheit 6 erzeugt ein Fenster in einem Puls (Zeit-Wellenform), der durch die Pulserzeugereinheit 5 erzeugt wird, und führt dann eine schnelle Fourier-Transformation durch, um den Puls in eine Frequenzband-Information umzusetzen. Ein Größenspektrum der umgewandelten Frequenzband-Information ist über den gesamten Bereich flach. Eine Ausgabe von der Fensterungs- & FFT-Einheit 6 wird in das Phasenspektrum und Größen- bzw. Amplituden-Spektrum aufgeteilt.
  • Die Datenbank 7 bereitet mehrere Datenbanken vor, damit diese zum Synthetisieren von Stimmen eines Liedes verwendet werden. In dieser Ausführungsform bereitet die Datenbank 7 vor: Timbre DB, Stationary DB, Articulation DB, Note DB und Vibrato DB.
  • In Übereinstimmung mit der Informationseingabe in die Eingabeeinheit 4 liest die Datenbank 7 die notwendigen Datenbanken zur Berechnung der EpR-Parameter und die notwendigen nicht- bzw. anharmonischen Komponenten für die Synthese zu einigen Zeitpunkten aus. Timbre DB speichert typische EpR-Parameter eines Frames bzw. Datenblocks für jedes Phonem eines stimmlichen Lauts (Vokal, Nasallaut, stimmlicher Konsonant). Sie speichert auch EpR-Parameter eines Frames des gleichen Phonems, die jede zu einer Mehrzahl von Tonhöhen korrespondieren. Durch Nutzen dieser Tonhöhen und Interpolation kann man die EpR-Parameter, die zu einer gewünschten Tonhöhe korrespondieren, erhalten.
  • Stationary DB speichert stabile Analyse-Frames aus mehreren Sekunden für jeden der erzeugten Phoneme in einer anhaltenden Art, als auch die harmonischen Komponenten (EpR-Parameter) und nicht-harmonischen Komponenten. Wird beispielsweise angenommen, dass die Frame-Dauer bzw. das Frame-Intervall 5 ms beträgt und die stabile Stimmerzeugungszeit 1 s beträgt, speichert Stationary DB die Information aus 200 Frames für jedes Phonem.
  • Da Stationary DB EpR-Parameter speichert, welche man durch Analyse bzw. Zerlegen einer Originalstimme erhalten hat, hat sie Informationen wie beispielsweise feine Fluktuationen bzw. Schwankungen der Originalstimme. Durch Nutzen dieser Information kann man feine Änderungen auf die EpR-Parameter aufgeben, welche man aus Timbre DB erhalten hat. Es ist daher möglich, die natürliche Tonlage, Anstieg, Resonanz usw. der Originalstimme zu reproduzieren. Durch Hinzufügen nicht-harmonischer Komponenten können noch natürlichere synthetisierte Stimmen realisiert werden.
  • Articulation speichert einen analysierten Änderungsteil von einem Phonem zu einem anderen Phonem als auch die harmonischen Komponenten (EpR-Parameter) und nicht-harmonischen Komponenten. Wenn eine Stimme synthetisiert wird, welche von einem Phonem zu einem anderen Phonem wechselt, wird auf Articulation verwiesen, und eine Änderung in den EpR-Parametern und den nicht-harmonischen Komponenten wird für diesen sich ändernden Teil dazu benutzt, um einen natürlichen Phonem-Wechsel zu reproduzieren.
  • Note DB ist aus drei Datenbanken: Attack DB, Release DB und Note Transition DB aufgebaut. Sie speichern Information einer Änderung im Zuwachs (EGain) und Tonhöhe und andere Information, welche durch eine Analyse bzw. Zerlegung der Originalstimme (Echtstimme) erhalten wurden, jeweils für einen Laut-Erzeugungs-Anfangsteil, einen Stimm-Auslass-Teil und einen Tonübergangsteil.
  • Falls beispielsweise eine Änderung im Zuwachs (EGain) und Tonlage, die in Attack DB gespeichert sind, zu den EpR-Parametern für den Lauterzeugungs-Anfangsteil hinzuaddiert werden, kann die Änderung im Zuwachs und Tonhöhe wie eine natürliche Echtstimme zu der synthetisierten Stimme hinzugefügt werden.
  • Vibrato DB speichert Information über eine Änderung in Zuwachs (EGain) und Tonhöhe und andere Information, welche durch eine Analyse eines Vibrato-Teils der Originalstimme (Echtstimme) erhalten wurde.
  • Falls beispielsweise ein Vibrato-Teil existiert, der zu einer zu synthetisierenden Stimme hinzugegeben werden soll, werden EpR-Parameter des Vibrato-Teils hinzugefügt, und zwar mit einer in Vibrato DB gespeicherten Änderung in Zuwachs (EGain) und Tonhöhe, so dass eine natürliche Änderung in Zuwachs und Tonhöhe zur synthetisierten Stimme hinzugefügt werden kann. Und zwar kann ein natürliches Vibrato reproduziert werden.
  • Obwohl diese Ausführungsformen fünf Datenbanken vorsieht, kann die künstliche Erzeugung bzw. Synthese von Stimmen eines Lieds grundsätzlich unter Verwendung mindestens von Timbre DB, Stationary DB und Articulation DB durchgeführt werden, falls die Information über Stimmen eines Liedes und Tonhöhen, Stimmenlautstärken und Mundöffnungsgrade gegeben ist.
  • Stimmen eines in Ausdruck reichen Liedes können unter Nutzung der zusätzlichen Datenbanken Note DB und Vibrato DB synthetisiert werden. Die hinzufügbaren Datenbanken sind nicht nur auf Note DB und Vibrato DB beschränkt, sondern es kann jede Datenbank für einen Stimmausdruck verwendet werden.
  • Die Datenbank 7 gibt die EpR-Parameter von ExcitationCurve EC, ChestResonance CR, VocalTractResonance VTR und SpectralShapeDifterential SSD aus, welche durch Nutzung der oben beschriebenen Datenbank berechnet worden sind, und weiterhin die nicht-harmonischen Komponenten UC.
  • Als nicht-harmonische Komponenten UC gibt die Datenbank 7 das Größenspektrum und Phasenspektrum, so wie in 3 gezeigt, aus. Die nicht-harmonischen Komponenten US repräsentieren Rauschkomponenten eines stimmhaften Lauts der Originalstimme, welcher sich nicht als harmonische Komponenten ausdrücken lässt, und einesn stimmlosen Lauts, der sich inhärent nicht als harmonische Komponente ausdrücken lässt.
  • Wie in 16 gezeigt, werden VocalTractResonance VTR und nicht-harmonische Komponenten getrennt für Phase und Größe bzw. Amplitude ausgegeben.
  • Die Additionseinheit 8a fügt ExcitationCurve EC zur Ausgabe des flachen Größenspektrums der Fensterungs- & FFT-Einheit 6 hinzu. Und zwar wird die Größe bei jeder Frequenz, die durch die Gleichung (a) unter Nutzung von EGain, ESlope und ESlopeDepth berechnet worden ist, hinzuaddiert. Das Additionsergebnis wird in einem folgenden Schritt zur Additionseinheit 8b gesandt.
  • Das erhaltene Größenspektrum ist eine Größenspektrumumhüllende (Excitation Curve) einer Vokaltrakt-Schwingungs-Wellenform, so wie sie in 4 gezeigt ist.
  • Durch Ändern von EGain, ESloe und ESlopeDepth in Übereinstimmung mit den in den 14A bis 14C gezeigten Funktionen unter Verwendung der Dynamics-Parameter lässt sich eine Änderung in der Klangfarbe ausdrücken, die durch eine Änderung in der Stimmlautstärke erzeugt wird.
  • Falls die Stimmlautstärke geändert werden soll, wird EGain wie in den 11A und 11B gezeigt, geändert. Falls die Klangfarbe geändert werden soll, wird ESlope, wie in den 12A und 12B, geändert.
  • Die Additionseinheit 8b fügt ChestResonance CR, welches durch Gleichung (d) erhalten wurde, zum Größenspektrum hinzu, dem ExcitationCurve EC in der Additionseinheit 8a hinzugefügt worden ist, um so das Größenspektrum zu er halten, dem der Berg des Größenspektrums der Brustresonanz, so wie in 7 gezeigt, hinzugefügt worden ist. Das erhaltene Größenspektrum wird in einem weiteren Schritt zur Additionseinheit 8c gesendet.
  • Indem man die Größe von ChestResonance CR groß macht, ist es möglich, den Brustresonanzlaut größer als bei der ursprünglichen Stimmqualität einzustellen. Durch Erniedrigung der Frequenz von ChestResonance CR ist es möglich, die Stimme so zu ändern, dass die Stimme einen niedrigeren Brustresonanz-Laut aufweist.
  • Die Additionseinheit 8c fügt VocalTractResonance VTR, das aus Gleichung (c1) erhalten wurde, zum Größenspektrum hinzu, dem ChestResonance CR in der Additionseinheit 8b hinzugefügt worden ist, um so das Größenspektrum zu erhalten, dem der Berg des größten Spektrums des Vokaltrakts, so wie in 6 gezeigt, hinzugefügt wurde. Das erhaltene Größenspektrum wird in einem weiteren Schritt zur Additionseinheit 8e gesandt.
  • Durch Hinzufügen von VocalTractResonance VTR ist grundsätzlich möglich, einen Unterschied zwischen Klangfarben, die durch einen Unterschied zwischen Phonemen, wie beispielsweise "a" und "i", erzeugt werden, auszudrücken.
  • Durch Ändern der Amplitude jeder Resonanz in Überstimmung mit dem in 15 beschriebenen Opening-Parameter unter Nutzung der Frequenzfunktion kann eine durch einen Grad einer Mundöffnung erzeugte Änderung in der Klangfarbe reproduziert werden.
  • Durch Ändern der Frequenz, Größe und Bandbreite jeder Resonanz kann die Lautqualität hin zu einer Lautqualität geändert werden, welche unterschiedlich von der ursprünglichen Lautqualität ist (beispielsweise zur Lautqualität einer Oper). Durch Ändern der Tonhöhe können männliche Stimmen in weibliche Stimmen umgewandelt werden, oder umgekehrt. Die Additionseinheit 8d fügt VocalTractResonance VTR, das durch Gleichung (c2) erhalten wurde, zur Aus gabe des flachen Phasenspektrums aus der Fensterungs- & FFT-Einheit 6 hinzu. Das erhaltene Phasenspektrum wird zur Additionseinheit 8g gesandt.
  • Die Additionseinheit 8e fügt SpectralShapeDifferential Mag dB (fHz) zu dem Größenspektrum, zu dem VocalTractResonance VTR an der Additionseinheit 8c hinzugefügt wird, hinzu, um ein präziseres Größenspektrum zu erhalten.
  • Die Additionseinheit 8f addiert das Größenspektrum der nicht-harmonischen Komponenten UC, das von der Datenbank 7 geliefert wird, und das Größenspektrum, das von der Additionseinheit 8e gesandt wurde, zusammen. Das zusammenaddierte Größenspektrum wird in einem folgenden Schritt zur IFFT- & Überlapp-Additionseinheit 9 weitergeleitet.
  • Die Additionseinheit 8g addiert das von der Datenbank 7 gelieferte Phasenspektrum der nicht-harmonischen Komponenten und das von der Additionseinheit 8d gelieferte Phasenspektrum zusammen. Das aufaddierte Phasenspektrum wird zur IFFT- & Überlapp-Additionseinheit 9 gesandt.
  • Die IFFT- & Überlapp-Additionseinheit 9 führt eine inverse Fast Fourier-Transformation des lieferten Größenspektrums und Phasenspektrums durch, und fügt überlappend die transformierten Zeit-Wellenformen zusammen, um die endgültigen synthetisierten Stimmen zu erzeugen.
  • Gemäß der Ausführungsform wird eine Stimme in harmonische Komponenten und nicht-harmonische Komponenten zerlegt. Die analysierten bzw. zerlegten harmonischen Komponenten können in die Größenspektrumumhüllende und eine Vielzahl von Resonanzen jeweils einer Stimmband-Wellenform zerlegt werden, und in einen Unterschied zwischen diesen Umhüllenden und Resonanzen und der Originalstimme, welche gespeichert werden.
  • Gemäß der Ausführungsform kann die Größenspektrumumhüllende einer Stimmbandwellenform durch drei EpR-Parameter EGain, ESlope und ESlope-Depth repräsentiert werden.
  • Gemäß der Ausführungsform kann durch Ändern der EpR-Parameter, die zu einer Änderung in der Stimm-Lautstärke in Übereinstimmung mit einer vorbestimmten Funktion korrespondieren, eine Stimme mit einer natürlichen Änderung der Klangfarbe, welche durch eine Änderung in der Lautstärke erzeugt wird, synthetisiert werden.
  • Gemäß der Ausführungsform kann durch Ändern der EpR-Parameter, die zu einer Änderung im Grad der Mundöffnung in Übereinstimmung mit einer vorbestimmten Funktion korrespondieren, eine Stimme synthetisiert werden, bei der eine natürliche Änderung der Klangfarbe durch eine Änderung im Grad der Mundöffnung erzeugt wird.
  • Da sich die Funktionen mit jedem Phonem und jedem Stimmenerzeuger ändern können, kann eine Stimme synthetisiert werden, indem eine individuelle charakteristische Differenz zwischen Änderungen in der Klangfarbe, die durch Phoneme und Stimmerzeuger erzeugt wird, berücksichtigt wird.
  • Obwohl die Ausführungsform hauptsächlich mit Bezug auf die Erzeugung von Stimmen eines durch eines Sängers gesungenen Liedes beschrieben wird, ist die Ausführungsform nicht darauf beschränkt, sondern allgemeine Sprachlaute und Musikinstrument-Laute können ebenfalls in einer gleichen Art synthetisiert werden.
  • Die Ausführungsform kann durch einen Computer und dergleichen realisiert werden, welcher mit einem Computerprogramm usw. ausgerüstet ist, welches die dargestellten Funktionen realisiert. In diesem Falle kann das Computerprogramm und dergleichen, das die dargestellten Funktionen realisiert, in einem Computer-lesbaren Speichermedium, wie beispielsweise einer CD-ROM und einer Floppy Disc gespeichert werden, um zu einem Anwender verschickt zu werden.
  • einer Diskette gespeichert werden, um zu einem Anwender verschickt zu werden.
  • Falls der Computer und dergleichen mit einem Kommunikations-Netzwerk, wie beispielsweise einem LAN, dem Internet und einer Telefonleitung verbunden ist, können das Computerprogramm, Daten usw. über das Kommunikations-Netzwerk verbreitet werden.
  • Die vorliegende Erfindung, so wie sie in den Ansprüchen beansprucht wird, ist in Verbindung mit den bevorzugten Ausführungsformen beschrieben worden. Die Erfindung ist nicht nur auf die oben beschriebenen Ausführungsformen beschränkt. (TK-E-19450) Es ist offensichtlich, dass verschiedene Modifikationen, Verbesserungen, Kombinationen usw. durch den Fachmann durchgeführt werden können.

Claims (13)

  1. Stimmenanalysevorrichtung, die Folgendes aufweist: erste Analysemittel (2) zum Analysieren bzw. Zerlegen einer Stimme in harmonische Komponenten und nicht-harmonische Komponenten; zweite Analysemittel zum Analysieren bzw. Zerlegen einer Größenspektrumumhüllenden der harmonischen Komponenten in eine Größenspektrumumhüllende einer Stimmbandschwingungswellenform, Resonanzen sowie eine Spektrumumhüllende einer Differenz zwischen der Größenspektrumumhüllenden der harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen; und Mittel (3) zum Speichern der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden der Stimmbandschwingungswellenform, der Resonanzen sowie der Spektrumumhüllenden der Differenz.
  2. Stimmenanalysevorrichtung gemäß Anspruch 1, wobei: die Größenspektrumumhüllende der Stimmbandschwingungswellenform repräsentiert ist durch drei Parameter EGain, ESlope und ESlopeDepth; und die drei Parameter ausgedrückt werden können durch die folgende Gleichung (1): ExcitationCurveMag(f) = EGain + ESlopeDepth·(e–ESlope·f – 1) (1)wobei ExcitationCurveMag(f) die Größenspektrumumhüllende der Stimmbandschwingungswellenform ist.
  3. Stimmenanalysevorrichtung gemäß Anspruch 1, wobei die Resonanzen eine Vielzahl von Resonanzen umfassen, die Vokaltraktformanten ausdrücken, sowie eine Resonanz umfassen, die Brustresonanz ausdrückt.
  4. Stimmensynthesevorrichtung, die Folgendes aufweist: Mittel (7) zum Speichern von nicht-harmonischen Komponenten, die aus einer Stimme analysiert wurden, von einer Größenspektrumumhüllenden einer Stimmbandschwingungswellenform, von Resonanzen sowie von einer Spektrumumhüllenden einer Differenz zwischen einer Größenspektrumumhüllenden von harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen, wobei die Größenspektrumumhüllende, die Resonanzen und die Spektrumumhüllende der Differenz aus den harmonischen Komponenten analysiert wurden, welche aus der Stimme analysiert wurden; Mittel (4) zur Eingabe von Information über eine zu synthetisierende Stimme; Mittel (6) zum Erzeugen einer flachen Größenspektrumumhüllenden; und Mittel (8) zum Hinzufügen der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden für die Stimmbandschwingungswellenform, der Resonanzen und der Spektrumumhüllenden der Differenz, die jeweils aus den Mitteln zum Speichern ausgelesen wurden, zu der flachen Größenspektrumumhüllenden in Übereinstimmung mit der eingegebenen Information.
  5. Stimmensynthesevorrichtung gemäß Anspruch 4, wobei: die Größenspektrumumhüllende der Stimmbandschwingungswellenform repräsentiert ist durch drei Parameter EGain, ESlope und ESlopeDepth; und die drei Parameter ausgedrückt werden können durch die folgende Gleichung (1): ExcitationCurveMag(f) = EGain + ESlopeDepth·(e–ESlop e·f – 1) (1)wobei ExcitationCurveMag(f) die Größenspektrumumhüllende der Stimmbandschwingungswellenform ist.
  6. Stimmensynthesevorrichtung gemäß Anspruch 5, wobei die Mittel zum Speichern ferner eine Funktion zum Ändern der drei Parameter speichern, und zwar in Übereinstimmung mit einer Änderung des Klangvolumens bzw. der Lautstärke, so dass die Klangfarbe verändert werden kann in Übereinstimmung mit der Änderung des Klangvolumens bzw. der Lautstärke.
  7. Stimmensynthesevorrichtung gemäß Anspruch 4, wobei die Resonanzen eine Vielzahl von Resonanzen umfassen, die Vokaltraktformanten ausdrücken, sowie eine Resonanz umfassen, die Brustresonanz ausdrückt.
  8. Stimmensynthesevorrichtung gemäß Anspruch 7, wobei die Mittel zum Speichern ferner eine Funktion zum Ändern einer Amplitude jeder Resonanz speichern, und zwar in Übereinstimmung mit einem Mundöffnungsgrad, so dass die Klangfarbe verändert werden kann in Übereinstimmung mit dem Mundöffnungsgrad.
  9. Stimmenanalyse- und -synthesevorrichtung, die Folgendes aufweist: erste Analysemittel zum Analysieren bzw. Zerlegen einer Stimme in harmonische Komponenten und nicht-harmonische Komponenten; zweite Analysemittel zum Analysieren bzw. Zerlegen einer Größenspektrumumhüllenden der harmonischen Komponenten in eine Größenspektrumumhüllende einer Stimmbandschwingungswellenform, Resonanzen sowie eine Spektrumumhüllende einer Differenz zwischen der Größenspektrumumhüllenden der harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen; Mittel zum Speichern der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden der Stimmbandschwingungswellenform, der Resonanzen sowie der Spektrumumhüllenden der Differenz; Mittel zur Eingabe von Information über eine zu synthetisierende Stimme; Mittel zum Erzeugen einer flachen Größenspektrumumhüllenden; und Mittel zum Hinzufügen der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden für die Stimmbandschwingungswellenform, der Resonanzen und der Spektrumumhüllenden der Differenz, die jeweils aus den Mitteln zum Speichern ausgelesen wurden, zu der flachen Größenspektrumumhüllenden in Übereinstimmung mit der eingegebenen Information.
  10. Stimmenanalyseverfahren, das die folgenden Schritte aufweist: (a) Analysieren bzw. Zerlegen einer Stimme in harmonische und nicht-harmonische Komponenten; (b) Analysieren bzw. Zerlegen einer Größenspektrumumhüllenden der harmonischen Komponenten in eine Größenspektrumumhüllende einer Stimmbandschwingungswellenform, Resonanzen und eine Spektrumumhüllende einer Differenz zwischen der Größenspektrumumhüllenden der harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen; und (c) Speichern der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden der Stimmbandschwingungswellenform, der Resonanzen und der Spektrumumhüllenden der Differenz.
  11. Stimmensyntheseverfahren, das die folgenden Schritte aufweist: (a) Auslesen nicht-harmonischer Komponenten, die aus einer Stimme analysiert wurden, einer Größenspektrumumhüllenden einer Stimmbandschwingungswellenform, von Resonanzen und einer Spektrumumhüllenden einer Differenz zwischen einer Größenspektrumumhüllenden von harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen, wobei die Größenspektrumumhüllende, die Resonanzen und die Spektrumumhüllende einer Differenz aus den harmonischen Komponenten analysiert wurden, welche aus der Stimme analysiert wurden; (b) Eingabe von Information über eine zu synthetisierende Stimme; (c) Erzeugen einer flachen Größenspektrumumhüllenden; und (d) Hinzufügen der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden der Stimmbandschwingungswellenform, der Resonanzen und der Spektrumumhüllenden der Differenz, die jeweils im Schritt (a) ausgelesen wurden, zu der flachen Größenspektrumumhüllenden in Übereinstimmung mit der eingegebenen Information.
  12. Ein Programm, welches ein Computer ausführt zum Realisieren eines Musikdatenspielprozesses, wobei das Programm die folgenden Instruktionen aufweist: (a) Analysieren bzw. Zerlegen einer Stimme in harmonische und nicht-harmonische Komponenten; (b) Analysieren bzw. Zerlegen einer Größenspektrumumhüllenden der harmonischen Komponenten in eine Größenspektrumumhüllende einer Stimmbandschwingungswellenform, Resonanzen und eine Spektrumumhüllende einer Differenz zwischen der Größenspektrumumhüllenden der harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungswellenform und der Resonanzen; und (c) Speichern der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden der Stimmbandschwingungswellenform, der Resonanzen und der Spektrumumhüllenden der Differenz.
  13. Ein Programm, welches ein Computer ausführt zum Realisieren eines Musikdatenspielprozesses, wobei das Programm die folgenden Instruktionen aufweist: (a) Auslesen nicht-harmonischer Komponenten, die aus einer Stimme analysiert wurden, einer Größenspektrumumhüllenden einer Stimmbandschwingungswellenform, von Resonanzen und einer Spektrumumhüllenden einer Differenz zwischen einer Größenspektrumumhüllenden von harmonischen Komponenten und einer Summe der Größenspektrumumhüllenden der Stimmbandschwingungs wellenform und der Resonanzen, wobei die Größenspektrumumhüllende, die Resonanzen und die Spektrumumhüllende einer Differenz aus den harmonischen Komponenten analysiert wurden, welche aus der Stimme analysiert wurden; (b) Eingabe von Information über eine zu synthetisierende Stimme; (c) Erzeugen einer flachen Größenspektrumumhüllenden; und (d) Hinzufügen der nicht-harmonischen Komponenten, der Größenspektrumumhüllenden der Stimmbandschwingungswellenform, der Resonanzen und der Spektrumumhüllenden der Differenz, die jeweils im Schritt (a) ausgelesen wurden, zu der flachen Größenspektrumumhüllenden in Übereinstimmung mit der eingegebenen Information.
DE60202161T 2001-03-09 2002-03-07 Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache Expired - Lifetime DE60202161T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001067257 2001-03-09
JP2001067257A JP3711880B2 (ja) 2001-03-09 2001-03-09 音声分析及び合成装置、方法、プログラム

Publications (2)

Publication Number Publication Date
DE60202161D1 DE60202161D1 (de) 2005-01-13
DE60202161T2 true DE60202161T2 (de) 2005-12-15

Family

ID=18925636

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60202161T Expired - Lifetime DE60202161T2 (de) 2001-03-09 2002-03-07 Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache

Country Status (4)

Country Link
US (1) US6944589B2 (de)
EP (1) EP1239463B1 (de)
JP (1) JP3711880B2 (de)
DE (1) DE60202161T2 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP3823930B2 (ja) 2003-03-03 2006-09-20 ヤマハ株式会社 歌唱合成装置、歌唱合成プログラム
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
JP4701684B2 (ja) * 2004-11-19 2011-06-15 ヤマハ株式会社 音声処理装置およびプログラム
JP4246792B2 (ja) * 2007-05-14 2009-04-02 パナソニック株式会社 声質変換装置および声質変換方法
GB0920480D0 (en) * 2009-11-24 2010-01-06 Yu Kai Speech processing and learning
JP5651945B2 (ja) 2009-12-04 2015-01-14 ヤマハ株式会社 音響処理装置
GB2500471B (en) * 2010-07-20 2018-06-13 Aist System and method for singing synthesis capable of reflecting voice timbre changes
JP6024191B2 (ja) 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
JP6047922B2 (ja) 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
TWI406266B (zh) * 2011-06-03 2013-08-21 Univ Nat Chiao Tung 語音辨識裝置及其辨識方法
JP5821824B2 (ja) * 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
JP6821970B2 (ja) 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60100199A (ja) * 1983-11-04 1985-06-04 ヤマハ株式会社 電子楽器
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques

Also Published As

Publication number Publication date
JP2002268658A (ja) 2002-09-20
DE60202161D1 (de) 2005-01-13
EP1239463A3 (de) 2003-09-17
EP1239463A2 (de) 2002-09-11
JP3711880B2 (ja) 2005-11-02
EP1239463B1 (de) 2004-12-08
US6944589B2 (en) 2005-09-13
US20020184006A1 (en) 2002-12-05

Similar Documents

Publication Publication Date Title
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE69904640T2 (de) Verfahren zum ändern des oberweyllengehalts einer komplexen wellenform
DE602005006217T2 (de) Audiosignalverarbeitungsvorrichtung und -programm
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE60216651T2 (de) Vorrichtung zur Sprachsynthese
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE69811656T2 (de) Stimmentransformation nach einer zielstimme
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69614938T2 (de) Verfahren und vorrichtung zur änderung des klanges und/oder der tonhöhe von audiosignalen
DE69629486T2 (de) Kontrollstruktur für klangsynthesierung
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE60313539T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE602004000873T2 (de) Vorrichtung zur Synthese einer singenden Stimme unter Berücksichtigung unterschiedlicher Modelle je nach Ansatzkontext der gesungenen Töne
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE602005002403T2 (de) Gerät und Programm zur Sprachverarbeitung
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE112013005807T5 (de) Vorrichtung und Verfahren zur Erzeugung einer Echtzeitmusikbegleitung
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
DE60318282T2 (de) Methoden und Vorrichtung zur Verarbeitung von Ausführungsdaten und zur Synthetisierung von Tonsignalen
DE69318209T2 (de) Verfahren und Anordnung zur Sprachsynthese
DE60205421T2 (de) Verfahren und Vorrichtung zur Sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition