DE69700084T2 - Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion - Google Patents

Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion

Info

Publication number
DE69700084T2
DE69700084T2 DE69700084T DE69700084T DE69700084T2 DE 69700084 T2 DE69700084 T2 DE 69700084T2 DE 69700084 T DE69700084 T DE 69700084T DE 69700084 T DE69700084 T DE 69700084T DE 69700084 T2 DE69700084 T2 DE 69700084T2
Authority
DE
Germany
Prior art keywords
spectrum
time
frequency
spectrogram
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69700084T
Other languages
English (en)
Other versions
DE69700084D1 (de
Inventor
Hideki C/O Atr Human Information Seika-Cho Soraku-Gun Kyoto Kawahara
Ikuyo C/O Atr Human Information Seika-Cho Soraku-Gun Kyoto Masauda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Human Information Processing Research Laboratories Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Human Information Processing Research Laboratories Co Inc filed Critical ATR Human Information Processing Research Laboratories Co Inc
Application granted granted Critical
Publication of DE69700084D1 publication Critical patent/DE69700084D1/de
Publication of DE69700084T2 publication Critical patent/DE69700084T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

    HINTERGRUND DER ERFINDUNG Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf ein Verfahren der Transformierung eines periodischen Signales, ein Verfahren der Transformierung von Schall und ein Verfahren der Analyse eines Signales, und genauer auf ein Verfahren der Transformierung eines periodischen Signales zum Transformieren von Schall, ein Verfahren der Transformierung von Schall und ein Verfahren der Analyse eines Signales zum Analysieren von Schall.
  • Beschreibung der Hintergrundstechnik
  • Wenn bei der Analyse/Synthese von Sprachschall die Intonation von Sprachschall gesteuert wird oder wenn der Sprachschall zu redaktionellen Zwecken zum Vorsehen einer natürlich klingenden Intonation synthetisiert wird, sollte die Fundamentalfrequenz des Sprachschalles gewandelt werden, während der Ton des ursprünglichen Sprachschalles beibehalten wird. Wenn Schall in der Natur abgetastet wird zur Benutzung als eine Schallquelle für ein elektronisches Musikinstrument sollte die Fundamentalfrequenz gewandelt werden, während der Ton konstant gehalten wird. Bei solcher Wandlung sollte eine Fundamentalfrequenz feiner gesetzt werden als die Auflösung, die durch die Fundamentalperiode bestimmt ist. Weiterhin, wenn Sprachschall geändert wird, damit die individuellen Merkmale eines Informanten im Rundfunk oder ähnlichem zum Schützen seiner oder ihrer Privatsphäre verborgen wird, sollte der Ton geändert werden, während manchmal die Ton höhe unverändert bleibt, oder sowohl der Ton als auch die Tonhöhe sollten sonst geändert werden.
  • Es gibt ein zunehmendes Verlangen zur Wiederbenutzung vorhandener Sprachschallressourcen wie das Synthetisieren von Stimmen von verschiedenen Schauspieler in eine neue Stimme, ohne tatsächlich einen neuen Schauspieler anzustellen. Während die Gesellschaft altert, gibt es mehr Leute mit einer Schwierigkeit des Verstehens von Sprachschall oder Musik aufgrund verschiedener Formen von Hörstörungen oder Erkennungsstörungen. Es gibt daher ein starkes Verlangen nach einem Verfahren des Änderns der Geschwindigkeit, des Frequenzbandes und der Höhe von Sprachschall, so daß er an ihre verschlechterten Hör- oder Erkennungsfähigkeiten ohne Verlust der ursprünglichen Information angepaßt wird.
  • Ein erstes herkömmliches Verfahren zum Erzielen solch einer Aufgabe ist zum Beispiel durch "Speech Analysis Synthesis System Using the Log Magnitude Approximation Filter" von Satoshi Imai, Tadashi Kitamura, Journal of the Institute of Electronic and Communication Engineers, 78/6, Bd. J61-A, Nr. 6, S. 527-534 offenbart. Die Druckschrift offenbart ein Verfahren zum Erzeugen einer Spektralhülle, und gemäß dem Verfahren wird ein Modell, das die Spektralhülle darstellt, angenommen, wobei die Parameter des Modelles durch Näherung optimiert werden, wobei die Spitze des Spektrums unter einer geeigneten Entwicklungsfunktion in Betracht gezogen wird.
  • Ein zweites herkömmliches Verfahren ist durch "A Formant Extraction not Influenced by Pitch Frequency Variations" von Kazuo Nakata, Journal of Japanese Acoustic Sound Association, Bd. 50, Nr. 2 (1994), S. 110-116 offenbart. Das Verfahren kombiniert die Idee von periodischen Signalen mit einem Verfahren des Schätzens von Parametern für ein autoregressives Modell.
  • Als ein drittes herkömmliches Verfahren ist ein Verfahren des Verarbeitens von Sprachschal bekannt, daß als PSOLA bezeichnet wird, in dem Wellenformen reduziert/expandiert werden und Zeit verschoben werden, die in der zeitlichen Domäne überlappen.
  • Keines des obigen ersten und zweiten herkömmlichen Verfahrens kann eine richtige Schätzung einer Spektralhülle vorsehen, wenn nicht alle Parameter, die zum Beschreiben eines Modelles notwendig sind, geeignet bestimmt wären, da diese Verfahren auf der Annahme eines speziellen Modelles basieren. Wenn zusätzlich die Natur einer Signalquelle sich von einem angenommenen Modell unterscheidet, wird eine Komponente, die aus der Periodizität resultiert, in die geschätzte Spektralhülle gemischt, und ein sogar noch größerer Fehler kann resultieren.
  • Weiterhin verlangen das erste und zweite herkömmliche Verfahren iterative Tätigkeiten für die Konvergenz bei dem Vorgang der Optimierung, und daher sind sie nicht für Anwendungen mit einer strengen Zeitbegrenzung wie Echtzeitverarbeitung geeignet.
  • Zusätzlich kann gemäß dem ersten und zweiten herkömmlichen Verfahren die Periodizität eines Signales nicht mit einer höheren Genauigkeit als die Zeitauflösung spezifiziert werden, die durch eine Abtastfrequenz bestimmt wird, da die Schallquelle und die Spektralhülle als ein Pulszug bzw. ein Filter getrennt in Hinblick auf die Begriffe der Steuerung der Periodizität sind.
  • Gemäß dem dritten Verfahren wird der Sprachschall, wenn die Periodizität der Schallquelle um 20% oder mehr geändert wird, seiner natürlichen Qualität beraubt, und der Schall kann nicht auf flexible Weise transformiert werden.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist eine Aufgabe der Erfindung, ein Verfahren der Transformierung eines periodischen Signales vorzusehen, ohne daß ein Spektralmodell benutzt wird, und das den Einfluß der Periodizität verringern kann.
  • Es ist eine andere Aufgabe der Erfindung, ein Verfahren der Transformierung von Schall vorzusehen, das genau ein Intervall mit einer höheren Auflösung als die Abtastfrequenz des Schalles setzen kann.
  • Es ist eine noch andere Aufgabe der Erfindung, ein Verfahren der Analyse eines Signales vorzusehen, das ein Spektrum erzeugen kann, von dem der Einfluß übermäßigen Glättens entfernt ist.
  • Es ist eine zusätzliche Aufgabe der Erfindung, ein Verfahren der Analyse eines Signales vorzusehen, das ein Spektrum ohne Nullpunkt erzeugen kann.
  • Das Verfahren der Transformierung eines periodischen Signales gemäß einem ersten Aspekt der Erfindung enthält die Schritte des Tranformierens des Spektrums einer periodischen Signales, das in einem diskreten Spektrum gegeben ist, in ein kontinuierliches Spektrum, das in einem stückweisen Polynom dargestellt wird, und Umwandeln des periodischen Signales in ein anderes Signal unter Benutzung des kontinuierlichen Spektrums. Bei dem Schritt des Tranformierens des Spektrums des periodischen Signales, das in dem diskreten Spektrum gegeben ist, in ein kontinuierliches Spektrum, das in einem stückweisen Polynom dargestellt ist, werden eine Interpolationsfunktion und das diskrete Spektrum auf der Frequenzachse zum Erzeugen des kontinuierlichen Spektrums gefaltet.
  • Bei dem Verfahren der Transformierung des periodischen Signales gemäß dem ersten Aspekt der Erfindung wird das kontinuierliche Spektrum, mit anderen Worten das geglättete Spektrum zum Umwandeln des periodischen Signales in ein anderes Signal benutzt. Der Einfluß der Periodizität in der Richtung der Frequenz wird folglich verringert.
  • Ein Verfahren der Transformierung eines periodischen Signales gemäß einem zweiten Aspekt der Erfindung enthält die Schritte des Erzeugens eines geglätteten Spektrogramms mittels Interpolation in einem stückweisen Polynom, Benutzen von Information auf Gitterpunkten, die auf dem Spektrogramm eines periodischen Signales dargestellt sind und bestimmt sind durch das Intervall der Fundamentalperioden und das Intervall der Fundamentalfrequenzen, und Umwandeln der periodischen Signales in ein anderes Signal unter Benutzung des geglätteten Spektrogrammes. Information auf Gitterpunkten, die durch das Intervall der Fundamentalperioden und das Intervall der Fundamentalfrequenzen bestimmt sind, die auf dem Spektrogramm des periodischen Signales dargestellt sind, wird zur Interpolation in einem stückweisen Polynom benutzt, daher werden in dem Schritt des Erzeugens des geglätteten Spektrogrammes eine Interpolationsfunktion auf der Frequenzachse und das Spektrogramm des periodischen Signales in der Richtung der Frequenz gefaltet, und eine Interpolationsfunktion auf der Zeitachse und das aus der Faltung resultierende Spektrogramm werden in der Zeitrichtung zum Erzeugen eines geglätteten Spektrogrammes gefaltet.
  • Durch das Verfahren der Transformierung des periodischen Signales gemäß dem zweiten Aspekt der Erfindung wird das geglättete Spektrogramm zum Umwandeln des periodischen Signales in ein anderes Signal benutzt. Der Einfluß der Periodizität in der Frequenzrichtung und der Zeitrichtung wird daher verringert. Ausgeglichene Zeit- und Frequenzauflösungen können folglich bestimmt werden.
  • Ein Verfahren der Transformierung von Schall gemäß einem dritten Aspekt der Erfindung enthält die Schritte des Erzeugens einer Impulsantwort unter Benutzung des Produktes einer Phasenkomponente und eines Schallspektrums und Umwandeln des Schalles in einen anderen Schall durch Aufaddieren der Impulsantwort auf der Zeitachse, während die Impulsantwort durch einen Zyklus des In tresse bewegt wird. Ein Schallquellensignal, das aus der Phasenkomponente resultiert, weist ein Leistungsspektrum gleich des in der Zeit verteilten Impulses und der in der Zeit verteilten Energie auf.
  • Durch das Verfahren der Transformierung von Schall gemäß dem dritten Aspekt der Erfindung weist das Schallquellensignal, das aus der Phasenkomponente resultiert, ein Leistungsspektrum entsprechend dem Impuls und der Energie, die in der Zeit verteilt sind, auf. Dieses ist es, warum ein natürlicher Ton erzeugt werden kann. Weiter ermöglicht die Benutzung solch ein Phasenkomponente, das ein Intervall präzise mit einer Resolution feiner als die Abtastfrequenz des Schalles gesetzt wird.
  • Ein Verfahren des Analysierens eines Signales gemäß einem vierten Aspekt der Erfindung enthält die Schritte des Annehmens, daß eine Zeitfrequenzoberfläche, die einen Mechanismus zum Erzeugen eines fast periodischen Signales darstellt, dessen Charakteristik sich mit der Zeit ändert, durch ein Produkt eines stückweisen Polynomes der Zeit und eines stückweisen Polynomes der Frequenz dargestellt wird, Extrahieren eines vorbestimmten Bereiches des fast periodischen Signales mit einer Fensterfunktion, Erzeugen eines ersten Spektrums aus dem fast periodischen Signal in dem extrahierten Bereich, Erzeugen einer optimalen Interpolationsfunktion in der Frequenzrichtung auf der Grundlage der Darstellung der Fensterfunktion in dem Frequenzbereich und einer Basis eines Raumes, die durch das stückweise Polynom der Frequenz dargestellt wird, unter Erzeugen eines zweiten Spektrums durch Falten des ersten Spektrums und der optimalen Interpolationsfunktion in der Frequenzrichtung. Die optimale Interplationsfunktion in der Frequenzrichtung minimiert einen Fehler zwischen dem zweiten Spektrum und einem Abschnitt entlang der Frequenzachse der Zeitfrequenzoberfläche.
  • Durch das Verfahren des Analysierens eines Signales gemäß dem vierten Aspekt der Erfindung wird Interpolation ausgeführt unter Benutzung der optimalen Interpolationsfunktion in der Frequenzrichtung zum Entfernen des Einflusses übermäßigen Glättens, so daß die Feinstruktur des Spektrums nicht übermäßig geglättet wird.
  • Weiterhin wird gemäß dem Verfahren der Analyse des Signales gemäß dem vierten Aspekt der Erfindung die Interpolation bevorzugt ausgeführt unter Benutzung einer optimalen Interpolationsfunktion in der Zeitrichtung zum Entfernen des Einflusses übermäßigen Glättens, so daß die Feinstruktur eines Spektrogrammes nicht übermäßig geglättet wird.
  • Ein Signalanalyseverfahren gemäß einem fünften Aspekt der Erfindung enthält die Schritte des Erzeugens eines ersten Spektrums für ein fast periodisches Signal, dessen Charakteristik sich mit der Zeit ändert, unter Benutzung einer ersten Fensterfunktion, Erzeugen einer zweiten Fensterfunktion unter Benutzung einer vorgeschriebenen Fensterfunktion, Erzeugen eines zweiten Spektrums für das fast periodische Signal unter Benutzung der zweiten Fensterfunktion und Erzeugen eines Mittelwertes des ersten und zweiten Spektrums durch Transformation durch eine quadratische oder monotone nicht negative Funktion, wodurch ein resultierender Mittelwert in ein drittes Spektrum gebildet wird. Der Schritt des Erzeugens der zweiten Fensterfunktion enthält die Schritte des Anordnens vorgeschriebener Fensterfunktionen an einem Intervall einer Fundamentalfrequenz auf beiden Seiten des Nullpunktes, Vorzeichenumkehrung von einem der so angeordneten Fensterfunktion und Kombinieren der Fensterfunktion, deren Vorzeichen umgedreht ist, und der anderen Fensterfunktion zum Erzeugen der zweiten Fensterfunktion.
  • Bei dem Signalanalyseverfahren gemäß dem fünften Aspekt der Erfindung wird das Mittel für das erste Spektrum, das unter Benutzung der ersten Fensterfunktion erhalten wird, und das zweite Spektrum, das unter Benutzung der zweiten Fensterfunktion erhalten wird, das zu der ersten Fensterfunktion komplementär ist, durch Transformation durch eine quadratische oder monotonen nicht negative Funktion erzeugt, und das Mittel wird als das dritte Spektrum benutzt. Das so erzeugte dritte Spektrum weist keinen Nullpunkt auf.
  • Die vorangehenden und weiteren Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden ersichtlicher aus der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn sie in Zusammenhang mit den begleitenden Zeichnungen genommen wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 zeigt ein Schallquellensignal, das unter Benutzung der Phasenkomponente Φ&sub2;(ω) erzeugt ist;
  • Fig. 2 zeigt ein Schallquellensignal, das unter Benutzung der Phasenkomponente Φ&sub3;(ω) erzeugt ist;
  • Fig. 3 zeigt ein Schallquellensignal, das unter Benutzung einer Phasenkomponente erzeugt ist, die durch Multiplizieren der Phasenkomponente Φ&sub2;(ω) und der Phasenkomponente Φ&sub3;(ω) erzeugt ist;
  • Fig. 4 ist ein Blockschaltbild, das schematisch eine Sprachschalltransformationseinrichtung zum Implementieren eines Sprachschalltransformationsverfahren gemäß einer ersten Ausführungsform der Erfindung zeigt;
  • Fig. 5 ist ein Diagramm, das ein Leistungsspektrum zeigt, das in einem Leistungsspektrumsberechnungsabschnitt in Fig. 4 erzeugt ist, und ein geglättetes Spektrum, das an einem Berechnungsabschnitt eines geglätteten Spektrums erzeugt ist;
  • Fig. 6 ist ein Diagramm, das eine Impulsantwort v(t) minimaler Phase zeigt;
  • Fig. 7 ist ein Diagramm, das ein Signal zeigt, das aus der Transformation und der Synthese resultiert;
  • Fig. 8 ist ein Blockschaltbild, das schematisch eine Sprachschalltransformationseinrichtung zum Implementieren eines Sprachschalltransformationsverfahrens gemäß einer zweiten Ausführungsform der Erfindung zeigt;
  • Fig. 9 zeigt ein Spektrogramm vor dem Glätten;
  • Fig. 10 zeigt ein geglättetes Spektrogramm;
  • Fig. 11 zeigt dreidimensional einen Teil des Spektrogramms in Fig. 9;
  • Fig. 12 zeigt dreidimensional einen Teil des Spektrogramms in Fig. 10;
  • Fig. 13 ist ein schematisches Blockschaltbild, das eine Gesamtkonfiguration einer Schallanalyseeinrichtung zum Implementieren eines Sprachschallanalyseverfahrens gemäß einer dritten Ausführungsform der Erfindung zeigt;
  • Fig. 14 zeigt eine optimale Interpolationsglättungsfunktion auf einer Frequenzachse, die in einem Berechnungsabschnitt eines geglätteten transformierten normalisierten Spektrums in Fig. 13 benutzt wird;
  • Fig. 15 ist ein schematisches Bild, das eine Gesamtkonfiguration einer Signalanalyseeinrichtung zum Implementieren eines Signalanalyseverfahrens gemäß einer vierten Ausführungsform der Erfindung zeigt;
  • Fig. 16 zeigt eine optimale Interpolationsglättungsfunktion auf der Zeitachse, die in einem Berechnungsabschnitt eines geglätteten transformierten normalisierten Spektrogramms in Fig. 15 benutzt wird;
  • Fig. 17 ist ein schematisches Blockschaltbild, das eine Gesamtkonfiguration einer Sprachschallanalyseeinrichtung zum Implementieren eines Sprachschallanalyseverfahrens gemäß einer fünften Ausführungsform der Erfindung zeigt;
  • Fig. 18 zeigt ein adaptives Zeitfenster w(t), das in einem Erzeugungsabschnitt eines adaptiven Zeitfensters in Fig. 17 erhalten wird, und ein adaptives komplementäres Zeitfenster wd(t), das an einem Erzeugungsabschnitt eines adaptiven komplementären Zeitfensters in Fig. 17 erhalten wird;
  • Fig. 19 zeigt ein Beispiel einer Sprachschallwellenform in Fig. 17;
  • Fig. 20 zeigt ein dreidimensionales Spektrogramm p(ω), das aus einem Leistungsspektrum P²(ω) gebildet ist, das unter Benutzung des adaptiven Zeitfensters w(t) in Fig. 18 für einen periodischen Pulszug erzeugt wird;
  • Fig. 21 zeigt ein dreidimensionales komplementäres Spektrogramm Pc(ω), das aus einem komplementären Leistungsspektrum P²c(ω) gebildet ist, das unter Benutzung des komplementären Zeitfensters wd(t) in Fig. 18 für einen periodischen Pulszug erzeugt wird;
  • Fig. 22 zeigt ein dreidimensionales Leistungsspektrum Pnz(ω) ungleich Null, das aus einem Leistungsspektrum P²nz(ω) ungleich Null für einen periodischen Pulszug gebildet ist, der an einem Berechnungsabschnitt eines Leistungsspektrums ungleich Null in Fig. 17 erhalten wird;
  • Fig. 23 ist ein schematisches Blockschaltbild, das eine Gesamtkonfiguration einer Sprachschallanalyseeinrichtung zum Implementieren eines Sprachschallanalyseverfahrens gemäß einer sechsten Ausführungsform der vorliegenden Erfindung zeigt;
  • Fig. 24 zeigt ein Beispiel einer Sprachschallwellenform in Fig. 23; und
  • Fig. 25 ist ein Wellenformdiagramm, das ein Signal zeigt, das einen Maximalwert nach dem Schließen einer Glottis annimmt, der an einem Extraktionsabschnitt eines Anregungspunktes in Fig. 23 erhalten wird.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Nun wird ein Sprachschalltransformationsverfahren in Begriffen eines Verfahrens der Transformierung eines periodischen Signales und eines Verfahrens einer Transformierung von Schall gemäß der vorliegenden Erfindung in der Reihenfolge seine Prinzipes, Verarbeitung und Einzelheiten, die in der Verarbeitung enthalten sind, beschrieben.
  • [Erste Ausführungsform] (Prinzipien)
  • Diese Ausführungsform nimmt eindeutig Vorteil der Periodizität eines Sprachschallsignales und sieht ein Spektralhülle durch ei ne direkte Berechnung ohne die Notwendigkeit von Berechnungen mit Iteration und Bestimmung von Konvergenz vor. Phasenmanipulation wird nach Resynthetisierung des Signales von der so erzeugten Spektralhülle durchgeführt, damit der Zyklus und der Ton mit einer feineren Auflösung als die Abtastfrequenz gesteuert wird und um einen empfindungsgemäß natürlichen Schall zu erhalten.
  • Das folgende periodische Signal (Sprachschallsignal) f(t) wird angenommen. Genauer, fn(t) = f(t + nτ) steht, wobei t die Zeit darstellt, n eine willkürliche ganze Zahl darstellt und τ die Periode eines Zyklus darstellt. Wenn die Fouriertransformierte des Signales F(ω) ist, ist F(ω) gleich einem Pulszug mit einem Intervall von 2π/τ, das wie folgt unter Benutzung einer geeigneten Interpolationsfunktion h(λ) geglättet wird.
  • S(ω) = g&supmin;¹( ∞∞h(λ)g( F(ω - λ) ²)dλ) ... (1)
  • Wobei S(ω) ein geglättetes Spektrum ist, g() eine geeignete monotone ansteigende Funktion ist, g&supmin;¹ die inverse Funktion von g() ist und ω und λ Winkelfrequenzen sind. Obwohl das Integral von -∞ bis +∞ läuft kann es den Bereich von -2π/τ bis 2π/τ annehmen, in dem irgendeine Interpolationsfunktion benutzt wird, die 0 außerhalb des Bereiches von -2π/τ bis 2π/τ zum Beispiel annimmt. Hier muß die Interpolationsfunktion eine lineare Rekonstruktionsbedingung erfüllen, die unten gegeben wird. Die linearen Rekonstruktionsbedingungen formulieren rational die Spektralhülle, die darstellt, daß die Toninformation "frei von dem Einfluß der Periodizität des Signales und geglättet" ist.
  • Die linearen Rekonstruktionsbedingungen werden erläutert. Die Bedingungen verlangen, daß der durch die Interpolationsfunktion geglättete Wert konstant ist, wenn benachbarte Pulse von der gleichen Höhe sind. Die Bedingungen verlangen weiter, daß der durch die Interpolationsfunktion geglättete Wert linear wird, wenn sich die Höhen der Pulse mit konstanter Rate ändert. Die Interpolationsfunktion h(λ) ist eine Funktion, die durch Falten einer Dreiecksinterpolationsfunktion h&sub2;(ω) mit einer Weite von 4π/τ, die als Barlett-Fenster bekannt ist, und einer Funktion mit einer lokalisierten Energie, wie die durch Frequenzumwandlung einer Zeitfensterfunktion erzeugte, erzeugt wird. Genauer, in S(ω) gilt die folgenden Gleichung in dem Abschnitt (Δω, (N-2)Δω)
  • aω + b = ∞-∞(aω + b)h&sub2;(λ)( δ(ω - λ - kΔω))dλ ... (2)
  • wobei a und b willkürliche Konstanten sind, δ() eine Deltafunktion ist und Δω eine Winkelfrequenzdarstellung des Intervalles der Harmonischen auf der Frequenzachse entsprechend den Zyklus τ des Signales ist. Es sei angemerkt, daß sin(x)/x, die als Abtastfunktion bekannt ist, die linearen Rekonstruktionsbedingungen erfüllen würde, wenn sich der Pulszug unendlich fortsetzt mit einem konstanten Wert oder sich mit einer Änderung bei einer konstanten Rate fortsetzt. Ein tatsächliches Signal, das sich in der Zeit ändert, setzt sich jedoch nicht mit dem gleichen Trend fort und erfüllt daher nicht die lineare Rekonstruktionsfunktion.
  • Die Wechselwirkung mit dem Zeitfenster wird beschrieben. Wenn eine kurzfristige Fouriertransformierte eines Signales verlangt wird, sollte ein Teil des Signales unter Benutzung einer Fensterfunktion w(t) benutzt werden. Wenn eine periodische Funktion unter Benutzung solch einer Fensterfunktion ausgeschnitten wird, hat die kurzfristige Fouriertransformierte W(ω), d. h. eine Fouriertransformierte der Fensterfunktion gefaltet in einem Pulszug der Frequenzdomäne. Auch in solch einem Fall ermöglicht die Benutzung einer Barlett-Fensterfunktion, die die linearen Rekonstruktionsbedingungen erfüllt, als Interpolationsfunktion, daß die letzte Spektralhülle die linearen Rekonstruktionsbedingungen erfüllt.
  • Ein Verfahren des Steuerns einer Fundamentalfrequenz feiner als eine Abtastfrequenz wird beschrieben. Das geglättete Spektrum reeller Zahlen, das wie oben beschrieben wurde erzeugt ist, wird direkt einer inversen Fourier-Transformation zum Erzeugen einer Impulsantwort s(t) linearer Phase in der Zeitdomäne unterworfen, die ein Element sein soll. Speziell, in dem die Einheit der imaginären Zahl j = -1 benutzt wird, gilt die folgende Gleichung:
  • Alternativ kann die Impulsantwort v(t) der minimalen Phase wie folgt erzeugt werden.
  • Transformierter Sprachschall kann erzeugt werden, in dem Impulsantworten s(t) linearer Phase oder Impulsantworten v(t) minimaler Phase aufaddiert werden, während sie um den Zyklus von Interesse auf der Zeitachse bewegt werden. Jedoch kann gemäß dem Verfahren, wenn das Signal diskret beim Abtasten ist, der Zyklus nicht feiner als die Fundamentalperiode gesteuert werden, die auf der Grundlage der Abtastfrequenz bestimmt ist. Daher wird, in dem Vorteil genommen wird, daß die Zeitverzögerung als eine lineare Änderung in der Phase in der Frequenzdomäne ist, eine Korrektur für den Zyklus feiner als die Fundamentalperiode nach dem Bilden der Wellenform erzeugt, damit eine Rekonstruktionswellenform transformiert wird, wodurch das Problem gelöst wird. Genauer der Zyklus &tau; von Interesse wird als (m + r)&Delta;T unter Benutzung der Fundamentalperiode &Delta;T dargestellt. Hier ist m eine ganze Zahl, r eine reelle Zahl, und es gilt 0 &le; r < 1. Dann wird der Wert der speziellen Phasenkomponente (hier im folgenden als Phasenkomponente bezeichnet) &Phi;&sub1;(&omega;) wie folgt dargestellt:
  • &Phi;&sub1;(&omega;) = e-j&omega;r&Delta;T... (8)
  • Wenn ein linearer Phasenpuls benutzt wird, wird S(&omega;) durch die Phasenkomponente &Phi;&sub1;(&omega;) zum Erhalten von Sr(&omega;) eingephast. Genauer, &Phi;&sub1;(&omega;) wird mit S(&omega;) zum Erzeugen von Sr(&omega;) multipliziert. Dann wird Sr(&omega;) anstelle von S(&omega;) in Gleichung (3) benutzt, und die Impulsantwort sr(t) der linearen Phase wird erzeugt. Die Impulsantwort sr(t) der linearen Phase wird zu der Position des ganzzahligen Betrages m&Delta;T des Zyklus von Interesse zum Erzeugen einer Wellenform addiert.
  • Wenn die Impulsantwort minimaler Phase benutzt wird, wird V(&omega;) mit der Phasenkomponente &Phi;&sub1;(&omega;) zum Erzeugen von Vr(&omega;) eingephast. Genauer, &Phi;&sub1;(&omega;) wird mit V(&omega;) zum Erzeugen von Vr(&omega;) multipliziert. Dann wird Vr(&omega;) anstelle von V(&omega;) in Gleichung (7) zum Erzeugen der Impulsantwort vr(t) minimaler Phase benutzt. Die Impulsantwort vr(t) minimaler Phase wird zu der Position des ganzzahligen Betrages m&Delta;T in dem Zyklus von Interesse zum Erzeugen einer Wellenform addiert.
  • Ein anderes Beispiel des Einphasens der Komponente &Phi;&sub2;(&omega;) wird wie folgt dargestellt:
  • &Phi;&sub2;(&omega;) = exp(jp(&omega;) &alpha;k·sin(mk·&xi;(&omega;)))... (9)
  • wobei exp() eine Exponentialfunktion darstellt und &xi;(&omega;) eine glatte kontinuierliche ungrade Funktion zum Abbilden des Bereiches -&pi; &le; &omega; &le; &pi; auf den Bereich -&pi; &le; &xi; &le; &pi; ist und so beschränkt ist, daß &xi;(&omega;) = &omega; an beiden Enden des Bereiches -&pi; und +&pi; ist. &Lambda; ist eine Menge von Indizes, z. B. eine endliche Zahl von Zahlen wie 1, 2, 3 und 4. Die Gleichung (9) zeigt, daß &Phi;&sub2;(&omega;) als eine Summe einer Mehrzahl von verschiedenen trigonometrischen Funktionen auf der Winkelfrequenz &omega; dargestellt ist, die expandiert/kontrahiert in nicht linearer Form durch &xi; (&omega;) wird, wobei jede trigonometrische Funktion durch einen Faktor &alpha;k gewichtet wird. Es sei angemerkt, daß k in Gleichung (9) eine Zahl ist, die aus &Lambda; genommen wird, und mk in der Gleichung einen Parameter darstellt. &rho;(&omega;) stellt eine Funktion dar, die ein Gewicht bezeichnet. Ein Beispiel einer kontinuierlichen Form &xi;(&omega;) mit dem Parameter &beta; ist wie folgt gegeben, wobei sgn() eine Funktion ist die 1 wird, wenn das Innere von () gleich 0 ist oder positiv, und die -1 für negative Werte ist.
  • &xi;(&omega;) = &pi;·sgn(&omega;) &omega;/&pi; &beta;
  • In dem davon Vorteil genommen wird, daß das Frequenzdifferential der Phasendrehung auf der Frequenzachse der Gruppenverzögerung entspricht, in dem das Integral einer ganzen Zahl, deren Mittelwert 0 ist, als Phasenkomponente benutzt wird, kann die Verteilung der Gruppenverzögerung durch die Zufallszahl gesteuert wer den. Die Steuerung der Phase einer Hochfrequenzkomponente trägt stark zu der Verbesserung der natürlichen Qualität des synthetisierten Sprachschalles bei, zum Beispiel zum Erzeugen von Stimmenschall, der mit dem Schall von Atmen gemischt ist. Genauer, Sprachschall wird synthetisiert durch Einphasen mit einer Phasenkomponente &Phi;&sub3;(&omega;), die wie folgt erzeugt wird.
  • Als erster Schritt wird eine Zufallszahl erzeugt, was von einem zweiten Schritt des Faltens der Zufallszahl, die in dem ersten Schritt erzeugt ist, und einer Bandbegrenzungsfunktion auf der Frequenzachse gefolgt wird. Als Resultat wird eine bandbegrenzte Zufallszahl erzeugt. Als dritter Schritt wird ein Zielwert einer Fluktuation einer Verzögerungszeit entwickelt. Die bandbegrenzte Zufallszahl (in dem zweiten Schritt erzeugt) wird mit dem Zielwert der Fluktuation der Verzögerungszeit zum Erzeugen einer Gruppenverzögerungscharakteristik multipliziert. Als vierter Schritt wird das Integral der Gruppenverzögerungscharakteristik über die Frequenz zum Erhalten einer Phasencharakteristik erzeugt. Als fünfter Schritt wird die Phasencharakteristik mit der imaginären Zahleneinheit (j = -1) zum Erhalten des Exponenten einer Exponentialfunktion multipliziert, und die Phasenkomponente &Phi;&sub3;(&omega;) resultiert.
  • Die Steuerung der Phase unter Benutzung einer trigonometrischen Funktion (die Steuerung der Phase unter Benutzung &Phi;&sub2;(&omega;) und die Steuerung der Phase unter Benutzung der Zufallszahl (die Steuerung der Phase unter Benutzung &Phi;&sub3;(&omega;) werden in Begriffen der Frequenzbereiche dargestellt, und daher wird &Phi;&sub2;(&omega;) mit &Phi;&sub3;(&omega;) zum Erzeugen einer Phasenkomponente, die die Natur von beidem aufweist, multipliziert. Genauer, eine Schallquelle mit einer rauschartigen Fluktuation, die von der Fluktuation einer turbulenten Strömung oder der Vibration der Stimmbänder in der Nähe von diskreten Pulsen entsprechend dem Auftreten des Öffnens oder Schließens der Glottis abgeleitet werden, kann erzeugt werden. Weiterhin kann &Phi;&sub1;(&omega;), &Phi;&sub2;(&omega;) und &Phi;&sub3;(&omega;) zum Erzeugen einer Phasenkomponente multipliziert werden, &Phi;&sub1;(&omega;) kann mit &Phi;&sub2;(&omega;) zum Erzeugen einer Phasenkomponente multipliziert werden, oder &Phi;&sub1;(&omega;) kann mit &Phi;&sub3;(&omega;) zum Erzeugen einer Phasenkomponente multipliziert werden. Hierbei ist das Verfahren des Einphasens unter Benutzung der Phasenkomponenten &Phi;&sub2;(&omega;), &Phi;&sub3;(&omega;), &Phi;&sub1;(&omega;) · &Phi;&sub2;(&omega;) · &Phi;&sub3;(&omega;), &Phi;&sub1;(&omega;) · &Phi;&sub2;(&omega;), &Phi;&sub1;(&omega;) · &Phi;&sub3;(&omega;) und &Phi;&sub2;(&omega;) · &Phi;&sub3;(&omega;) das gleiche wie das Verfahren des Einphasens unter Benutzung von &Phi;&sub1;(&omega;).
  • Fig. 1 zeigt ein Schallquellensignal, das unter Benutzung der Phasenkomponente &Phi;&sub2;(&omega;) erhalten ist. Es wird Bezug genommen auf Fig. 1, die Abszisse stellt die Zeit dar, und die Ordinate stellt den Schalldruck dar. Hierin wird Gleichung (10) als kontinuierliche Funktion &xi;(&omega;) benutzt, die die Phasenkomponente &Phi;&sub2;(&omega;) darstellt. Eine Gewichtsfunktion mit einem konstanten Wert &rho;(&omega; = 1) ist ausgewählt. &Lambda; ist als eine einzige Zahl gebildet, k = 1, m&sub1; = 30, &alpha;&sub1; = 0,3 und &beta; = 1. Fig. 2 zeigt ein Schallquellensignal, das unter Benutzung der Phasenkomponente &Phi;&sub3;(&omega;) erhalten ist. Fig. 3 zeigt ein Schallquellensignal, das unter Benutzung der Phasenkomponente &Phi;&sub2;(&omega;) · &Phi;&sub3;(&omega;) erhalten ist. Es wird Bezug genommen auf Fig. 2 und 3, die Abszisse stellt die Zeit dar, und die Ordinate stellt den Schalldruck dar. Es wird Bezug genommen auf Fig. 1 bis 3, es wird beobachtet, daß das Schallsignal die Energie in der Zeit als abwechselnde Pulse verteilt aufweist. Hier ist das Schallquellensignal in der Form einer Funktion in der Zeit der Phasenkomponente. Genauer, das Schallquellensignal wird durch die inverse Fourier transformiert der Phasenkomponente erzeugt und als eine Funktion in der Zeit dargestellt.
  • (Bearbeitung)
  • Das Verfahren der Transformierung des Sprachschalles gemäß der ersten Ausführungsform geht wie folgt voran. Es sei angenommen, daß ein Sprachschallsignal, das zu analysieren ist, durch irgendein Mittel digitalisiert ist. Als erste Bearbeitung wird das Extrahieren der Fundamentalfrequenz (Fundamentalperiode) eines Stimmschalles erörtert. Bei dem Verfahren der Transformierung des Sprachschalles der ersten Ausführungsform wird die Periodizität des Sprachschallsignales, das zu analysieren ist, eindeutig benutzt. Die Periodizitätsinformation wird benutzt zum Bestimmen der Größe einer Interpolationsfunktion in den Gleichungen (1) und (2). Bei der ersten Bearbeitung werden Teile des Sprachschallsignales eines nach dem andern ausgewählt, und eine Fundamentalfrequenz (Fundamentalperiode) wird in jedem Teil extrahiert. Genauer, die Fundamentalfrequenz (Fundamentalperiode) wird mit einer Auflösung feiner als die Fundamentalperiode des digitalisierten Sprachschallsignales extrahiert. Bezüglich des Abschnittes, der den nicht periodischen Signalabschnitte enthält, wird die Tatsache in einer Form extrahiert. Somit wird das präzise Extrahieren der Fundamentalfrequenz bei der ersten Bearbeitung kritisch in einer fünften Bearbeitung, die später beschrieben wird. Solches Extrahieren der Fundamentalfrequenz (Fundamentalperiode) wird mit einem allgemein vorhandenen Verfahren durchgeführt. Falls notwendig kann die Fundamentalfrequenz manuell durch visuelles Inspizieren der Wellenform des Sprachschalles bestimmt werden.
  • Eine zweite Bearbeitung zum Anpassen einer Interpolationsfunktion unter Benutzung der Information der Fundamentalfrequenz wird erörtert. Bei der zweiten Bearbeitung wird unter Benutzung einer eindimensionalen Interpolationsfunktion, die die in Gleichung (2) ausgedrückten Bedingungen erfüllt, das Spektrum des Sprachschallsignales und die Interpolationsfunktion in der Richtung der Frequenz gemäß der Gleichung (1) zum Berechnen eines geglätteten Spektrumes gefaltet. Somit wird der Einfluß der Periodizität in der Richtung der Frequenz ausgeschlossen.
  • Eine dritte Bearbeitung zum Transformieren von Sprachschallparametern wird beschrieben. Bei der dritten Bearbeitung wird zum Ändern der Natur des Stimmschalles eines Sprechers (z. B., um eine weibliche Stimme in eine männliche Stimme zu ändern) die in Sprachschallparametern erhaltene Frequenzachse (das geglättete Spektrum und die feine Fundamentalfrequenzinformation) kompri miert, oder die feine Fundamentalfrequenz wird mit einem geeigneten Faktor zum Ändern der Tonhöhe der Stimme multipliziert. Somit ist das Ändern der Sprachschallparameter zum Erfüllen einer bestimmten Aufgabe eine Transformation von Sprachschallparametern. Eine Vielzahl von Sprachschallarten kann durch Addieren einer Manipulation der Sprachschallparameter (geglättetes Spektrum und feine Fundamentalfrequenzinformation) erzeugt werden.
  • Nun wird eine vierte Bearbeitung zum Synthetisieren von Sprachschall unter Benutzung der Sprachschallparameter, die aus der Transformation resultieren, beschrieben. Bei der vierten Bearbeitung wird eine Schallquellenwellenform für jeden Zyklus, der durch die feine Fundamentalfrequenz bestimmt ist, unter Benutzung der Gleichung (3) auf der Grundlage des geglätteten Spektrums erzeugt, und somit erzeugte Schallquellenwellenformen werden addiert, während die Zeitachse verschoben wird, damit ein Sprachschall erzeugt wird, der aus einer Transformation resultiert, mit anderen Worten Sprachschallarten werden synthetisiert. Die Zeitachse kann nicht mit einer Genauigkeit feiner als die Fundamentalperiode verschoben werden, die auf der Grundlage der Abtastfrequenz auf dem digitalisierten Signal bestimmt ist. Auf der Grundlage des Bruchteilbetrages mit der akkumulierten Fundamentalperioden in Hinblick auf die Abtastperiode wird der Wert &Phi;&sub1;(&omega;), der unter Benutzung der Gleichung (8) berechnet ist, mit S(&omega;) in Gleichung (1) multipliziert, was dann benutzt wird zum Erzeugen einer Schallquellenwellenform, die durch s(t) dargestellt wird, unter Benutzung der Gleichung (3), so daß die Steuerung der Fundamentalfrequenz mit einer feineren Auflösung als die durch die Fundamentalperiode bestimmte ermöglicht ist.
  • Eine Schallquellenwellenform wird für jeden Zyklus erzeugt, der auf der Grundlage der feinen Fundamentalfrequenz bestimmt ist, unter Benutzung der Gleichungen (4), (5), (6) und (7) gemäß dem geglätteten Spektrum, und die somit erzeugten Schallquellenwellenformen können aufaddiert werden, während die Zeitachse verschoben wird, damit ein Sprachschall transformiert wird. In dem Fall des Restes (Bruchteile), die durch Dividieren der akkumulierten Fundamentalzyklen durch die Fundamentalperiode erzeugt werden, wird der Wert &Phi;&sub1;(&omega;), der unter Benutzung der Gleichung (8) berechnet ist, mit V(&omega;) in Gleichung (6) zum Erzeugen einer Schallquellenwellenform multipliziert, die durch v(t) dargestellt wird, in dem Gleichung (7) so benutzt wird, daß die Steuerung der Fundamentalfrequenz mit einer Genauigkeit feiner als die Auflösung ist, die auf der Grundlage der Fundamentalperiode bestimmt ist. Hierbei wird &Phi;&sub1;(&omega;) als eine Phasenkomponente für die Multiplikation mit S(&omega;) oder V(&omega;) benutzt; &Phi;&sub2;(&omega;), &Phi;&sub3;(&omega;), &Phi;&sub1;(&omega;) · &Phi;&sub2;(&omega;) · &Phi;&sub3;(&omega;), &Phi;&sub1;(&omega;) · &Phi;&sub2;(&omega;), &Phi;&sub1;(&omega;) · &Phi;&sub3;(&omega;) oder &Phi;&sub2;(&omega;) · &Phi;&sub3;(&omega;) können anstatt dessen benutzt werden.
  • Die vierte Bearbeitung kann in sich selbst benutzt werden. Genauer, das geglättete Spektrum ist nur ein zweidimensionales schattiertes Bild, und die feine Fundamentalfrequenz ist einfach eine eindimensionale Kurve mit einer Breite identisch zu der Querbreite des Bildes. Daher können unter Benutzung der vierten Bearbeitung solch ein Bild und Kurve in einen Schall ohne Verlust ihrer Information transformiert werden. Genauer, ein Schall kann mit solch einem Bild und einer Kurve ohne Eingeben eines Sprachschallsignales erzeugt werden.
  • (Einzelheiten der Bearbeitung)
  • Fig. 4 ist ein Blockschaltbild, das schematisch eine Sprachschalltransformationseinrichtung zum Implementieren des Sprachschalltransformationsverfahrens gemäß der ersten Ausführungsform der Erfindung zeigt. Es wird Bezug genommen auf Fig. 4, die Sprachschalltransformationseinrichtung enthält einen Berechnungsabschnitt 1 eines Leistungsspektrums, einen Berechnungsabschnitt 2 einer Fundamentalfrequenz, einen Berechnungsabschnitt 3 eines geglätteten Spektrums, einen Schnittstellenabschnitt 4, einen Transformationsabschnitt 5 eines geglätteten Spektrums, einen Transformationsabschnitt 6 einer Schallquelleninformation, einen Phasenabschnitt 7 und einen Wellenformsyntheseabschnitt 8.
  • Ein Beispiel des Transformierens eines Sprachschalles, der bei 8 kHz für 16 Bit unter Benutzung der in Fig. 4 gezeigten Sprachschalltransformationseinrichtung abgetastet ist, wird beschrieben.
  • Der Berechnungsabschnitt 1 eines Leistungsspektrums berechnet das Leistungsspektrum einer Sprachschallwellenform mittels FFT (schnelle Fourier-Transformation) unter Benutzung eines 30ms- Hanning-Fensters. Eine harmonische Struktur aufgrund der Periodizität des Sprachschalles wird in dem Leistungsspektrum beobachtet.
  • Fig. 5 zeigt ein Beispiel eines Leistungsspektrums, das von dem Berechnungsabschnitt 1 eines Leistungsspektrums erzeugt ist, und ein Beispiel eines geglätteten Spektrums, das von dem Berechnungsabschnitt 3 eines geglätteten Spektrums erzeugt ist, die in Fig. 4 gezeigt sind. Die Abszisse stellt die Frequenz dar, und die Ordinate stellt die Intensität in logarithmischer (Dezibel) Darstellung dar. Es wird Bezug genommen auf Fig. 5, die durch einen Pfeil a bezeichnete Kurve ist das Leistungsspektrum, das von dem Berechnungsabschnitt 1 eines Leistungsspektrums erzeugt ist.
  • Es wird wieder Bezug genommen auf Fig. 4, die Fundamentalfrequenz f&sub0; des Sprachschalles wird an dem Berechnungsabschnitt 2 einer Fundamentalfrequenz auf der Grundlage des Zyklus der harmonischen Struktur des in Fig. 5 gezeigten Leistungsspektrums erzeugt. Der Berechnungsabschnitt 1 eines Leistungsspektrums und der Berechnungsabschnitt 2 einer Fundamentalfrequenz führen die oben beschriebene erste Bearbeitung aus (Extrahieren der Fundamentalfrequenz eines Sprachschalles). An dem Berechnungsabschnitt 3 eines geglätteten Spektrums wird auf der Grundlage der Fundamentalfrequenz f&sub0;, die in dem Berechnungsabschnitt 2 einer Fundamentalfrequenz berechnet wird, eine Funktion in der Form eines Dreieckes mit einer Breite von 2f&sub0; zum Beispiel als eine Interpolationsfunktion zum Glätten ausgewählt. Unter Bezugnahme der Interpolationsfunktion wird eine zyklische Faltung auf der Frequenzachse zum Erzeugen eines geglätteten Spektrums ausgeführt.
  • Es wird wieder Bezug genommen auf Fig. 5, die durch einen Pfeil b bezeichnete Kurve ist ein geglättetes Spektrum. Hier wird eine Funktion zum Erhalten einer Quadratwurzel als monoton ansteigende Funktion g() benutzt. Zum Annähern an eine menschliche Wahrnehmung kann eine Funktion zum Erheben in die 6/10-te Potenz benutzt werden. Der Berechnungsabschnitt 3 eines geglätteten Spektrums führt die oben beschriebene zweite Bearbeitung durch (Anpassen einer Interpolationsfunktion, wobei Vorteil von der Information einer Fundamentalfrequenz genommen wird). Das an dem Berechnungsabschnitt 3 eines geglätteten Spektrums erzeugte geglättete Spektrum wird zu dem Transformationsabschnitt 5 eines geglätteten Spektrums geliefert, und die Schallquelleninformation (feine Fundamentalfrequenzinformation), die an dem Berechnungsabschnitt 2 einer Fundamentalfrequenz erhalten ist, wird an den Transformationsabschnitt 6 einer Schallquelleninformation geliefert. Das geglättete Spektrum und die Schallquelleninformation können für die spätere Benutzung gespeichert werden. Der Schnittstellenabschnitt 4 dient als eine Schnittstellenabschnitt zwischen der Stufe des Berechnens des geglätteten Spektrums und der Schallquelleninformation und der Stufe der Transformation/Synthese.
  • An dem Transformationsabschnitt 5 eines geglätteten Spektrums wird das geglättete Spektrum S(&omega;) in V(&omega;) zum Erzeugen einer Impulsantwort v(t) minimaler Phase transformiert. Wenn der Ton zu manipulieren ist, wird das geglättete Spektrum durch Manipulation wie gewünscht deformiert, und das deformierte geglättete Spektrum Sm(&omega;) resultiert. Alternativ wird das deformierte geglättete Spektrum Sm(&omega;) in V(&omega;) unter Benutzung der Gleichungen (4) bis (6) transformiert. Genauer, anstelle von S(&omega;) in Gleichung (4) wird V(&omega;) unter Benutzung von Sm(&omega;) berechnet. In der folgenden Beschreibung wird das geglättete Spektrum als auch das deformierte geglättete Spektrum Sm(&omega;) als "S(&omega;)" dargestellt. An dem Transformationsabschnitt 6 einer Schallquelleninformation wird parallel zu der Transformation an dem Transformationsabschnitt 5 eines geglätteten Spektrums die Schallquelleninformation zum Erfüllen eines speziellen Zweckes transformiert. Die Bearbeitungen an dem Transformationsabschnitt 5 eines geglätteten Spektrums und dem Transformationsabschnitt 6 einer Schallquelleninformation entsprechen der obigen dritten Bearbeitung (Transformation von Sprachschallparametern). An dem Phasenabschnitt 7 wird unter Benutzung der Spektrumsinformation und der Schallquelleninformation, die aus der Transformation an dem Transformationsabschnitt 5 eines geglätteten Spektrums und an dem Transformationsabschnitt 6 einer Schallquelleninformation resultieren, eine Bearbeitung zum Manipulieren der Fundamentalperiode mit einer feineren Auflösung als die Fundamentalperiode ausgeführt. Genauer, die Zeitposition zum Anordnen einer Wellenform von Interesse wird unter Benutzung der Fundamentalperiode &Delta;T als eine Einheit berechnet, daß Resultat wird in einen ganzzahligen Abschnitt und einen Abschnitt reeller Zahl getrennt, und die Phasenkomponente &Phi;&sub1;(&omega;) wird unter Benutzung des Abschnittes der reellen Zahl erzeugt. Dann wird die Phase von S(&omega;) oder V(&omega;) eingestellt. An dem Wellenformsyntheseabschnitt 8 werden das an dem Phasenabschnitt 7 eingephaste geglättete Spektrum und die an dem Transformationsabschnitt 6 einer Schallquelleninformation transformierte Schallquelleninformation zum Erzeugen einer synthetisierten Wellenform benutzt. Der Phasenabschnitt 7 und der Wellenformsyntheseabschnitt 8 führen die vierte Bearbeitung (Sprachschallsynthese durch transformierte Sprachschallparameter) durch, die oben beschrieben wurde. Fig. 6 zeigt ein Beispiel einer Impulsantwort v(t) einer minimalen Phase, die durch die inverse Fouriertransformierte von V(&omega;) erzeugt wird. Es wird Bezug genommen auf Fig. 6, die Abszisse stellt die Zeit dar, und die Ordinate stellt den Schalldruck (Amplitude) dar. Fig. 7 zeigt eine Signalwellenform, die aus der Synthese durch Transformieren einer Schallquelle unter Benutzung von V(&omega;) resultiert. Es wird Bezug genommen auf Fig. 7, die Abszisse stellt die Zeit dar, und die Ordinate stellt den Schalldruck (Amplitude) dar. Es wird Bezug genommen auf Fig. 7, da die Fundamentalfrequenz so gesteuert ist, daß sie feiner als die Fundamentalperiode ist, sind die Form der wiederholten Wellenformen oder die Höhen ihrer Spitzen ein wenig unterschiedlich.
  • Wie bei dem vorangehenden, werden gemäß dem Verfahren der Transformierung von Sprachschall, in dem Vorteil genommen wird, daß die Spitzen des Spektrums eines periodischen Signales an gleichen Intervallen auf der Frequenzachse erscheinen, eine Interpolationsfunktion zum Erhalten Linearität, wenn sich die Spitzenwerte des Spektrums an gleichen Intervallen linear ändern, und das Spektrum des periodischen Signales zum Erzeugen eines geglätteten Spektrums gefaltet. Genauer, ein Spektrum, das weniger durch die Periodizität beeinflußt ist, kann resultieren. Als Resultat kann gemäß dem Verfahren der Transformierung von Sprachschall der ersten Ausführungsform ein Sprachschall in Höhe, Geschwindigkeit und Frequenzband in dem Bereich von bis zu 500% transformiert werden, was bis jetzt noch nie ohne schwere Verschlechterung erzielt worden ist.
  • Weiterhin wird gemäß dem Verfahren der Transformierung von Sprache der ersten Ausführungsform ein geglättetes Spektrum unter einer einzelnen rationalen Bedingung extrahiert, das nur die Periodizität eines Signales benutzt wird zum Rekonstruieren eines linearen Abschnittes als einen linearen Abschnitt, und daher kann Schall, der von irgendeiner Schallquelle imitiert wird, in einen Schall höher Qualität transformiert werden im Gegensatz zu Verfahren, die auf dem Modell eines Spektrums basieren.
  • Da ebenfalls gemäß dem Verfahren der Transformierung von Sprache der ersten Ausführungsform Störung an der Form des Spektrums durch eine periodische Komponente in der Analyse eines Sprachschalles oder ähnliches stark verringert werden kann, ist ein geglättetes Spektrum nützlich zur Untersuchung eines Sprachschalles.
  • Da weiter gemäß dem Verfahren der Transformierung von Sprachschall der ersten Ausführungsform Störung an der Form eines Spektrums durch eine periodische Komponente in der Analyse eines Sprachschalles stark verringert werden kann, kann ein geglättetes Spektrum stark zur Verbesserung der Genauigkeit des Erzeugens eines Standardmusters in der Sprachschallerkennung/Sprechererkennung beitragen.
  • Zusätzlich kann gemäß dem Verfahren der Transformierung von Sprachschall der ersten Ausführungsform Information eines geglätteten Spektrums und Information einer Schallquelle (Information über die Periodizität oder Intensität eines Sprachschalles) in einem elektrischen Musikinstrument getrennt gespeichert werden, anstatt ein abgetastetes Signal selbst zu speichern, musikalischer Ausdruck, der bis jetzt nicht demonstriert worden ist, kann durch Feinsteuerung eines Zyklus oder Steuerung eines Tones unter Benutzung einer Phasenkomponente erzeugt werden.
  • Da zusätzlich gemäß dem Verfahren der Transformierung von Sprachschall der ersten Ausführungsform ein willkürlich verblaßtes Bild in Schall synthetisiert werden kann, werden Anwendungen auf künstlerischen Ausdruck, Informationsdarstellung für die visuell Behinderten und eine neue Benutzerschnittstelle durch Darstellung von Daten in einem Computer in akustischen Schall ermöglicht. Solche Anwendungen würden grundsätzlich das Studium von Sprachschall ändern als auch Auswirkungen auf das Gebiet von Schall bringen, wie die Computergraphik auf dem Gebiet der Bilder.
  • Weiterhin kann das Verfahren der Transformierung von Sprachschall gemäß der ersten Ausführungsform das folgende ermöglichen. Es sei zum Beispiel in Betracht gezogen, daß die Größe des phonetischen Organes einer Katze ungefähr ein Viertel der Größe eines menschlichen phonetischen Organes ist, wenn der vokale Schall einer Katze in einen transformiert würde, als ob er von einem Organ viermal der tatsächlichen Größe käme, oder der menschliche Vokalschall in einen transformiert würde, als wenn er von einem Organ ein Viertel der tatsächlichen Größe käme, gemäß dem Verfahren der Transformierung von Sprachschall der ersten Ausführungsform könnte eine Kommunikation in gleicher Größe, die aufgrund physikalischer Differenz nicht möglich gewesen ist, möglich sein zwischen Tieren verschiedener Arten.
  • [Zweite Ausführungsform]
  • Die Natur eines allgemeinen Spektrogrammes (Spektrum in der Zeit/Frequenzdarstellung) wird angegeben. Zuerst wird ein Spektrogramm mit einer hohen Zeitauflösung beschrieben. Bei einer willkürlichen Frequenz wird die Änderung des Spektrogrammes in Zeitrichtung beobachtet. In diesem Fall ist in der Zeitdarstellung des Spektrogrammes ein Einfluß der Periodizität eines Sprachschalles verblieben. Wenn weiterhin die Zeit fest ist, wird die Änderung des Spektrogrammes in der Richtung der Frequenz beobachtet. In diesem Fall wird beobachtet, daß die Änderung der Frequenzdarstellung des Spektrogrammes im Vergleich mit der Änderung der Frequenzdarstellung des ursprünglichen Spektrogrammes ruiniert ist. Nun wird die Natur eines Spektrogrammes mit hoher Frequenzauflösung beschrieben. Wenn die Frequenz fest ist, wird die Änderung des Spektrogrammes in der Zeit beobachtet. In diesem Fall wird beobachtet, daß die Änderung der Zeitdarstellung des Spektrogrammes im Vergleich mit der Änderung der Zeitdarstellung des ursprünglichen Spektrogrammes ruiniert ist. Wenn weiter die Zeit fest ist, wird die Änderung des Spektrogrammes in der Frequenzrichtung beobachtet. In diesem Fall verbleibt der Einfluß der Periodizität in der Frequenzdarstellung des Spektrogrammes. Wenn die Frequenzauflösung erhöht wird, wird die Zeitauflösung notwendigerweise gesenkt, während wenn die Zeitauflösung erhöht wird, die Frequenzauflösung notwendigerweise gesenkt wird.
  • Gemäß einem herkömmlichen Verfahren der Transformierung von Sprachschall ist das zu analysierende Spektrum stark durch die Periodizität beeinflußt, und daher gibt es wenig Flexibilität beim Manipulieren eines Sprachschalles. Daher wird bei dem Verfahren der Transformierung von Sprachschall gemäß der ersten Ausführungsform ein in der Frequenzrichtung geglättetes Spektrum zum Verringern des Einflusses der Periodizität in der Frequenzrichtung des zu analysierenden Spektrums erhalten. In diesem Fall wird zum Verringern des Einflusses der Periodizität in der Zeitrichtung die Frequenzauflösung vergrößert (die Zeitauflösung wird verkleinert), und das Spektrum wird analysiert. Wenn die Frequenzauflösung erhöht wird, werden feine Änderung eines Spektrums in der Zeitrichtung ruiniert. Ein Verfahren der Transformierung von Sprachschall gemäß einer zweiten Ausführungsform ist auf eine Lösung eines solchen Problemes gerichtet.
  • (Prinzipien)
  • Die Prinzipien des Verfahrens der Transformierung von Sprachschall gemäß der zweiten Ausführungsform sind identisch zu jenen des Verfahrens der Transformierung von Sprachschall gemäß der ersten Ausführungsform, wobei ein wesentlicher Unterschied der ist, daß gemäß der ersten Ausführungsform es verlangt wird, daß die Interpolationsfunktion h(&lambda;) in Gleichung (1) die lineare Rekonstruktionsbedingung erfüllt, aber gemäß der zweiten Ausführungsform wird verlangt, daß die Interpolationsfunktion h(t) (&lambda;, u) in Gleichung (11) eine bilineare Oberflächenrekonstruktionsbedingung zusätzlich zu der linearen Rekonstruktionsbedingung erfüllt.
  • S&sub2;(&omega;, t) = g&supmin;¹( &infin;-&infin;&infin;-&infin;ht(&lambda;, u)g( F&sub2;(&omega; - &lambda;, t - u) ²)d&lambda;du) ...(11)
  • Wobei &lambda; eine Integralvariable entsprechend einer Frequenz und u eine Integralvariable entsprechend der Zeit darstellt. S&sub2;(&omega;, t) ist ein geglättetes Spektrogramm entsprechend zu S(&omega;) in Glei chung (1), während F&sub2;(&omega;, t) ein Spektrogramm entsprechend zu F(&omega;) in Gleichung (1) ist. Die bilineare Oberflächenrekonstruktionsbedingung wird beschrieben. Die lineare Rekonstruktionsbedingung in der ersten Ausführungsform ist auf der Frequenzachse. Der Periodizitätseffekt eines Signales wird auch in der Zeitrichtung erkannt. Daher kann in dem Fall eines periodischen Signales Information auf Gitterpunkten für jede Fundamentalfrequenz in der Frequenzrichtung und für jede Fundamentalperiode in der Zeitrichtung durch Analyse des Signales erhalten werden. Wenn die in der ersten Ausführungsform beschriebene eindimensionale Bedingung in eine zweidimensionale Bedingung erstreckt wird, wird von der Interpolationsfunktion ht(&lambda;, u) rationaler Weise verlangt, daß sie eine in der folgenden bilinearen Formel dargestellte Oberfläche erhält:
  • C&omega;&omega; + Ctt + C&sub0; = 0... (12)
  • wobei C&omega;, Ct und C&sub0; Parameter sind, die die bilineare Oberfläche darstellen und einen willkürlichen konstanten Wert annehmen können. Solche bilinearen Oberflächenrekonstruktionsbedingungen können erfüllt werden, in dem als Interpolationsfunktion ht(&lambda;, u) etwas benutzt wird, was durch eine zweidimensionale Faltung einer Dreiecksinterpolationsfunktion mit einer Breite von 4&pi;/&tau; in der Frequenzrichtung und einer Dreiecksinterpolationsfunktion mit einer Breite von 2&tau; in der Zeitrichtung erzeugt wird.
  • (Bearbeitung)
  • Eine erste Bearbeitung, eine dritte Bearbeitung und eine vierte Bearbeitung in dem Verfahren der Transformierung von Sprachschall gemäß der zweiten Ausführungsform sind identisch zu der ersten, der dritten bzw. vierten Bearbeitung gemäß der ersten Ausführungsform. Bei dem Verfahren der Transformierung von Sprachschall gemäß der zweiten Ausführungsform wird zwischen der ersten Bearbeitung und der zweiten Bearbeitung in dem Verfahren der Transformierung von Sprachschall der ersten Ausführungsform eine spezielle Bearbeitung ausgeführt. Die spezielle Bearbeitung bei dem Verfahren der Transformierung von Sprachschall gemäß der zweiten Ausführungsform wird hier im folgenden als "die Zwischenverarbeitung" bezeichnet. Bei der zweiten Bearbeitung des Verfahrens der Transformierung von Sprachschall gemäß der zweiten Ausführungsform unterscheidet sich von der zweiten Bearbeitung gemäß der ersten Ausführungsform. Bei der dritten Bearbeitung bei dem Verfahren der Transformierung von Sprachschall der zweiten Ausführungsform kann sowohl die dritte Bearbeitung gemäß der ersten Ausführungsform als auch anderer Bearbeitungen durchgeführt werden.
  • Die Zwischenbearbeitung zur Frequenzanalyse, die für die Fundamentalperiode ausgelegt ist, wird beschrieben. Bei der Zwischenbearbeitung wird unter Benutzung von Information über die Fundamentalperiode des Sprachschallsignales solch ein Zeitfenster vorgesehen, das das Verhältnis der Frequenzauflösung des Zeitfensters zu der Fundamentalfrequenz gleich dem Verhältnis der Zeitauflösung zu dem Zeitfenster zu der Fundamentalperiode für adaptive Spektralanalyse ist. In dem Abschnitt ohne Periodizität wie Rauschen ist eine Wahrnehmungszeitauflösung in der Größenordnung von einigen ms für die Länge des Zeitfensters zur Analyse gesetzt. Damit die Wirkung des Verfahrens gemäß der zweiten Ausführungsform maximiert wird, sollte bei der Zwischenbearbeitung eine Spektralanalyse bei einer Rahmenaktualisierungsperiode feiner als die Fundamentalperiode des Signales (wie ein Viertel der Fundamentalperiode oder feiner) durchgeführt werden, wobei das die obige Bedingung erfüllende Zeitfenster benutzt wird. Es sei angemerkt, daß für ein Zeitfenster mit fester Länge, wenn mehrere Fundamentalperioden in dem Zeitfenster enthalten sind, die Rekonstruktion ebenfalls zu einem großen Ausmaß bei der zweiten Bearbeitung möglich ist, was später beschrieben wird.
  • Die zweite Bearbeitung des Verfahrens der Transformierung von Sprachschall gemäß der zweiten Ausführungsform wird erläutert.
  • Bei der zweiten Bearbeitung wird die Zeitfrequenzdarstellung eines Spektrums, das bei der Bearbeitung bis zu der Zwischenbearbeitung erzeugt ist (z. B. die Intensität des Spektrums, die in einer Ebenen dargestellt wird, wobei die Abszisse die Zeit und die Ordinate die Frequenz ist, oder ein Sonogramm) mit anderen Wort ein Spektrogramm benutzt. Bei der zweiten Bearbeitung wird eine Interpolationsfunktion, die die Bedingungen der Gleichungen (2) und (12) erfüllt, auf der Grundlage der Information über die Fundamentalfrequenz erzeugt. Die Interpolationsfunktion und das Spektrogramm werden in der zweidimensionalen Richtung von Zeit und Frequenz gefaltet. Ein geglättetes Spektrogramm, von dem der Einfluß der Periodizität entfernt ist, wird so erhalten. Zusätzlich kann ein geglättetes Spektrogramm erhalten werden, in dem Information über Gitterpunkte auf der Zeitfrequenzebene, die mit einem periodischen Signal versehen sein kann, höchst wirksam in einer natürlichen Form extrahiert wird. Die dritte Bearbeitung bei dem Verfahren der Transformierung von Sprachschall gemäß der zweiten Ausführungsform enthält die dritte Bearbeitung gemäß der ersten Ausführungsform. In der dritten Bearbeitung gemäß der zweiten Ausführungsform wird die Zeitachse der erzeugten Sprachschallparameter (geglättetes Spektrogramm und feine Fundamentalfrequenzinformation) expandiert/komprimiert zum Erhöhen der Sprechrate. Es sei angemerkt, daß die Bearbeitung aufeinanderfolgend von der ersten Bearbeitung, der Zwischenbearbeitung, der zweiten Bearbeitung, der dritten Bearbeitung und der vierten Bearbeitung vorangeht.
  • (Einzelheiten der Bearbeitung)
  • Fig. 8 ist eine Sprachschalltransformationseinrichtung zum Implementieren des Verfahrens der Transformierung von Sprachschall gemäß der zweiten Ausführungsform. Es wird Bezug genommen auf Fig. 8, die Sprachschalltransformationseinrichtung enthält einen Berechnungsabschnitt 1 eines Leistungsspektrums, einen Berechnungsabschnitt 2 einer Fundamentalfrequenz, einen Analyseabschnitt 9 einer adaptiven Frequenz, einen Berechnungsabschnitt 10 eines geglätteten Spektrogrammes, einen Schnittstellenabschnitt 4, einen Transformationsabschnitt 11 eines geglätteten Spektrogrammes, einen Transformationsabschnitt 6 einer Schallquelleninformation, einen Phasenabschnitt 7 und einen Wellenformsyntheseabschnitt 8. Die gleichen Abschnitte, wie sie in Fig. 4 gezeigt sind, sind mit den gleichen Bezugszeichen bezeichnet und die Beschreibung wird weggelassen. Der Berechnungsabschnitt 1 eines Leistungsspektrums digitalisiert ein Sprachschallsignal. Das digitalisierte Sprachschallsignal, einen Menge einer Zahl von Datenstücken entsprechend 30 ms wird mit einem Zeitfenster multipliziert und in ein Kurzzeitspektrum mittels FFT (schnelle Fouriertransformation) oder ähnliches transformiert, und das Resultat wird an dem Berechnungsabschnitt 2 einer Fundamentalfrequenz als ein Spektrum mit Absolutwert geliefert. Der Berechnungsabschnitt 2 einer Fundamentalfrequenz faltet ein geglättetes Fenster in einem Frequenzbereich mit einer Breite von 600Hz mit dem Spektrum des Absolutwertes, das von dem Berechnungsabschnitt 1 eines Leistungsspektrums geliefert ist zum Erzeugen eines geglätteten Spektrums. Das von dem Berechnungsabschnitt 1 eines Leistungsspektrums gelieferte absolute Spektrum wird durch das geglättete Spektrum für jede entsprechende Frequenz geteilt, so daß ein flaches Spektrum der Absolutwerte erzeugt wird. Um es anders zu sagen (Absolutwertspektrum, das von dem Berechnungsabschnitt 1 eines Leistungsspektrums vorgesehen wird)/(geglättetes Spektrum das an dem Berechnungsabschnitt 2 einer Fundamentalfrequenz erzeugt wird) = (flaches Absolutwertspektrum).
  • Der Abschnitt des flachen Absolutwertspektrums bei 1000Hz oder niedriger wird mit einer Tiefpaßfiltercharakteristik mit einer Form einer Gaußverteilung multipliziert, und das Resultat wird zur zweiten Potenz erhoben, was von einer inversen Fourier- Transformation zum Erzeugen einer normalisierten und geglätteten Autokorrelationsfunktion gefolgt wird. Eine normalisierte Korrelationsfunktion, die durch Normalisieren der Korrelationsfunktion durch die Autokorrelationsfunktion des Zeitfensters erzeugt wird, das an dem Berechnungsabschnitt 1 eines Leistungsspektrums benutzt wird, wird nach ihrem Maximalwert durchsucht, damit der anfänglich geschätzte Wert der Fundamentalperiode des Sprachschalles erzeugt wird. Dann wird eine Parabolkurve entlang der Werte der drei Punkte einschließlich des Maximalwertes der normalisierten Korrelationsfunktion und der Punkte davor und danach angepaßt, damit die Fundamentalfrequenz feiner als die Abtastperiode zum Digitalisieren des Sprachschallsignales geschätzt wird. Wenn der Abschnitt nicht als ein periodischer Sprachschallabschnitt bestimmt wird, da die Leistung des von dem Berechnungsabschnitt 1 eines Leistungsspektrums geliefertes Absolutwertspektrum nicht genug ist oder der Maximalwert der normalisierten Korrelationsfunktion klein ist, wird der Wert der Fundamentalfrequenz auf 0 zum Aufzeichnen dieser Tatsache gesetzt. Der Berechnungsabschnitt 1 eines Leistungsspektrums und der Berechnungsabschnitt 2 einer Fundamentalfrequenz führen die erste Bearbeitung aus (Extrahieren der Fundamentalfrequenz des Sprachschalles). Die erste Bearbeitung wird wie oben beschrieben wiederholt und kontinuierlich für jede 1ms ausgeführt.
  • Es sei angemerkt, daß in dem Berechnungsabschnitt 2 einer Fundamentalfrequenz, wie in Zusammenhang mit der ersten Ausführungsform beschrieben wurde, ein allgemein vorhandenes Verfahren oder eine manuelle Tätigkeit des visuellen Inspizierens der Wellenformen eines Sprachschalles verwendet werden können.
  • Der Analyseabschnitt 9 einer adaptiven Frequenz entwirft solch ein Zeitfenster, das das Verhältnis der Frequenzauflösung des Zeitfensters und der Fundamentalfrequenz gleich dem Verhältnis der Zeitauflösung des Zeitfensters und der Fundamentalperiode ist auf der Grundlage des Wertes der Fundamentalfrequenz, die an dem Berechnungsabschnitt 2 einer Fundamentalfrequenz berechnet ist. Genauer nach dem Bestimmen der Form der Funktion des Zeitfensters wird die Tatsache benutzt, daß das Produkt der Zeitauflösung und der Frequenzauflösung ein konstanter Wert wird. Die Größe des Zeitfensters wird aktualisiert, in dem die Fundamen talfrequenz benutzt wird, die an dem Berechnungsabschnitt 2 einer Fundamentalfrequenz für jede Analyse eines Spektrums erzeugt wird. Das Spektrum wird erhalten unter Benutzung des so entworfenen Zeitfensters. Der Analyseabschnitt 9 einer adaptiven Frequenz führt die Zwischenverarbeitung (Frequenzanalyse ausgelegt für die Fundamentalperiode) aus. Der Berechnungsabschnitt 10 eines geglätteten Spektrogramms erhält eine Dreiecksinterpolationsfunktion mit einer Frequenzbreite zweimal der der Fundamentalfrequenz des Signales. Die Interpolationsfunktion und das an dem Analyseabschnitt 3 einer adaptiven Frequenz erzeugte Spektrum werden in der Frequenzrichtung gefaltet. Dann wird unter Benutzung einer Dreiecksinterpolationsfunktion mit einer Zeitlänge zweimal der der Fundamentalperiode das Spektrum, das in der Frequenzrichtung interpoliert ist, in der Zeitrichtung interpoliert, so daß ein geglättetes Spektrogramm erhalten wird mit einer bilinearen Funktionsoberfläche, die zwischen den Gitterpunkten auf der Zeitfrequenzebene ausfüllt. Der Berechnungsabschnitt 10 eines geglätteten Spektrogrammes führt die zweite Bearbeitung durch (Anpassen der Interpolationsfunktion unter Benutzung von Information über die Fundamentalfrequenz). Durch das Bearbeitung bis zu dem Berechnungsabschnitt 10 eines geglätteten Spektrogrammes wird das Sprachschallsignal in ein geglättetes Spektrogramm und eine feine Fundamentalfrequenzinformation aufgeteilt. Der Transformationsabschnitt 11 eines geglätteten Spektrogrammes und der Transformationsabschnitt 6 einer Schallquelleninformation führen die dritte Bearbeitung durch (Transformation in der Sprachschallparameter). Der Phasenabschnitt 7 und der Wellenformsyntheseabschnitt 8 führen die vierte Bearbeitung durch (Sprachschallsynthese durch die transformierten Sprachschallparameter).
  • Fig. 9 zeigt ein Spektrogramm vor dem Glätten. Fig. 10 zeigt ein geglättetes Spektrogramm. Es wird Bezug genommen auf Fig. 9 und 10, die Abszisse stellt die Zeit (ms) dar, und die Ordinate stellt den Index dar, der die Frequenz bezeichnet. Fig. 11 zeigt dreidimensional einen Teil von Fig. 9, Fig. 12 zeigt dreidimensional einen Teil von Fig. 10. Es wird Bezug genommen auf Fig. 11 und 12, die A-Achse stellt die Zeit dar, die B- Achse stellt die Frequenz dar, und die C-Achse stellt die Intensität dar.
  • Es wird Bezug genommen auf Fig. 9 und 10, Nullpunkte aufgrund einer gegenseitigen Störung von Frequenzkomponenten werden beobachtet. Die Nullpunkte als weiße Punkte in Fig. 9 und als "Ausnehmung" in Fig. 11 gezeigt. Es wird Bezug genommen auf Fig. 10 und 12, es wird beobachtet, daß die Nullpunkte verschwunden sind. Genauer, das Spektrogramm ist geglättet worden, und der Einfluß der Periodizität ist entfernt worden.
  • Bei dem Verfahren der Transformierung von Sprachschall gemäß der zweiten Ausführungsform wird Glätten nicht nur in der Richtung der Frequenz eines zu analysierenden Spektrums sondern auch in der Zeitrichtung durchgeführt. Genauer, das zu analysierende Spektrum ist glatt. Als Resultat kann der Einfluß der Periodizität des zu analysierenden Spektrogramms in der Zeitrichtung und Frequenzrichtung verringert werden. Daher ist es nicht nötig, übermäßig die Frequenzauflösung zu erhöhen, und daher werden feine Änderungen des zu analysierenden Spektrogrammes in der Zeitrichtung nicht ruiniert. Genauer, die Frequenzauflösung und die Zeitauflösung können in einer gut ausgeglichenen Weise bestimmt werden.
  • Das Verfahren der Transformierung von Sprachschall gemäß der zweiten Ausführungsform enthält all die Bearbeitungen in dem Verfahren der Transformierung von Sprachschall gemäß der ersten Ausführungsform. Das Verfahren gemäß der zweiten Ausführungsform sieht daher Wirkungen ähnlich zu dem Verfahren der ersten Ausführungsform vor. Weiter wird in dem Verfahren gemäß der zweiten Ausführungsform ein Spektrogramm anstatt eines Spektrums geglättet. Daher sieht das Verfahren gemäß der zweiten Ausführungsform Wirkungen ähnlich den Wirkungen vor, die von der ersten Ausfüh rungsform hervorgebracht werden, und die Wirkungen sind größer als die der ersten Ausführungsform.
  • [Dritte Ausführungsform]
  • Bei der ersten Ausführungsform ist ignoriert, daß das zu glättende Spektrum bei dem Berechnungsabschnitt 3 eines geglätteten Spektrums bereits durch ein Zeitfenster geglättet worden ist, das bei der Analyse der Frequenz bei dem Berechnungsabschnitt 2 einer Fundamentalfrequenz benutzt wurde. Somit flacht weiteres Glätten eines bereits etwas geglätteten Spektrums durch Falten mit einer Interpolationsfunktion die feiner Struktur eines Abschnittes (Spektrum) übermäßig ab, wobei die Frequenzachse einer Oberfläche (Zeitfrequenzoberfläche, die einen Mechanismus zum Erzeugen eines Schalles darstellt) geglättet wird, die die Zeitfrequenzcharakteristiken des Sprachschalles darstellen, da das Spektrum doppelt geglättet ist. Der Einfluß des Abflachens der Feinstruktur kann in der Verschlechterung von subtilen Nuancen aufgrund der Individualität des Schalles, der lebhaften Charakteristik der Stimme und der Klarheit eines Phonems erkannt werden.
  • Zum Vermeiden solch übermäßigen Glättens gibt es ein Verfahren, bei dem das Modell eines Spektrums angepaßt wird unter Benutzung nur der Werte von Knoten, wie in "Power Spectrum Envelop (PSE) Speech Sound Analysis/Synthesis System" von Takayuki Nakajima und Toazo Suzuki, Journal of Acoustical Society of Japan, Bd. 44, Nr. 11 (1988), S. 824-832 (hier im folgenden als "Druckschrift 1" bezeichnet) beschrieben ist. Da jedoch das Signal nicht genau periodisch in einem tatsächlichen Sprachschall ist und verschiedene Fluktuationen und Rauschen enthält, die unausweichlich den Anwendungsbereich von Dokument 1 beschränken. Ein Verfahren der Schallanalyse als ein Verfahren der Signalanalyse gemäß der dritten Ausführungsform enthält die folgenden Bearbeitungen zum Lösen solch eines Problemes.
  • (Bearbeitung)
  • Bearbeitung 1 wird erläutert. Es sei angenommen, daß eine Oberfläche, die die ursprüngliche Zeitfrequenzcharakteristik darstellt (Zeitfrequenzoberfläche, die einen Mechanismus zum Erzeugen eines Sprachschalles darstellt), ein räumliches Element ist, das als das direkte Produkt von Räumen dargestellt ist, die durch stückweise Polynome gebildet sind, was als Splinesignalraum bekannt ist. Eine optimale Interpolationsfunktion zum Berechnen einer Oberfläche in optimaler Näherung zu einer Oberfläche, die die ursprüngliche Zeitfrequenzcharakteristik darstellt, aus einem durch ein Zeitfenster beeinflußten Spektrogramm ist gewünscht. Eine Zeitfrequenzcharakteristik wird berechnet unter Benutzung der optimalen Interpolationsfunktion. Solche Bearbeitung 1 wird im einzelnen beschrieben.
  • Es sei angenommen, daß eine Oberfläche, die die Zeitfrequenzcharakteristik eines Sprachschalles darstellt (Zeitfrequenzoberfläche, die einen Mechanismus zum Erzeugen eines Sprachschalles darstellt), eine Oberfläche ist, die durch das Produkt eines Raumes, der durch ein stückweises Polynom in der Richtung der Zeit gebildet ist, und eines Raumes, der durch ein stückweises Polynom in der Richtung der Frequenz gebildet ist, dargestellt wird. Bei der ersten Ausführungsform zum Beispiel wird eine Oberfläche, die die Zeitfrequenzcharakteristik eines Sprachschalles darstellt, durch das Produkt von einem stückweise linearen Ausdruck in der Richtung der Zeit und einem stückweise linearen Ausdruck in der Richtung der Frequenz dargestellt. Solche Parallelbewegung von Polynomen kann eine Basis in einem Unterraum in einem Raum bilden, der L2 genannt ist, der durch eine Funktion gebildet ist, die auf einem endlichen Element quadriert und integriert werden kann, wie in "Periodic Sampling Basis and Its Biorthonormal Basis for the Signal Spaces of Piecewise Polynominals" von Kazuo Toraichi and Mamoru Iwaki, Journal of The Institute of Electronics Information and Communication Engineers, 92/6, Bd. J75-A, Nr. 6, S. 1003-1012 (hier im folgenden als "Druckschrift 2" bezeichnet) beschrieben ist. In dem folgenden wird zur Vereinfachung der Darstellung ein Frequenzspektrum, d. h. ein Abschnitt entlang der Frequenzachse einer Zeitfrequenzdarstellung diskutiert. Das gleiche Argument gilt für die Zeitachse.
  • Die für eine optimale Interpolationsfunktion für die Frequenzachse benötigte Bedingung ist die, daß ein Spektrum entsprechend der ursprünglichen Basis (eine Basis, die ein Element eines Unterraumes von L2 ist) rekonstruiert wird, wenn die optimale Interpolationsfunktion an ein geglättetes Spektrum angewendet wird, daß durch Transformierung eines Spektrums entsprechend einer Basis erzeugt ist, die ein Element eines Unterraumes in L2 ist, durch eine glättende Manipulation in dem Frequenzbereich, der einer Zeitfenstermanipulation entspricht. Wie in Druckschrift 2 beschrieben ist, ist das Element des Unterraumes in L2 äquivalent einem Vektor, der aus einem Expansionskoeffizienten durch die Basisgebildet ist. Daher ist die für die optimale Interpolationsfunktion verlangte Bedingung äquivalent dem Bestimmen der optimalen Interpolationsfunktion so, daß nur ein einzelner Wert nicht Null auf Knoten ist, die aus der Anwendung der optimalen Interpolationsfunktion auf ein geglättetes Spektrum resultieren, daß durch Ausführen einer Glättungsmanipulation in dem Frequenzbereich erzeugt wird, die einer Zeitfenstermanipulation auf einem Spektrum entsprechend der ursprünglichen Basis entspricht (die eine Basis, die das Element des Unterraumes in dem Raum L2 ist). Die optimale Interpolationsfunktion ist ein Element des gleichen Raumes und daher als eine Kombination von Basen dargestellt. Genauer, die optimale Interpolationsfunktion kann als eine Kombination von Basenbenutzung eines Koeffizientenvektors erzeugt werden, wobei ein Teil des Koeffizienten, der einem Maximalwert entspricht, nicht negativ wird und der andere Teil Null wird, wenn er mit einem Koeffizientenvektor gefaltet, der aus Werten auf Knoten des Spektrums gebildet ist, das durch Durchführen der Zeitfenstermanipulation erzeugt ist. Die Benut zung der erzeugten optimalen Interpolationsfunktion auf der Frequenzachse kann den Einfluß übermäßigen Glättens entfernen.
  • Bearbeitung 2 wird erläutert. Bearbeitung 2 kann in Bearbeitung 2-1 und 2-2 unterteilt werden. Die optimale Interpolationsfunktion auf der Frequenzachse, die in der Bearbeitung 1 erzeugt ist, enthält negative Koeffizienten, und daher können negative Teile in einem Spektrum nach der Interpolation in Abhängigkeit von der Form des ursprünglichen Spektrums abgeleitet werden. Solch ein negativer Teil, der in dem Spektrum abgeleitet ist, verursacht kein Problem in dem Fall einer linearen Phase, aber er kann eine Langzeitantwort aufgrund der Diskontinuität von Phasen nach dem Erzeugen eines Pulses einer minimalen Phase erzeugen und unnormalen Schall verursachen. Das Ersetzen des negativen Teiles durch Null zum Vermeiden des Problemes verursacht eine Diskontinuität (Singularität) einer Ableitung an dem Abschnitt, der sich von positiv zu negativ ändert, was in einer relativ Langzeitantwort resultiert, wodurch unnormaler Schall verursacht wird. Um mit diesem Problem fertig zu werden, wird die Verarbeitung 2-1 ausgeführt. In der Verarbeitung 2-1 wird das Spektrum, das mit einer optimalen Interpolationsfunktion auf der Frequenzachse interpoliert ist, mit einer monotonen und glatten Funktion transformiert, die den Bereich (-&infin;, &infin;) auf (0, &infin;) abbildet.
  • Dem folgenden Problem wird jedoch nur bei der Bearbeitung 2-1 begegnet. Die Energie des Spektrums eines Sprachschalles variiert stark in Abhängigkeit von dem Frequenzband, und das Verhältnis der Variation kann manchmal 10000mal überschreiten. In Begriffen der menschlichen Wahrnehmung können Fluktuationen in jedem Band in Proportion zu einem relativen Verhältnis zu der mittleren Energie des Bandes wahrgenommen werden. Daher wird in einem schmalen Energieband Rauschen gemäß einem Fehler in der Näherung klar wahrgenommen. Wenn daher die Näherung mit der gleichen Genauigkeit in allen Bändern während der Interpolation durchgeführt wird, werden Näherungsfehler in Bändern mit kleine ren Energien ersichtlicher. Zum Lösen des Nachteiles wird die Bearbeitung 2-2 durchgeführt. In der Bearbeitung 2-2 wird ein Umrißspektrum, das durch Glätten des ursprünglichen Spektrums erzeugt ist, für die Normalisierung benutzt.
  • Zusammengefaßt, in Bezug auf ein in der Bearbeitung 2-2 normalisiertes Spektrum wird Interpolation unter Benutzung einer optimalen Interpolationsfunktion auf der Frequenzachse ausgeführt. Somit werden die Näherungsfehler gleichförmig zwischen den Bändern wahrgenommen. Zusätzlich ist der Mittelwert des Spektrums 1 durch solche Normalisierung, daß durch die optimale Interpolationsfunktion auf der Frequenzachse interpolierte Spektrum kann in ein nicht negatives Spektrum ohne jegliche Singularität darauf transformiert werden, in dem eine monotone und glatte Funktion benutzt wird, die den Bereich (-&infin;, &infin;) auf den Bereich von (0, &infin;) abbildet (Bearbeitung 2-1).
  • (Spezielle Bearbeitung)
  • Fig. 13 ist ein schematisches Blockschaltbild, das eine Gesamtkonfiguration einer Sprachschallanalyseneinrichtung zum Implementieren des Verfahrens der Sprachschallanalyse gemäß der dritten Ausführungsform der Erfindung zeigt. Es wird Bezug genommen auf Fig. 13, die Sprachschallanalyseneinrichtung enthält ein Mikrophon 101, einen Analog/Digitalwandler 103, einen Analyseabschnitt 105 einer Fundamentalfrequenz, einen Abschnitt 107 einer fundamentalfrequenzadaptiven Frequenzanalyse, einen Berechnungsabschnitt 109 eines Umrißspektrums, einen Berechnungsabschnitt 111 eines normalisierten Spektrums, einen Berechnungsabschnitt 113 eines geglätteten transformierten normalisierten Spektrums und einen Rekonstruktionsabschnitt 115 einer inversen Transformation/eines Umrißspektrums. Die Sprachschallanalyseneinrichtung kann durch eine Frequenzanalyseneinrichtung ersetzt werden, die aus dem Berechnungsabschnitt 1 eines Leistungsspektrums, den Berechnungsabschnitt 2 einer Fundamentalfrequenz und den Berechnungsabschnitt 3 eines geglätteten Spektrums in Fig. 4 gebildet ist. In diesem Fall wird in dem Transformationsabschnitt 5 eines geglätteten Spektrums in Fig. 4 ein optimales geglättetes Interpolationsspektrum 119 anstelle eines geglätteten Spektrums benutzt.
  • Es wird Bezug genommen auf Fig. 13, ein Sprachschall wird in ein elektrisches Signal entsprechend einer Schallwelle durch das Mikrophon 101 transformiert. Das elektrische Signal kann direkt benutzt werden oder einmal durch einen Rekorder aufgezeichnet und zur Benutzung wiedergegeben werden. Dann wird das elektrische Signal von dem Mikrophon 101 abgetastet und digitalisiert durch den Analog/Digitalwandler 103 in eine Sprachschallwellenform, die als eine Kette von numerischen Werten dargestellt wird. Bezüglich der Abtastfrequenz für die Sprachschallwellenform kann in dem Fall eines hochqualitativen Sprechertelefones 16 kHz benutzt werden, und wenn die Anwendung auf Musik oder Radio bedacht wird, wird eine Frequenz wie 32 kHz, 44,1 kHz und 48 kHz benutzt. Die Quantisierung, die mit dem Abtasten verknüpft ist, ist zum Beispiel mit 16 Bit.
  • Der Analyseabschnitt 105 einer Fundamentalfrequenz extrahiert die Fundamentalfrequenz oder Fundamentalperiode einer von dem Analog/Digitalwandler 103 angelegten Sprachschallwellenform. Die Fundamentalfrequenz oder Fundamentalperiode kann durch verschiedene Verfahren extrahiert werden, ein Beispiel davon wird beschrieben. Das Leistungsspektrum eines Sprachschalles, das mit einem cos²-Fenster von 40 ms multipliziert ist, wird durch ein Spektrum, das mit einer Glättungsfunktion in Richtung der Frequenz gefaltet ist, dividiert. Das so berechnete Leistungsspektrum mit geglättetem Umriß wird auf 1kHz oder weniger durch ein Gaußfenster in der Richtung der Frequenz bandbegrenzt und dann einer inversen Fourier-Transformation zum Erzeugen der Position des Maximalwertes einer resultierenden modifizierten Autokorrelationsfunktion unterworfen. Das Erzeugen der detaillierten Position eines Maximalwertes durch eine parabolische Interpolation unter Benutzung von drei Punkten einschließlich der Position des Maximalwertes und der Punkte unmittelbar davor und danach erzeugt eine genaue Fundamentalperiode. Das Inverse der Fundamentalperiode ist eine Fundamentalfrequenz. Da der Wert der modifizierten Autokorrelationsfunktion gleich 1 ist, wenn die Periodizität perfekt ist, und daher kann die Größe dieses Wertes als ein Index für die Stärke der Periodizität genommen werden.
  • Unter Benutzung der extrahierten Information über die Fundamentalfrequenz oder Fundamentalperiode (Schallquelleninformation 117) wird die Sprachschallwellenform von dem Analog/Digitalwandler 103 einer Frequenzanalyse durch ein Zeitfenster unterworfen, dessen Länge adaptiv bestimmt wird auf der Grundlage der Fundamentalfrequenz an dem Abschnitt 107 einer fundamentalfrequenzadaptiven Frequenzanalyse. Wenn nur das optimale geglättete Interpolationsspektrum 119 erzeugt wird, muß die Fensterlänge nicht gemäß der Fundamentalfrequenz geändert werden, aber wenn ein optimales geglättetes Interpolationsspektrogramm später erzeugt wird, ist die Benutzung eines Gaußfensters mit einer Länge entsprechend der Fundamentalfrequenz höchst bevorzugt. Genauer, das wie folgt berechnete Fenster wird benutzt. Eine Fensterfunktion w(t), das die Bedingung erfüllt, ist eine Gaußfunktion wie folgt, die Fouriertransformierte W(&omega;) davon ist ebenfalls gegeben:
  • w(t) = e-&pi;(t/&tau;&sub0;)² ...(13)
  • wobei t die Zeit, &omega; die Winkelfrequenz und &omega;&sub0; die Fundamentalwinkelfrequenz ist. &omega;&sub0; = 2&pi;f&sub0; und &tau;&sub0; = 1/f&sub0;. f&sub0; ist die Fundamentalfrequenz und &tau;&sub0; ist die Fundamentalperiode.
  • Ein Leistungsspektrum, das als ein Resultat der Frequenzanalyse an dem Abschnitt 107 der fundamentalfrequenzadaptiven Frequenzanalyse erhalten ist, wird einem Hochpegelglätten durch Falten mit einer Fensterfunktion in einer Dreiecksform mit einer Breite sechsmal der der Fundamentalfrequenz zum Beispiel unterworfen und in ein Umrißspektrum gebildet, von dem der Einfluß der Fundamentalfrequenz entfernt ist. An dem Berechnungsabschnitt 111 eines normalisierten Spektrums wird das Leistungsspektrum, das an dem Abschnitt 107 einer fundamentalfrequenzadaptiven Frequenzanalyse durch das Umrißspektrum geteilt, das an dem Berechnungsabschnitt 109 eines Umrißspektrums erzeugt ist, und ein normalisiertes Spektrum, das eine gleichförmige Empfindlichkeit der Wahrnehmung für Annäherungsfehler in entsprechenden Bändern gibt, wird erzeugt. Das so erzeugte normalisierte Spektrum mit einer gesamten flachen Frequenzcharakteristik weist eine lokal angehobene Form auf dem Spektrum auf, die Formant genannt wird, die feine Rippen und Ausnehmungen oder die Charakteristik der Glottis auf der Grundlage der Periodizität des Sprachschalles darstellt. Die oben beschriebene Bearbeitung 2-2 wird somit an dem Berechnungsabschnitt 111 eines normalisierten Spektrums durchgeführt.
  • Das an dem Berechnungsabschnitt 111 eines normalisierten Spektrums erhaltene normalisierte Spektrum wird einer monotonen nicht linearen Transformation in Bezug auf den Wert einer jeden Frequenz an dem Berechnungsabschnitt 113 eines geglätteten transformatierten normalisierten Spektrums unterworfen. Das der nicht linearen Transformation unterworfene normalisierte Spektrum wird mit einer optimalen Glättungsfunktion 121 auf der in Fig. 14 gezeigten Frequenzachse gefaltet, die durch Verbinden eines Zeitfensters und eines optimalen Gewichtsfaktors gebildet ist, der in der folgenden Tabelle gegeben ist, die durch die nicht lineare Transformation bestimmt ist, und in einen anfänglichen Wert für das geglättete transformierte normalisierte Spektrum gebildet. Die optimale Glättungsfunktion auf der Frequenzachse wird durch das oben beschriebene Bearbeiten 1 er zeugt. Genauer, die optimale Interpolationsfunktion auf der Frequenzachse wird durch die Darstellung des Zeitfensters in dem Frequenzbereich und durch die Basis eines Raumes, der durch ein stückweises Polynom in der Richtung der Frequenz gebildet ist, erzeugt, und sie minimiert einen Fehler zwischen dem anfänglichen Wert des geglätteten transformierten normalisierten Spektrums und eines Abschnittes entlang der Frequenzachse der Oberfläche, die die Zeitfrequenzcharakteristik des Sprachschalles darstellt. Es sei angemerkt, daß die unten gegebene Tabelle optimale Werte enthält, wenn die Fensterfunktion ein Gaußfenster ist, wie zuvor erwähnt wurde. Die in Fig. 14 gezeigten Beispiele und die folgende Tabelle enthalten optimale Glättungsfunktionen unter Annahme, daß das Spektrum eines Sprachschalles ein Signal ist in einem Raum eines periodischen Splinesignales zweiter Ordnung. Ein ähnlicher Faktor und eine Glättungsfunktion, die durch solch einen Faktor bestimmt ist, kann erzeugt werden, in dem angenommen wird, daß das Spektrum eines Sprachschalles allgemein ein periodisches Splinesignal m-ter Ordnung ist. Tabelle 1
  • Der anfängliche Wert des so erzeugten geglätteten transformierten normalisierten Spektrums enthält manchmal negative Werte. In dem Vorteil von der Tatsache gemacht wird, daß der menschliche Sinn hauptsächlich darauf aus ist, Rippen in einem Spektrum zu hören, wird der anfängliche Wert des geglätteten transformierten normalisierten Spektrums unter Benutzung einer monotonen glatten Funktion transformiert, die das Segment (-&infin;, &infin;) auf (0, &infin;) abbildet. Genauer, die Bearbeitung 2-1 wird ausgeführt, wie oben beschrieben wurde. Genauer, der folgende Ausdruck erfüllt die Bedingung, wobei ein Wert vor der Transformation gleich x ist und ein Wert nach der Transformation gleich &eta;(x) ist:
  • Unter Benutzung von &eta;(x) wird der anfängliche Wert des geglätteten transformierten normalisierten Spektrums mit einem geeigneten Faktor zur Normalisierung multipliziert und dann derart transformiert, daß das Resultat immer einen positiven Wert annimmt. Ein Spektrum, das aus solch einer Transformation resultiert, wird durch den Faktor dividiert, der zur Normalisierung benutzt wird, zum Erzeugen eines glatten transformierten normalisierten Spektrums. Das geglättete transformierte normalisierte Spektrum wird der inversen Transformation der nicht linearen Transformation unterworfen, die an dem Berechnungsabschnitt 113 eines geglätteten transformierten normalisierten Spektrums benutzt wurde, durch den Rekonstruktionsabschnitt 115 einer inversen Transformation/eines Umrißspektrums, wiederum mit einem Umrißspektrum multipliziert und in ein optimales geglättetes Interpolationsspektrum 119 gebildet. Als mit der Schallquelleninformation 117 verknüpfte Information wird Information über die Fundamentalfrequenz oder Fundamentalperiode in dem Fall eines Stimmenschalles aufgezeichnet, und 0 wird für Ruhe oder einen Abschnitt ohne Stimmenschall aufgezeichnet. Das optimale geglättete Interpolationsspektrum 119 hält Information über den ursprünglichen Sprachschall bis zu feinen Details nahezu vollständig, und es ist glatt.
  • Die Reihe der oben beschriebenen Verarbeitungen ist sehr wirksam zum Verbessern der Qualität der Sprachschallanalyse/Sprachschallsynthese. Die Benutzung des optimalen geglätteten Interpolationsspektrums 119 für Sprachschallsynthese/Sprachschalltransformation ermöglicht es, daß die Qualität des synthetisierten Sprachschalles/transformierten Sprachschalles so hoch ist, daß der Schall nicht mehr von natürlichem Sprachschall unterschieden werden kann. Da das optimale geglättete Interpolationsspektrum 119 genaue Phoneminformation darstellt, die die Individualität eines Sprechers oder eine komplizierte Nuance der Sprache in einer stabilen glatten Form zurückhält, wird eine große Verbesserung der Leistung erwartet, wenn es als Informationsdarstellung bei der Maschinenerkennung von Sprachschall oder als Informationsdarstellung zum Erkennen eines Sprechers benutzt wird. Da der Einfluß einer feinen Zeitstruktur einer Schallquelle nahezu vollständig isoliert ist, kann nur die feine Zeitstruktur der Schallquelle mit hoher Genauigkeit extrahiert werden, wenn das optimale geglättete Interpolationsspektrum 119 als ein inverses Filter benutzt wird. Das ist sehr wirksam in Anwendungen wie Diagnose von Sprachqualität oder Bestimmung von Sprachkrankheitszuständen. Das Verfahren der Sprachschallanalyse gemäß der ersten Ausführungsform ist ein hoch genaues Sprachschallanalyseverfahren, das von Anregungsquellenbedingungen nicht beeinflußt wird.
  • [Vierte Ausführungsform]
  • Bei dem Verfahren der Transformierung von Sprachschall gemäß der zweiten Ausführungsform wird eine Sprachschalltransformation sehr hoher Qualität durch das Verfahren des Erzeugens einer Oberfläche, die die Zeitfrequenzcharakteristik des Sprachschallsignales ermöglicht, in dem eindeutig eine adaptive Interpolation eines Spektrogrammes in einem Zeitfrequenzbereich unter Benutzung der Periodizität des Signales verwendet wird. Wenn es jedoch sorgfältig mit dem ursprünglichen Sprachschall unter Benutzung von Kopfhörern verglichen wird, wird eine Verzögerung in der Lebhaftigkeit der Stimme oder der Phoneme erkannt. Dieses ist hauptsächlich so wegen des übermäßigen Glättens, mit andern Worten da das Glätten mit einem Zeitfenster unausweichlich für die Berechnung eines Spektrogramms und weiteres Glätten durch adaptive Interpolation einander überlappen.
  • Die Problem mit solchem übermäßigen Glätten werden erläutert. Bei der zweiten Ausführungsform ist angenommen, daß eine Oberfläche, die die Zeitfrequenzcharakteristik eines Sprachschalles darstellt, eine bilineare Oberfläche ist, die durch eine stückweise lineare Oberfläche dargestellt ist, wobei Gitterintervalle eine Fundamentalfrequenz und eine Fundamentalperiode in der Richtung der Frequenz und der Zeit sind. Eine Tätigkeit zum Erzeugen der stückweise linearen Funktion wird als Glätten unter Benutzung einer Interpolationsfunktion in dem Zeitfrequenzbereich implementiert, wenn die Gitterpunktinformation gegeben ist, was es ermöglicht, daß die Oberfläche ohne Zerstörung stabil hergestellt wird, selbst wenn ein unvollständiger Zyklus oder ein nicht periodisches Signal in einem tatsächlichen Sprachschall getroffen wird. Die Tätigkeit ignoriert jedoch das Problem, daß das zu glättende Spektrogramm bereits durch ein in der Analyse verwendetes Zeitfenster geglättet worden ist. Dieses ist so, da die Bedingung des Zurückhaltens der ursprünglichen Oberfläche im allgemeinen in der zweiten Ausführungsform erfüllt ist.
  • Bei der zweiten Ausführungsform wird, was schon irgendwie bereits geglättet worden ist, wird weiter geglättet durch Faltung mit einer Interpolationsfunktion, mit andern Worten Glätten wird doppelt ausgeführt, und die Feinstruktur der Oberfläche wird abgeflacht. Im Vergleich mit dem ursprünglichen Schall wird der Einfluß der so abgeflachten Feinstruktur als Verzögerung in der komplizierten Nuance durch die Individualität eines Sprachschalles, die Lebhaftigkeit einer Stimme und die Klarheit der Phoneme erkannt.
  • Ein Verfahren zum Vermeiden solch eines Nachteiles, das mit übermäßigem Glätten verknüpft ist, ist ein Verfahren des Annehmens eines Spektralmodelles, das nur Werte von Knoten benutzt, wie in der Druckschrift I beschrieben ist. Das Verfahren von der Druckschrift 1 schlägt jedoch nur ein Spektralmodell zu einer bestimmten Zeit vor, ohne die Zeitfrequenzcharakteristik zu betrachten. Gemäß solch einem Verfahren wird die Auflösung in der Zeitrichtung gesenkt, und schnelle Änderungen in der Zeit können nicht erfaßt werden. Weiterhin ist bei tatsächlichem Sprachschall ein Signal nicht genau periodisch und enthält verschiedenes Rauschen, der Bereich der Anwendung solch eines Verfahrens ist unausweichlich begrenzt. Wenn ein Wert in einem isotropen Gitterpunkt in dem Zeitfrequenzbereich erzeugt wird, in dem ein optimales Gaußfenster benutzt wird, bei dem die Zeitfrequenzauflösung zu der Fundamentalperiode eines Sprachschalles paßt, bei einer ausgedehnten Interpretation des in der Druckschrift 1 beschriebenen Verfahrens enthält der Wert den Einfluß von Gitterpunkten benachbart zueinander und kann nicht benutzt werden zum genauen Rekonstruieren der Oberfläche, die die innere Zeitfrequenzcharakteristik darstellt. Die vierte Ausführungsform schlägt ein Verfahren des Berechnens einer Oberfläche vor, die eine genaue Zeitfrequenzcharakteristik darstellt, von der der Einfluß übermäßigen Glättens entfernt ist, wie oben beschrieben wurde, und sie verbessert den Analyseabschnitt, der bei dem Verfahren der Transformierung von Sprachschall gemäß der zweiten Ausführungsform benutzt wird. Zusätzlich sieht die vierte Ausführungsform ein hochgenaues Analyseverfahren vor, das nicht durch Anregungsquellenbedingungen für verschiedene Anwendungen beeinflußt wird, die eine Analyse von Sprachschall benötigen. Das Sprachschallanalyseverfahren als ein Signalanalyseverfahren gemäß der vierten Ausführungsform wird erläutert.
  • (Bearbeitung)
  • Nun wird die Bearbeitung 3 erläutert. Bei der Bearbeitung 3 wird eine optimale Interpolationsfunktion auf der Zeitachse ähnlich wie bei der Bearbeitung 1 erzeugt. Mit andern Worten eine optimale Interpolationsfunktion auf der Zeitachse wird aus der Darstellung einer Fensterfunktion in einem Zeitbereich und einer Basis eines Raumes erzeugt, der durch ein stückweises Polynom in der Zeitrichtung gebildet ist. Die Bearbeitung 4 wird beschrieben. Die Bearbeitung 4 ist in eine Bearbeitung 4-1 und eine 4-2 unterteilt. Die optimale Interpolationsfunktion auf der Zeitachse, die in der Bearbeitung 3 erzeugt ist, enthält negative Werte, und daher können negative Abschnitte in einem Spektrogramm nach der Interpolation in Abhängigkeit der Form des ursprünglichen Spektrogrammes abgeleitet werden. Der so abgeleitete negative Abschnitt in dem Spektrogramm verursacht keine Probleme in dem Fall der linearen Phasen, aber er kann eine Langzeitantwort durch die Diskontinuität der Phase nach dem Erzeugen eines Impulses minimaler Phase verursachen. Das Ersetzen des negativen Abschnittes durch Null zum Vermeiden solch eines Problemes erzeugt die Diskontinuität (Singularität) einer Ableitung in dem Abschnitt, der sich von positiv zu negativ ändert, was in einer relativ Langzeitantwort resultiert, wodurch unnormaler Schall verursacht wird. Um mit diesem Problem fertig zu werden, wird die Bearbeitung 4-1 ausgeführt. In der Bearbeitung 4-1 wird unter Benutzung einer monotonen und glatten Funktion, die den Bereich von (-&infin;, &infin;) auf den Bereich von (0, &infin;) ein mit einer optimalen Interpolationsfunktion auf der Zeitachse interpoliertes Spektrogramm transformiert. Dem folgenden Problem wird begegnet, indem einfach die Bearbeitung 4-1 ausgeführt wird. Die in einem Spektrogramm einer Sprache enthaltene Energie variiert stark zwischen Frequenzbändern, wobei das Verhältnis manchmal 10000mal überschreitet. In Hinblick auf die menschliche Wahrnehmung werden die Fluktuationen in jedem Band proportional zu einem Relativverhältnis zu der mittleren Energie des Bandes wahrgenommen. Daher wird Rauschen aufgrund von Näherungsfehlern klar in kleineren Energiebändern wahrgenommen. Wenn die Näherung mit der gleichen Genauigkeit in allen Bändern bis zur Interpolation durchgeführt wird, werden Näherungsfehler ersichtlicher in kleineren Energiebändern. Zum Lösen solch eines Problemes wird die Bearbeitung 4-2 durchgeführt. In der Bearbeitung 4-2 wird das ursprüngliche Spektrogramm mit einem geglätteten Spektrogramm normalisiert.
  • Zusammenfassend, eine Interpolation mit einer optimalen Interpolationsfunktion auf der Zeitachse wird auf einem durch die Bearbeitung 4-2 normalisierten Spektrogramm durchgeführt. Somit werden die Nährungsfehler in Ausdrücken der Wahrnehmung zwischen Bändern gleichgemacht. Da zusätzlich der Mittelwert des Spektrogrammes durch solch eine Normalisierung eins wird, kann das mit einer optimalen Interpolationsfunktion auf der Zeitachse interpolierte Spektrogramm in ein nicht negatives Spektrogramm ohne irgendeine Singularität darauf transformiert werden, wobei eine monotone und glatte Funktion benutzt wird, die den Bereich von (-&infin;, &infin;) auf den Bereich von (0, &infin;) abbildet (Bearbeitung 4-1).
  • (Spezielle Bearbeitung)
  • Fig. 15 ist ein schematisches Blockschaltbild, das eine Gesamtkonfiguration einer Sprachschallanalyseneinrichtung zum Implementieren des Sprachschallanalyseverfahrens gemäß der vierten Ausführungsform der Erfindung zeigt. Abschnitte ähnlich zu jenen in Fig. 13 sind mit den gleichen Bezugszeichen bezeichnet, wobei eine Beschreibung davon weggelassen wird. Es wird Bezug genommen auf Fig. 15, die Sprachschallanalyseeinrichtung enthält ein Mikrophon 101, einen Analog/Digitalwandler 103, einen Analyseabschnitt 105 einer Fundamentalfrequenz, einen Abschnitt 107 einer fundamentalfrequenzadaptiven Frequenzanalyse, einen Berechnungsabschnitt 109 eines Umrißspektrums, einen Berechnungsabschnitt 111 eines normalisierten Spektrums, einen Berechnungsabschnitt 113 eines geglätteten transformierten normalisierten Spektrums, einen Rekonstruktionsabschnitt 115 einer inversen Transformation/eines Umrißspektrums, einen Berechnungsabschnitt 123 eines Umrißspektrogrammes, eines Berechnungsabschnittes 125 eines normalisierten Spektrogrammes, einen Berechnungsabschnitt 127 eines geglätteten transformierten normalisierten Spektrogrammes und eines Rekonstruktionsabschnittes 129 einer inversen Transformation/eines Umrißspektrogrammes. Die Sprachschallanalyseeinrichtung kann durch eine Sprachschallanalyseeinrichtung er setzt werden, die aus dem Berechnungsabschnitt 1 eines Leistungsspektrums, dem Berechnungsabschnitt 2 einer Fundamentalfrequenz, einem Analyseabschnitt 9 einer adaptiven Frequenz und einem Berechnungsabschnitt 10 eines geglätteten Spektrogrammes gebildet ist, wie in Fig. 8 gezeigt ist. In dem Fall wird an dem Transformationsabschnitt 11 eines geglätteten Spektrogrammes ein optimales geglättetes Interpolationsspektrogramm 31 anstelle des geglätteten Spektrogrammes benutzt.
  • Es wird Bezug genommen auf Fig. 15, ein optimales geglättetes Interpolationsspektrogramm 119 wird für jeden Analysezyklus berechnet. Für eine Fundamentalfrequenz eines Sprachschalles bis hoch zu 500Hz wird die Analyse für jede 1ms durchgeführt. Anordnen in einer Zeitordnung ermöglicht das optimale geglättete Interpolationsspektrum 119, das zum Beispiel für jede 1ms berechnet ist, als Spektrogramm auf der Basis des optimalen geglätteten Interpolationsspektrums, das zu erzeugen ist. Das Spektrogramm wird jedoch nicht dem optimalen Interpolationsglätten in der Zeitrichtung unterworfen und ist daher kein optimales geglättetes Interpolationsspektrogramm 131. Der Berechnungsabschnitt 123 eines Umrißspektrogrammes, der Berechnungsabschnitt 125 eines normalisierten Spektrogrammes, der Berechnungsabschnitt 127 eines geglätteten transformierten normalisierten Spektrogrammes und der Rekonstruktionsabschnitt 129 einer inversen Transformation/eines Umrißspektrogrammes dienen zum Berechnen des optimalen geglätteten Interpolationsspektrogrammes 131 aus dem Spektrogramm auf der Grundlage eines optimalen geglätteten Interpolationsspektrums 119.
  • An dem Berechnungsabschnitt 123 des Umrißspektrogrammes werden die Segmente von drei Fundamentalperioden jeweils unmittelbar und nach einem gegenwärtigen Analysepunkt (sechs Fundamentalperioden insgesamt) aus einem Spektrogramm auf der Grundlage des optimalen geglätteten Interpolationsspektrums 119 ausgewählt, eine gewichtete Summation wird unter Benutzung einer Dreieckgewichtsfunktion mit dem gegenwärtigen Punkt als Scheitel zum Be rechnen des Wertes des Umrißspektrums an dem gegenwärtigen Punkt durchgeführt. Somit wird das berechnete Spektrum in der Richtung der Zeit zum Erzeugen des Umrißspektrums angeordnet.
  • Genauer, das Umrißspektrogramm wird durch Entfernen des Einflusses von Fluktuationen in der Zeit aufgrund der Periodizität eines Sprachschallsignales aus dem Spektrogramm auf der Grundlage eines optimalen geglätteten Interpolationsspektrums 119 erzeugt.
  • An dem Berechnungsabschnitt 125 eines normalisierten Spektrogrammes wird das Spektrogramm auf der Grundlage des optimalen geglätteten Interpolationsspektrums 119 durch das Umrißspektrogramm dividiert, das durch den Berechnungsabschnitt 123 des Umrißspektrogrammes erhalten ist, zum Erzeugen eines normalisierten Spektrogrammes. Somit wird eine Normalisierung gemäß dem Pegel einer jeden Position in der Richtung der Zeit durchgeführt, während lokale Fluktuationen weiter verbleiben, und die Einflüsse auf die Wahrnehmung von Nährungsfehlern wird gleichförmig. Der Berechnungsabschnitt 125 eines normalisierten Spektrogrammes führt somit die Bearbeitung 4-2 durch.
  • An dem Berechnungsabschnitt 127 eines geglätteten transformierten normalisierten Spektrogrammes wird das an dem Berechnungsabschnitt 125 eines normalisierten Spektrogrammes erhaltene normalisierte Spektrogramm einer geeigneten monotonen nicht linearen Transformation unterworfen. Ein aus der nicht linearen Transformation resultierendes Spektrogramm wird einer gewichteten Berechnung mit einer optimalen Glättungsfunktion 133 auf der in Fig. 16 gezeigten Zeitachse unterworfen, die durch Verbinden eines Zeitfensters und eines optimalen Gewichtungsfaktors gebildet ist, der in einer Tabelle gezeigt ist, die durch eine nicht lineare Transformation bestimmt ist (die in der dritten Ausführungsform gezeigte Tabelle), und es wird in einen Satz anfänglicher Werte eines Spektralabschnittes des geglätteten transformierten normalisierten Spektrogrammes gebildet. Solch eine optimale Glättungsfunktion 133 auf der Zeitachse wird durch die Be arbeitung 3 erzeugt und minimiert einen Fehler zwischen anfänglichen Werten des Spektralabschnittes auf dem geglätteten transformierten normalisierten Spektrogramm und dem Spektralabschnitt der Oberfläche, die die Zeitfrequenzcharakteristik des Sprachschalles darstellt.
  • Das Beispiel der in Fig. 16 gezeigten Tabelle und die dritte Ausführungsform entsprechen einer optimalen Glättungsfunktion, wenn angenommen wird, daß Fluktuationen des Spektrogrammes eines Sprachschalles in der Zeit ein Signal in einem Splinesignalraum mit einer Periode zweiter Ordnung ist. Ein ähnlicher Faktor und eine Glättungsfunktion, die durch solch einen Faktor bestimmt ist, können erzeugt werden, in dem angenommen wird, daß die Zeitfluktuation des Spektrogrammes eines Sprachschalles im allgemeinen einem Signal in einem Splinesignalraum mit einer Periode m-ter Ordnung ist.
  • So erzeugte anfängliche Werte des Spektralabschnittes des geglätteten transformierten normalisierten Spektrogrammes enthalten manchmal einen Negativwert. In dem Vorteil von der Tatsache genommen wird, daß der menschliche Sinn darauf aus ist, das Ansteigen eines Schalles zu hören, werden die anfänglichen Werte des Spektralabschnittes des glatten transformierten normalisierten Spektrogrammes transformiert, in dem eine monotone glatte Funktion benutzt wird, die das Segment von (-&infin;, &infin;) auf das Segment (0, &infin;) abbildet. Mit andern Worten, die oben beschriebene Bearbeitung 4-1 wird ausgeführt. Genauer, wenn der Wert vor der Transformation gleich x ist und der Wert nach der Transformation gleich &eta;(x) ist, erfüllt der folgende Ausdruck die Bedingung.
  • In dem &eta;(x) benutzt wird, werden die anfänglichen Werte des Spektralabschnittes des geglätteten transformierten normalisier ten Spektrogrammes durch einen geeigneten Faktor zur Normalisierung multipliziert, dann so transformiert, daß sie immer einen positiven Wert annehmen, und ein durch die Transformation erhaltenes Spektrum wird durch den für die Normalisierung benutzten Faktor dividiert. Die Bearbeitung wird dann für alle anfänglichen Werte des Spektralabschnittes des geglätteten transformierten normalisierten Spektrogrammes durchgeführt, und eine Mehrzahl von Spektren resultiert. Die Mehrzahl von Spektren werden in der Richtung der Zeit so angeordnet, daß sie ein geglättetes transformiertes normalisiertes Spektrogramm bilden.
  • An dem Rekonstruktionsabschnitt 129 der inversen Transformation/des Umrißspektrogrammes wird das geglättete transformierte normalisierte Spektrogramm der inversen Transformation der nicht linearen Transformation unterworfen, die an dem Berechnungsabschnitt 127 eines geglätteten transformierten normalisierten Spektrogrammes benutzt wurde, und es wird wieder mit einem Umrißspektrogramm multipliziert, so daß es ein optimales geglättetes Interpolationsspektrogramm 131 wird.
  • Wie bei dem vorangehenden enthält das Sprachschallanalyseverfahren gemäß der vierten Ausführungsform alle Bearbeitungen einschließlich des Sprachschallanalyseverfahrens gemäß der dritten Ausführungsform. Daher ergibt sich für das Sprachschallanalyseverfahren gemäß der vierten Ausführungsform ähnliche Wirkungen wie bei der dritten Ausführungsform. Das Sprachschallanalyseverfahren gemäß der vierten Ausführungsform zieht jedoch nicht nur die Richtung der Frequenz sondern auch die Richtung der Zeit in Betracht. Genauer, zusätzlich 2u den Bearbeitungen 1 und 2 die bei der dritten Ausführungsform beschrieben wurden, werden Bearbeitungen 3 und 4 ausgeführt. Die durch die vierte Ausführungsform mit sich gebrachten Wirkungen sind größer als jene bei dem Sprachschallanalyseverfahren gemäß der dritten Ausführungsform. Die Benutzung des Sprachschallanalyseverfahrens gemäß der vierten Ausführungsform verbessert daher die Qualität der Sprachschallanalyse/der Sprachschallsynthese im Vergleich zu dem Fall, in dem das Sprachschallanalyseverfahren gemäß der dritten Ausführungsform benutzt wird, insbesondere bei der Lebhaftigkeit des Startes eines Konsonanten oder einer Sprache.
  • [Fünfte Ausführungsform]
  • Wenn ein Zeitfenster solch eine gleiche Auflösung hat, das eine Zeitauflösung und eine Frequenzauflösung in dem gleichen Verhältnis in Bezug auf eine Fundamentalperiode und eine Fundamentalfrequenz stehen, wird ein Punkt, der periodisch Null wird, auf einem Spektrogramm aufgrund der Störungen zwischen den Harmonischen eines periodischen Signals erzeugt. Der Punkt wird Null, da die Phasen benachbarter Harmonischer in einer Fundamentalperiode drehen, und daher wird ein Abschnitt, der im Mittel in Antiphase ist, periodisch abgeleitet. Bei der Beschreibung der zweiten Ausführungsform in Zusammenhang mit Fig. 12 schließt die Benutzung des Sprachschalltransformationsverfahren gemäß der zweiten Ausführungsform einen Punkt Null in einem Spektrogramm aus. Es sei angemerkt, daß ein Punkt Null der Punkt ist, dessen Amplitude Null wird.
  • Damit solch ein Problem gelöst wird, wird eine Fensterfunktion entworfen, die ein Spektrogramm gibt, das einen Maximalwert an dem Abschnitt des Punktes, der gerade Null wird, nimmt. Unter vielen solcher Fensterfunktionen kann eine insbesondere gebildet werden wie folgt. Fensterfunktionen von Intresse werden auf beiden Seiten des Ursprunges in einem Abstand des Fundamentalperiodenbetrages eines Sprachschallsignales angeordnet. Bei einer der Fensterfunktionen ist das Vorzeichen umgedreht. Die Fensterfunktion mit dem umgedrehten Zeichen wird zu der anderen Fensterfunktion zum Erzeugen einer neuen Fensterfunktion addiert. Die neue Fensterfunktion weist eine Amplitude der Hälfte der ursprünglichen Fensterfunktionen auf. Ein Spektrogramm, das unter Benutzung einer so erhaltenen neuen Fensterfunktion berechnet wird, weist einen Maximalwert an der Position eines Punktes, der Null wird, in dem unter Benutzung der ursprünglichen Fenster funktion erhaltenen Spektrogramm auf, und es weist einen Punkt, der Null wird, an der Position auf, an der das unter Benutzung der ursprünglichen Fensterfunktion erhaltenen Spektrogramm einen Maximalwert aufweist. Das Spektrogramm in der Leistungsdarstellung, das unter Benutzung der ursprünglichen Fensterfunktionen berechnet wird, ein Spektrogramm in der Leistungsdarstellung, das unter Benutzung der neu erzeugten Fensterfunktion berechnet wird, und eine monotone nicht negative Funktion werden addiert und einer inversen Transformation unterworfen, die Punkte, die Null werden, und die maximalen Werte löschen einander aus, und ein flaches und glattes Spektrogramm resultiert. Nun folgte eine detaillierte Beschreibung in Zusammenhang mit den begleitenden Zeichnungen.
  • Fig. 17 ist ein schematisches Blockschaltbild das eine Gesamtkonfiguration einer Sprachschallanalyseneinrichtung zum Implementieren des Analyseverfahrens eines Sprachschallsignales gemäß der fünften Ausführungsform der Erfindung zeigt. Es wird Bezug genommen auf Fig. 17, die Sprachschallanalyseneinrichtung enthält einen Berechnungsabschnitt 137 eines Leistungsspektrums, einen Erzeugerabschnitt 139 eines adaptiven Zeitfensters, einen Berechnungsabschnitt 141 eines komplementären Leistungsspektrums, einen Erzeugerabschnitt 143 eines adaptiven komplementären Zeitfensters und einen Berechnungsabschnitt 145 eines Leistungsspektrums ungleich Null. Der in Fig. 13 und 15 gezeigte Abschnitt 107 einer fundamentalfrequenzadaptiven Frequenzanalyse kann durch die in Fig. 17 gezeigte Sprachschallanalyseneinrichtung ersetzt werden. In diesem Fall werden die in Fig. 13 gezeigten Berechnungsabschnitt 109 eines Umrißspektrums und Berechnungsabschnitt 111 eines normalisierten Spektrums ein Leistungsspektrum 147 ungleich Null anstelle des Abschnittes 107 einer fundamentalfrequenzadaptiven Frequenzanalyse benutzt werden. Es sei angemerkt, daß die Schallquelleninformation 117 dieselbe wie die in Fig. 13 gezeigte Schallquelleninformation 117 ist, und eine Sprachschallwellenform 135 wird von dem in Fig. 13 gezeigten Analog/Digitalwandler 103 angelegt.
  • Auf der Grundlage von Information über die Fundamentalfrequenz oder die Fundamentalperiode der Schallquelleninformation 117 erzeugt der Erzeugerabschnitt 139 eines adaptiven Zeitfensters solch ein Zeitfenster, das die Zeitauflösung und Frequenzauflösung des Zeitfensters eine gleiche Beziehung relativ zu der Fundamentalfrequenz und Zyklus aufweisen. Die Fensterfunktion, die die Bedingung zu erfüllen hat (hier im folgenden als "adaptives Zeitfenster" bezeichnet) w(t) ist eine Gaußfunktion wie folgt, und ihre Fourier transformierte W(&omega;) ist ebenfalls angegeben:
  • w(t) = e-&pi;(t/&tau;&sub0;)² ... (17)
  • wobei t die Zeit, &omega; die Winkelfrequenz, &omega;&sub0; die Fundamentalwinkelfrequenz und &tau;&sub0; die Fundamentalperiode ist. &omega;&sub0; = 2&pi;f&sub0;, &tau;&sub0; = 1/f&sub0;, und f&sub0; ist die Fundamentfrequenz. Bei dem Erzeugerabschnitt 143 des komplementären Zeitfensters wird gleichzeitig zu dem Erzeugen des adaptiven Zeitfensters an dem Erzeugerabschnitt 139 des adaptiven Zeitfensters ein Zeitfensters komplementär zu dem adaptiven Zeitfenster (hier im folgenden als "adaptives komplementäres Zeitfenster" bezeichnet) erzeugt. Genauer, das adaptive Zeitfenster und eine Fensterfunktion mit der gleichen Form werden getrennt voneinander um einen Abstand einer Fundamentalperiode auf gegenüberliegenden Seiten des Nullpunktes positioniert. Bei einer der Fensterfunktionen wird das Vorzeichen umgedreht, und sie wird zu der anderen Fensterfunktion zum Erzeugen eines adaptiven komplementären Zeitfensters wd(t) addiert. Ihre Amplitude ist die Hälfte der der ursprünglichen Fensterfunktion (adaptives Zeitfenster). Das adaptive komplementäre Zeitfenster wd(t) kann genauer für ein Gaußfenster wie folgt ausgedrückt werden:
  • Fig. 18 zeigt das adaptive Zeitfenster w(t) und das adaptive komplementäre Zeitfenster wd(t). In Fig. 19 ist ein Diagramm, das eine tatsächliche Sprachschallwellenform entsprechen dem adaptiven Zeitfenster w(t) und dem adaptiven komplementären Zeitfenster wd(t) zeigt. Es wird Bezug genommen auf Fig. 18 und 19, die Ordinate stellt die Amplitude und die Abszisse die Zeit (ms) dar. Das adaptive Zeitfenster w(t) und das adaptive komplementäre Zeitfenster wd(t) in Fig. 18 entsprechen der Fundamentalfrequenz einer Sprachschallwellenform (Teil eines "O" einer weiblichen Stimme) in Fig. 19.
  • Zurück zu Fig. 17, an dem Berechnungsabschnitt 137 eines Leistungsspektrums wird unter Benutzung des an dem Erzeugerabschnitt 139 eines adaptiven Zeitfensters erzeugten adaptiven Zeitfenster die Sprachschallwellenform 139 in Begriffen der Frequenz zum Erzeugen eines Leistungsspektrums analysiert. Zur gleichen Zeit wird an dem Berechnungsabschnitt 141 eines komplementären Leistungsspektrums unter Benutzung des an dem Erzeugerabschnitt 143 eines adaptiven komplementären Zeitfensters erzeugten adaptiven komplementären Zeitfenster die Sprachschallwellenform 135 in Begriffen der Frequenz zum Erzeugen eines komplementären Leistungsspektrums analysiert.
  • An dem Berechnungsabschnitt 145 eines Leistungsspektrums ungleich Null werden das an dem Berechnungsabschnitt 137 eines Leistungsspektrums erzeugte Leistungsspektrum P²(&omega;) und das an dem Berechnungsabschnitt 141 eines komplementären Leistungsspektrums erzeugte komplementäre Leistungsspektrum Pc²(&omega;) der folgenden Berechnung zum Erzeugen eines Leistungsspektrums 147 ungleich Null unterworfen. Hier wird das Leistungsspektrum 147 ungleich Null als Pnz²(&omega;) ausgedrückt
  • Pnz²(&omega;) = P²(&omega;) + Pc²(&omega;) ... (20)
  • Eine Mehrzahl von so erzeugten Leistungsspektren 147 ungleich Null wird in der Zeitreihenfolge zum Erhalten eines Leistungsspektrogrammes ungleich Null angeordnet.
  • In dem ein Beispiel einer Analyse eines Pulszuges konstanter Periode benutzt wird, wird erläutert, wie das Sprachschallanalyseverfahren gemäß der fünften Ausführungsform funktioniert. Fig. 20 zeigt ein dreidimensionales Spektrogramm P(&omega;), das aus einem Leistungsspektrum P²(&omega;) gebildet ist, das unter Benutzung des adaptiven Zeitfensters für den periodischen Pulszug erzeugt ist. Fig. 21 zeigt ein dreidimensionales komplementäres Spektrogramm Pc(&omega;), das aus dem komplementären Leistungsspektrum Pc²(&omega;) gebildet ist, das unter Benutzung des adaptiven komplementären Zeitfensters für den periodischen Pulszug erzeugt ist. Fig. 22 zeigt ein dreidimensionales Spektrogramm Pnz(&omega;) ungleich Null, das aus dem Leistungsspektrum Pnz²(&omega;) ungleich Null für den periodischen Pulszug gebildet ist. Es wird Bezug genommen auf Fig. 20 bis 22, die AA-Achse stellt die Zeit dar (in willkürlicher Skalierung), die BB-Achse stellt die Frequenz dar (in willkürlicher Skalierung), und die CC-Achse stellt die Intensität dar (Amplitude). Es wird Bezug genommen auf Fig. 20, das dreidimensionale Spektrogramm 155 weist einen Oberflächenwert auf, der periodisch auf Null fällt, durch das Vorhandensein eines Punktes, der Null wird. Es wird Bezug genommen auf Fig. 21, der Abschnitt mit solch einem Punkt, der Null wird, in dem dreidimensionalen Spektrogramm, das in Fig. 20 gezeigt ist, nimmt einen Maximalwert in dem dreidimensionalen komplementären Spektrogramm 154 an. Es wird Bezug genommen auf Fig. 22, ein dreidimensionales Spektrogramm 159 ungleich Null, das als ein Mittel des dreidimensionalen Spektrogrammes 155 und des dreidimensionalen komplementären Spektrogrammes 157 erhalten ist, nimmt eine geglättete Form nahe der Flachheit an, bei der kein Punkt Null wird.
  • Wie in dem vorangehenden kann bei dem Sprachschallanalyseverfahren gemäß der fünften Ausführungsform ein Spektrum mit keinem Punkt der Null wird, und ein Spektrogramm mit keinem Punkt, der Null wird, erzeugt werden. Das erzeugte Spektrum ohne einen Punkt, der Null wird, wird an dem Berechnungsabschnitt 109 eines Umrißspektrums und einem Berechnungsabschnitt 111 eines normalisierten Spektrums benutzt, die in Fig. 13 gezeigt sind, und dann kann die Genauigkeit der Nährung eines Abschnittes entlang der Frequenzachse einer Oberfläche, die die Zeitfrequenzcharakteristik eines Sprachschalles darstellt, weiter im Vergleich mit dem Sprachschallanalyseverfahren gemäß der dritten Ausführungsform Verbessert werden. Wenn ein Spektrogramm ohne irgendeinen Punkt, der Null wird, an dem Berechnungsabschnitt 109 eines Umrißspektrums und an dem Berechnungsabschnitt 111 eines normalisierten Spektrums benutzt wird, die in Fig. 15 gezeigt sind, kann die Genauigkeit der Nährung einer Oberfläche, die die Zeitfrequenzcharakteristik eines Sprachschalles darstellt, weiter im Vergleich zu dem Sprachschallanalyseverfahren gemäß der vierten Ausführungsform verbessert werden. Es sei angemerkt, daß anstelle des Benutzens von Pc²(&omega;), Pc²(&omega;) mit einem Korrekturfaktor Cf(0 < Cf &le; 1) zur Benutzung multipliziert ist, wobei die Nährung eines resultierenden optimalen geglätteten Interpolationsspektrogramm allgemein verbessert werden kann. Hierin ist Cf ein Betrag zum Korrigieren der Störung zwischen Phasen.
  • [Sechste Ausführungsform]
  • Bei der dritten bis fünften Ausführungsform wird die Länge des adaptiven Fensters eingestellt (Abschnitt 107 einer fundamentalfrequenzadaptiven Frequenzanalyse in Fig. 13 und 15, Erzeugerabschnitt 139 eines adaptiven Zeitfensters in Fig. 17). Bei einer sechsten Ausführungsform wird zum Sicherstellen des Betriebes, selbst wenn eine Fundamentalfrequenz zum Einstellen der Länge einer Fensterfunktion nicht stabil erzeugt werden kann, ein Verfahren zum adaptiven Einstellen der Länge der Fenster funktion vorgeschlagen, bei dem Vorteil von der Positionsbeziehung von Ereignissen genommen wird, die eine Sprachschallwellenform in der Nähe einer zu analysierenden Position nehmen.
  • Ein Sprachschallanalysenverfahren als ein Signalanalysenverfahren gemäß der sechsten Ausführungsform wird kurz beschrieben. Unter Benutzung optimaler Glättungsfunktionen auf der Frequenz- und Zeitachse, wie in Zusammenhang mit der dritten und vierten Ausführungsform beschrieben wurde, damit der Einfluß übermäßigen Glättens für die beste Wirkung entfernt wird, wird die Länge eines Fensters zum anfänglichen Analysieren einer Sprachschallwellenform bevorzugt in einer festen Beziehung in Bezug auf die Fundamentalfrequenz des Sprachschalles gesetzt. Eine Fensterfunktion w(t), die die Bedingung erfüllt, ist eine Gaußfunktion wie der Ausdruck (13) und der Ausdruck (17), und ihre Fouriertransformierte W(&omega;) ist eine Ausdruck (14) und ein Ausdruck (18). Höchstens zwei von Fundamentalperioden gehen in die Fensterfunktion w(t) in Ausdruck (13) oder (17) zum tatsächlichen Beeinflussen eines Analyseresultates, und in den meisten Fällen tritt nur eine Wellenform für eine Fundamentalperiode ein. Daher wird bei dem Sprachschallanalyseverfahren gemäß der sechsten Ausführungsform für einen Stimmenschall mit einer klaren Haupterregung ein Zeitintervall für zwei Erregungen mit einem gegenwärtigen Analysezentrum dazwischen als t&sub0; benutzt. Eine detaillierte Beschreibung folgt.
  • Fig. 23 ist ein schematische Blockschaltbild, das eine Gesamtkonfiguration einer Sprachschallanalyseneinrichtung zum Implementieren des Sprachschallanalysenverfahrens gemäß der sechsten Ausführungsform zeigt. Es wird Bezug genommen auf Fig. 23, das Sprachschallanalysenverfahren enthält einen Extraktionsabschnitt 161 eines Erregungspunktes, einen Erzeugerabschnitt 163 eines adaptiven Zeitfensters in Abhängigkeit eines Erregungspunktes und einen Berechnungsabschnitt 165 eines adaptiven Leistungsspektrums. Der Abschnitt 107 einer fundamentalfrequenzadaptiven Frequenzanalyse in Fig. 13 und 15 und der Erzeugerabschnitt 139 eines adaptiven Zeitfensters in Fig. 17 können durch die in Fig. 23 gezeigte Sprachschallanalyseneinrichtung ersetzt werden. In dem Fall wird an dem Berechnungsabschnitt 109 eines Umrißspektrums und dem Berechnungsabschnitt 111 eines normalisierten Spektrums in Fig. 13 und 15 ein adaptives Leistungsspektrum 167 anstelle eines an dem Abschnitt 107 einer fundamentalfrequenzadaptiven Frequenzanalyse erhaltenes Leistungsspektrum benutzt. Die Sprachschallwellenform 135 ist die gleiche wie die Sprachschallwellenform, die von dem in Fig. 13 und 15 gezeigten Analog/Digitalwandler 103 angelegt wird. Fig. 24 zeigt ein Beispiel einer Sprachschallwellenform 135, die in Fig. 23 gezeigt ist. Es wird Bezug genommen auf Fig. 24, die Ordinate stellt die Amplitude, die Abszisse die Zeit (ms) dar.
  • Die Sprachschallanalyseneinrichtung in Fig. 23 erzeugt Information über einen Erregungspunkt in einer Wellenform von einer Sprachschallwellenform in der Nähe einer Analyseposition anstatt einer Fundamentalfrequenzinformation beim Erzeugen des adaptiven Zeitfensters und implementiert das Sprachschallanalysenverfahren zum Bestimmen einer geeigneten Länge einer Fensterfunktion auf der Grundlage der relativen Beziehung zwischen der Analyseposition und dem Erregungspunkt. An dem Extraktionsabschnitt 161 eines Erregungspunktes wird eine mittlere Fundamentalfrequenz auf der Grundlage von zuverlässigen Werten von der Schallquelleninformation 117 erzeugt, und adaptive komplementäre Fensterfunktionen (Fensterfunktionen, die gemäß dem gleichen Verfahren wie die in Fig. 18 gezeigte adaptive komplementäre Fensterfunktion wd(t) erzeugt sind) entsprechend zweimal, viermal, achtmal und sechzehnmal der Fundamentalfrequenz werden multipliziert, während ihre Amplituden mit 2 zum Erzeugen einer Funktion zum Erfassen eines Schließens einer Glottis multipliziert werden. Die Funktion des Erfassens des Glottisschließens wird mit der Sprachschallwellenform (siehe Fig. 24) zum Erzeugen eines Signales gefaltet, das einen Maximalwert bei dem Glottisschließen annimmt. Ein Erregungspunkt wird auf der Grundlage des Maximalwertes des Signales erzeugt. Die Erregungspunkte entsprechen den Zeiten, an denen sich die Glottis periodisch schließt. Fig. 25 zeigt ein Signal, das Maximalwerte bei den Glottisschließungen annimmt. Die Ordinate stellt eine Amplitude und die Abszisse eine Zeit (ms) dar. Eine Kurve 169 bezeichnet ein Signal, das Maximalwerte bei den Glottisschließungen annimmt.
  • Es wird wieder Bezug genommen auf Fig. 23, an dem Erzeugerabschnitt 163 eines adaptiven Zeitfensters in Abhängigkeit eines Erregungspunktes wird die Länge eines Fensters adaptiv auf der Grundlage von Information über den Erregungspunkt bestimmt, der durch den Extraktionsabschnitt 161 eines Erregungspunktes erhalten wird, wobei angenommen wird, daß das Zeitintervall zwischen den Erregungspunkten mit einem gegenwärtigen Analysepunkt dazwischen eine Fundamentalperiode &tau;&sub0; ist. An dem Berechnungsabschnitt 165 eines adaptiven Leistungsspektrums wird das an dem Erzeugerabschnitt 163 eines adaptiven Zeitfensters in Abhängigkeit eines Erregungspunktes erhaltene Fenster für die Frequenzanalyse benutzt, und ein adaptives Leistungsspektrum 167 wird erzeugt.
  • In dem das Sprachschallanalyseverfahren gemäß der sechsten Ausführungsform auf die Sprachschallanalyseverfahren gemäß der dritten bis fünften Ausführungsform angewendet wird, können stabile Wirkungen mit sich gebracht werden, selbst eine Fundamentalfrequenz zum Einstellen einer adaptiven Fensterfunktion nicht stabil erzeugt werden kann. Genauer, selbst wenn die Fundamentalfrequenz zum Einstellen der Länge der adaptiven Fensterfunktion nicht stabil erzeugt werden kann, werden die Wirkungen der Sprachschallanalyseverfahren gemäß der dritten bis fünften Ausführungsform nicht verloren.
  • Obwohl die vorliegende Erfindung im einzelnen beschrieben und dargestellt worden ist, ist es klar zu verstehen, daß dasselbe nur als Darstellung und Beispiel dient und nicht als Weg der Beschränkung genommen werden kann, der Umfang der vorliegenden Er findung ist nur durch den Inhalt der beigefügten Ansprüche begrenzt.

Claims (10)

1. Verfahren des Tranformierens eines Signals mit einem periodischen Inhalt, wie ein Sprachsignal, mit den Schritten:
Transformieren des Spektrums des Signales, das in einem diskreten Spektrum vorliegt, in ein kontinuierliches Spektrum, das in einem stückweisen Polynom (3) dargestellt wird;
Transformieren des Signales in ein anderes Signal unter Benutzung des kontinuierlichen Spektrums (5, 6, 7, 8),
wobei in dem Schritt des Transformierens des Spektrums des Signales, das in dem diskreten Spektrum vorliegt, in ein kontinuierliches Spektrum, das in dem stückweisen Polynom dargestellt wird, eine Interpolationsfunktion auf einer Frequenzachse und das diskrete Spektrum zum Erzeugen des kontinuierlichen Spektrums gefaltet werden.
2. Verfahren des Transformierens eines Signales mit einem periodischen Inhalt, wie ein Sprachschallsignal, mit den Schritten:
Erhalten (10) eines geglätteten Spektrogrammes durch Interpolation mit einem stückweisen Polynom unter Benutzung einer Information von Gitterpunkten, die durch das Intervall einer Fundamentalperiode und das Intervall einer Fundamentalfrequenz bestimmt sind, die auf dem Spektrumgramm des Signales dargestellt sind; und
Transformieren des Signales in ein anderes Signal unter Benutzung des geglätteten Spektrogrammes (11, 6, 7, 8),
wobei in dem Schritt des Erhaltens des geglätteten Spektrogrammes durch Interpolation mit dem stückweisen Polynom unter Benutzung einer Information von Gitterpunkten, die von dem Intervall der Fundamentalperiode und dem Intervall der Fundamentalfrequenz bestimmt sind, die in dem Spektrogramm des periodischen Signales dargestellt sind, eine Interpolationsfunktion auf einer Frequenzachse und das Spektrogramm des Signales in die Richtung der Frequenz gefaltet werden und eine Interpolationsfunktion auf der Zeitachse und das Spektrogramm, das durch die Faltung erhalten wird, weiter in der Zeitrichtung zum Erzeugen des geglätteten Spektrogrammes gefaltet werden.
3. Verfahren zum Transformieren eines Schalles mit den Schritten:
Erzeugen einer Impulsantwort unter Benutzung des Produktes einer Phasenkomponente und eines Spektrums des Schalles (7) und Transformieren des Schalles in einen anderen Schall durch Aufaddieren der Impulsantwort, während die Antwort um eine Periode des Interesses auf der Zeitachse (8) bewegt wird,
wobei ein Schallquellensignal, das aus der Phasenkomponente resultiert, ein Leistungsspektrum entsprechend dem Impuls und der Energie, die in der Zeit verteilt sind, aufweist.
4. Verfahren des Transformierens eines Schalles nach Anspruch 3,
bei dem die Phasenkomponente als &Phi;(&omega;) in der folgenden Gleichung:
&Phi;(&omega;) = exp(jp(&omega;) &alpha;k·sin(mk·&xi;(&omega;)))
wobei exp () eine Exponentialfunktion darstellt, &omega; eine Winkelfrequenz darstellt, &xi;(&omega;) eine kontinuierliche ungerade Funktion darstellt, &Lambda; einen Satz einer endlichen Zahl von Zahlen darstellt, k eine einzelne aus &Lambda; extrahierte Zahl darstellt, &alpha;k einen Faktor darstellt, mk einen Parameter darstellt und &rho;(&omega;) eine ein Gewicht anzeigende Funktion darstellt,
oder wobei die Phasenkomponente durch die Schritte erhalten wird:
Erhalten einer bandbegrenzten Zufallszahl durch Falten einer Zufallszahl und einer Bandbegrenzungsfunktion auf der Frequenzachse;
Erhalten einer Gruppenverzögerungscharakteristik durch Multiplizieren der bandbegrenzten Zufallszahl und eines Zielwertes für die Fluktuation der Verzögerungszeit;
Erhalten einer Phasencharakteristik durch Integrieren der Gruppenverzögerungscharakteristik über die Frequenz; und
Multiplizieren der Phasencharakteristik und der imaginären Zahleinheit zum Erzeugen des Exponenten einer Exponentialfunktion.
5. Verfahren des Transformierens eines Schalles nach Anspruch 3,
bei dem die Phasenkomponente ein Produkt einer ersten und einer zweiten Komponente ist;
die erste Komponente &Phi;(&omega;) wie folgt dargestellt wird:
F(w) = exp(j&rho;(w) &alpha;k·sin(mk·&xi;(&omega;)))
wobei exp () eine Exponentialfunktion darstellt, &omega; eine Winkelfrequenz darstellt, &xi;(&omega;) eine kontinuierliche ungerade Funktion darstellt, &Lambda; einen Satz einer endlichen Zahl von Zahlen darstellt, k eine aus &Lambda; extrahierte einzelne Zahl darstellt, &alpha;k einen Faktor darstellt, mk einen Parameter darstellt und &rho;(&omega;) eine ein Gewicht anzeigende Funktion darstellt, und
die zweite Komponente durch die Schritte erzeugt wird:
Erhalten einer bandbegrenzten Zufallszahl durch Falten einer Zufallszahl und einer Bandbegrenzungsfunktion auf der Frequenzachse;
Erhalten einer Gruppenverzögerungscharakteristik durch Multiplizieren der bandbegrenzten Zufallszahl und eines Zielwertes für die Fluktuation einer Verzögerungszeit;
Erhalten einer Phasencharakteristik durch Integrieren der Gruppenverzögerungscharakteristik über eine Frequenz; und
Multiplizieren der Phasencharakteristik mit der imaginären Zahleinheit zum Erzeugen des Exponenten einer Exponentialfunktion.
6. Verfahren der Signalanalyse mit den Schritten:
Annehmen einer Zeitfrequenzoberfläche, die einen Mechanismus zum Erzeugen eines fast periodischen Signales darstellt, dessen Charakteristik sich mit der Zeit ändert, die als ein Produkt eines stückweisen Polynoms der Zeit und eines stückweisen Polynoms der Frequenz dargestellt darzustellen sind;
Extrahieren eines vorbestimmten Bereiches des fast periodischen Signales unter Benutzung einer Fensterfunktion (107);
Erzeugen eines ersten Spektrums aus dem fast periodischen Signal in dem extrahierten vorbestimmten Bereich (107);
Erzeugen einer optimalen Interpolationsfunktion in der Richtung der Frequenz aus einer Darstellung in dem Frequenzbereich der Fensterfunktion und der Basis eines Raumes, der durch das stückweise Polynom der Frequenz dargestellt wird; und
Erzeugen eines zweiten Spektrums (113) durch Falten des ersten Spektrums und der optimalen Interpolationsfunktion in der Richtung der Frequenz,
wobei die optimale Interpolationsfunktion in der Richtung der Frequenz einen Fehler zwischen dem zweiten Spektrum und einem Abschnitt entlang der Frequenzachse der Zeitfrequenzoberfläche minimiert und
bevorzugt Transformieren des zweiten Spektrums in ein drittes Spektrum (113) unter Benutzung einer monotonen geglätteten Funktion, die den Bereich von -&infin; bis +&infin; auf den Bereich von 0 bis +&infin; abbildet.
7. Signalanalyseverfahren nach Anspruch 6, weiter mit den Schritten:
Erzeugen eines vierten Spektrums durch Entfernen des Einflusses der Fundamentalfrequenz des fast periodischen Signales von dem ersten Spektrum (109);
Erzeugen eines fünften Spektrums durch Dividieren des ersten Spektrums durch das fünfte Spektrum (111); und
Erzeugen eines sechsten Spektrums durch Multiplizieren des dritten Spektrums mit dem vierten Spektrum (115),
wobei bei dem Schritt des Erzeugens des zweiten Spektrums das zweite Spektrum unter Benutzung des fünften Spektrums anstelle des ersten Spektrums erzeugt wird.
8. Signalanalyseverfahren nach Anspruch 6 oder 7, weiter mit den Schritten:
Erzeugen einer optimalen Interpolationsfunktion in der Richtung der Zeit aus einer Darstellung der Fensterfunktion in einem Zeitbereich und der Basis eines Raumes, der durch das stückweise Polynom der Zeit dargestellt wird;
Erzeugen einer Mehrzahl der zweiten Spektren zu jeder beliebigen Zeit (113);
Erzeugen eines ersten Spektrogrammes durch Anordnen der Mehrzahl von zweiten Spektren in der Richtung der Zeit (113); und
Erzeugen eines zweiten Spektrogrammes durch Falten des ersten Spektrogrammes und der optimalen Interpolationsfunktion in der Richtung der Zeit (127),
wobei die optimale Interpolationsfunktion in der Richtung der Zeit einen Fehler zwischen dem zweiten Spektrogramm und der Zeitfrequenzoberfläche minimiert, oder
Erzeugen einer Mehrzahl der zweiten Spektren an jeder beliebigen Zeit (113);
Transformieren der Mehrzahl von zweiten Spektren in eine Mehrzahl von dritte Spektren unter Benutzung einer ersten monotonen geglätteten Funktion, die den Bereich von -&infin; bis +&infin; auf den Bereich von 0 bis +&infin; abbildet (113);
Erzeugen eines Spektrogrammes durch Anordnen der Mehrzahl von dritten Spektren in der Richtung der Zeit (113);
Erzeugen einer optimalen Interpolationsfunktion in der Richtung der Zeit aus einer Darstellung der Fensterfunktion in einem Zeitbereich und der Basis eines Raumes, der durch das stückweise Polynom der Zeit dargestellt wird;
Erzeugen eines zweiten Spektrogrammes durch Falten des ersten Spektrogrammes und der optimalen Interpolationsfunktion in der Richtung der Zeit (127); und
Transformieren des zweiten Spektrogrammes in ein drittes Spektrogramm unter Benutzung einer zweiten monotonen geglätteten Funktion, die den Bereich von -&infin; bis +&infin; auf den Bereich von 0 bis +&infin; abbildet (127),
wobei die optimale Interpolationsfunktion in der Richtung der Zeit einen Fehler zwischen dem zweiten Spektrogramm und der Zeitfrequenzoberfläche minimiert.
9. Signalanalyseverfahren mit den Schritten:
Annehmen einer Zeitfrequenzoberfläche, die einen Mechanismus darstellt zum Erzeugen eines fast periodischen Signales, dessen Charakteristik sich mit der Zeit ändert, die als ein Produkt eines stückweisen Polynomes der Zeit und eine stückweisen Polynomes der Frequenz darzustellen sind;
Extrahieren eines vorbestimmten Bereiches des fast periodischen Signales unter Benutzung einer Fensterfunktion (107);
Erzeugen eines ersten Spektrums aus dem fast periodischen Signal in dem extrahierten vorbeschriebenen Bereich (107);
Erzeugen einer Mehrzahl der ersten Spektren an jeder beliebigen Zeit (107);
Erzeugen einer Mehrzahl von zweiten Spektren durch Entfernen des Einflusses der Fundamentalfrequenz des fast periodischen Signales von der Mehrzahl von ersten Spektren (109);
Erzeugen einer Mehrzahl von dritten Spektren durch Dividieren von jedem ersten Spektrum durch ein entsprechendes der zweiten Spektren (111);
Erzeugen einer optimalen Interpolationsfunktion in der Richtung der Frequenz aus einer Darstellung der Fensterfunktion in einem Frequenzbereich und der Basis eines Raumes, der durch das stückweise Polynom der Frequenz dargestellt wird;
Erzeugen einer Mehrzahl von vierten Spektren durch Falten eines jeden dritten Spektrums und der optimalen Interpolationsfunktion in der Richtung der Frequenz (113);
Transformieren der Mehrzahl von vierten Spektren in eine Mehrzahl von fünften Spektren unter Benutzung einer ersten monotonen geglätteten Funktion, die den Bereich von -&infin; auf +&infin; auf den Bereich von 0 bis ±&infin; abbildet (113);
Erzeugen einer Mehrzahl von sechsten Spektren durch Multiplizieren von jedem fünften Spektrum und eines entsprechenden der zweiten Spektren (115);
Erzeugen eines ersten Spektrogrammes durch Anordnen der Mehrzahl von sechsten Spektren in der Richtung der zweiten (115) Erzeugen eines zweiten Spektrogrammes durch Entfernen des Einflusses der Zeitfluktuation auf der Grundlage der Periodizität des fast periodischen Signales von dem ersten Spektrogramm (123);
Erzeugen eines dritten Spektrogrammes durch Dividieren des ersten Spektrogrammes durch das zweite Spektrogramm (125);
Erzeugen einer optimalen Interpolationsfunktion in der Richtung der Zeit aus einer Darstellung der Fensterfunktion in einem Zeitbereich und der Basis eines Raumes, der durch das stückweise Polynom in der Zeit dargestellt wird;
Erzeugen eines vierten Spektrogrammes durch Falten des dritten Spektrogrammes und der optimalen Interpolationsfunktion in der Richtung der Zeit (127);
Transformieren des vierten Spektrogrammes in ein fünftes Spektrogramm unter Benutzung einer zweiten monotonen geglätteten Funktion, die den Bereich von -&infin; bis +&infin; auf den Bereich von 0 bis +&infin; abbildet (127); und
Erzeugen eines sechsten Spektrogrammes durch Multiplizieren des fünften Spektrogrammes mit dem zweiten Spektrogramm (129),
wobei die optimale Interpolationsfunktion in der Richtung der Zeit einen Fehler zwischen dem vierten Spektrum und einem Abschnitt entlang der Frequenzachse der Zeitfrequenzoberfläche minimiert und
die optimale Interpolationsfunktion in der Richtung der Zeit einen Fehler zwischen dem vierten Spektrogramm und der Zeitfrequenzoberfläche minimiert.
10. Signalanalyseverfahren mit den Schritten:
Erzeugen eines ersten Spektrums eines fast periodischen Signales, dessen Charakteristik sich mit der Zeit ändert, unter Benutzung einer ersten Fensterfunktion (137);
Erzeugen einer zweiten Fensterfunktion unter Benutzung einer vorbeschriebenen Fensterfunktion (143);
Erzeugen eines zweiten Spektrums des fast periodischen Signales unter Benutzung der zweiten Fensterfunktion (141) und
Erzeugen eines Mittelwertes des ersten Spektrums und des zweiten Spektrums durch Transformation durch Quadrieren oder eine monotone nicht negative Funktion und Herstellen eines resultierenden Mittelwertes eines dritten Spektrums (145),
bei dem der Schritt des Erzeugens der zweiten Fensterfunktion den Schritt aufweist:
Positionieren der vorgeschriebenen Fensterfunktionen in einem Intervall einer Fundamentalperiode getrennt auf beiden Seiten des Nullpunktes;
Umdrehen des Vorzeichens von einer der positionierten vorgeschriebenen Fensterfunktion;
Erzeugen der zweiten Fensterfunktion durch Kombinieren der vorgeschriebenen Fensterfunktion mit umgedrehtem Vorzeichen und der anderen vorgeschriebenen Fensterfunktion;
bevorzugt Erzeugen einer Mehrzahl von den dritten Spektren zu jeder beliebigen Zeit (45) und
Erzeugen eines Spektrogrammes durch Anordnen der Mehrzahl von dritten Spektren in der Richtung der Zeit (145).
DE69700084T 1996-07-30 1997-07-15 Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion Expired - Lifetime DE69700084T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP20084596 1996-07-30
JP34424796A JP3266819B2 (ja) 1996-07-30 1996-12-24 周期信号変換方法、音変換方法および信号分析方法

Publications (2)

Publication Number Publication Date
DE69700084D1 DE69700084D1 (de) 1999-02-11
DE69700084T2 true DE69700084T2 (de) 1999-06-10

Family

ID=26512425

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69700084T Expired - Lifetime DE69700084T2 (de) 1996-07-30 1997-07-15 Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion

Country Status (5)

Country Link
US (1) US6115684A (de)
EP (1) EP0822538B1 (de)
JP (1) JP3266819B2 (de)
CA (1) CA2210826C (de)
DE (1) DE69700084T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015110938A1 (de) * 2015-07-07 2017-01-12 Christoph Kemper Verfahren zur Modifizierung einer Impulsantwort eines Klangwandlers

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2768545B1 (fr) * 1997-09-18 2000-07-13 Matra Communication Procede de conditionnement d'un signal de parole numerique
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
WO2001069593A1 (en) * 2000-03-15 2001-09-20 Koninklijke Philips Electronics N.V. Laguerre fonction for audio coding
EP1503371B1 (de) * 2000-06-14 2006-08-16 Kabushiki Kaisha Kenwood Frequenzinterpolationseinrichtung und Frequenzinterpolationsverfahren
JP3576936B2 (ja) * 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
US6567777B1 (en) * 2000-08-02 2003-05-20 Motorola, Inc. Efficient magnitude spectrum approximation
WO2002035517A1 (fr) * 2000-10-24 2002-05-02 Kabushiki Kaisha Kenwood Appareil et procédé pour interpoler un signal
SE0004221L (sv) * 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Metod och anordning för talanalys
JP2003241777A (ja) * 2001-01-09 2003-08-29 Kawai Musical Instr Mfg Co Ltd 楽音のフォルマント抽出方法、記録媒体及び楽音のフォルマント抽出装置
WO2003003345A1 (fr) * 2001-06-29 2003-01-09 Kabushiki Kaisha Kenwood Dispositif et procede d'interpolation des composantes de frequence d'un signal
JP4012506B2 (ja) * 2001-08-24 2007-11-21 株式会社ケンウッド 信号の周波数成分を適応的に補間するための装置および方法
US20040220801A1 (en) * 2001-08-31 2004-11-04 Yasushi Sato Pitch waveform signal generating apparatus, pitch waveform signal generation method and program
CN1302555C (zh) * 2001-11-15 2007-02-28 力晶半导体股份有限公司 非易失性半导体存储单元结构及其制作方法
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
US7991071B2 (en) * 2002-05-16 2011-08-02 Rf Micro Devices, Inc. AM to PM correction system for polar modulator
US7801244B2 (en) * 2002-05-16 2010-09-21 Rf Micro Devices, Inc. Am to AM correction system for polar modulator
US7809145B2 (en) * 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US8073157B2 (en) * 2003-08-27 2011-12-06 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection and characterization
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US9174119B2 (en) 2002-07-27 2015-11-03 Sony Computer Entertainement America, LLC Controller for providing inputs to control execution of a program when inputs are combined
US8233642B2 (en) * 2003-08-27 2012-07-31 Sony Computer Entertainment Inc. Methods and apparatuses for capturing an audio signal based on a location of the signal
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
US7803050B2 (en) * 2002-07-27 2010-09-28 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US8139793B2 (en) 2003-08-27 2012-03-20 Sony Computer Entertainment Inc. Methods and apparatus for capturing audio signals based on a visual image
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
US20040260540A1 (en) * 2003-06-20 2004-12-23 Tong Zhang System and method for spectrogram analysis of an audio signal
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
JP4813774B2 (ja) * 2004-05-18 2011-11-09 テクトロニクス・インターナショナル・セールス・ゲーエムベーハー 周波数分析装置の表示方法
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
CN1835072B (zh) * 2005-03-17 2010-04-28 佳能株式会社 根据波三角变换检测语音的方法和装置
US7457756B1 (en) * 2005-06-09 2008-11-25 The United States Of America As Represented By The Director Of The National Security Agency Method of generating time-frequency signal representation preserving phase information
US8224265B1 (en) 2005-06-13 2012-07-17 Rf Micro Devices, Inc. Method for optimizing AM/AM and AM/PM predistortion in a mobile terminal
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US7880748B1 (en) * 2005-08-17 2011-02-01 Apple Inc. Audio view using 3-dimensional plot
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
US20070118361A1 (en) * 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
US7877060B1 (en) 2006-02-06 2011-01-25 Rf Micro Devices, Inc. Fast calibration of AM/PM pre-distortion
US7962108B1 (en) 2006-03-29 2011-06-14 Rf Micro Devices, Inc. Adaptive AM/PM compensation
US20080114822A1 (en) * 2006-11-14 2008-05-15 Benjamin David Poust Enhancement of extraction of film thickness from x-ray data
US20080120115A1 (en) * 2006-11-16 2008-05-22 Xiao Dong Mao Methods and apparatuses for dynamically adjusting an audio signal based on a parameter
US8009762B1 (en) 2007-04-17 2011-08-30 Rf Micro Devices, Inc. Method for calibrating a phase distortion compensated polar modulated radio frequency transmitter
JP5275612B2 (ja) * 2007-07-18 2013-08-28 国立大学法人 和歌山大学 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
CN101589430B (zh) * 2007-08-10 2012-07-18 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
US8706496B2 (en) * 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
US20090216535A1 (en) * 2008-02-22 2009-08-27 Avraham Entlis Engine For Speech Recognition
WO2010032405A1 (ja) * 2008-09-16 2010-03-25 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US8489042B1 (en) 2009-10-08 2013-07-16 Rf Micro Devices, Inc. Polar feedback linearization
RU2526889C2 (ru) * 2009-11-12 2014-08-27 Пол Рид Смит Гитарс Лимитед Партнершип Прецизионное измерение формы колебаний
JP5331901B2 (ja) * 2009-12-21 2013-10-30 富士通株式会社 音声制御装置
JPWO2011118207A1 (ja) * 2010-03-25 2013-07-04 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
EP2681691A4 (de) * 2011-03-03 2015-06-03 Cypher Llc System zur unabhängigen erkennung und trennung gemeinsamer elemente innerhalb von daten sowie entsprechende verfahren und vorrichtungen
US8462984B2 (en) * 2011-03-03 2013-06-11 Cypher, Llc Data pattern recognition and separation engine
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及***
US9368103B2 (en) 2012-08-01 2016-06-14 National Institute Of Advanced Industrial Science And Technology Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
JP6251145B2 (ja) * 2014-09-18 2017-12-20 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6420781B2 (ja) * 2016-02-23 2018-11-07 日本電信電話株式会社 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム
US10431242B1 (en) * 2017-11-02 2019-10-01 Gopro, Inc. Systems and methods for identifying speech based on spectral features
JP2021033129A (ja) * 2019-08-27 2021-03-01 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
CN112129425B (zh) * 2020-09-04 2022-04-08 三峡大学 基于单调邻域均值的大坝混凝土浇筑光纤测温数据重采样方法
CN113723200B (zh) * 2021-08-03 2024-01-12 同济大学 一种非平稳信号的时频谱结构特征提取方法
CN113689837B (zh) * 2021-08-24 2023-08-29 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质
CN114267376B (zh) * 2021-11-24 2022-10-18 北京百度网讯科技有限公司 音素检测方法及装置、训练方法及装置、设备和介质
CN116877452B (zh) * 2023-09-07 2023-12-08 利欧集团浙江泵业有限公司 基于物联网数据的非变容式水泵运行状态监控***
CN117705091B (zh) * 2024-02-05 2024-04-16 中国空气动力研究与发展中心高速空气动力研究所 基于大量程石英挠性加速度计的高精度姿态测量方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1280808C (en) * 1987-03-23 1991-02-26 Seiichi Ishikawa Calculation of filter factors for digital filter
US5029211A (en) * 1988-05-30 1991-07-02 Nec Corporation Speech analysis and synthesis system
US5235534A (en) * 1988-08-18 1993-08-10 Hewlett-Packard Company Method and apparatus for interpolating between data samples
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
CA2483322C (en) * 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5353233A (en) * 1992-03-17 1994-10-04 National Instruments, Inc. Method and apparatus for time varying spectrum analysis
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
DE69428612T2 (de) * 1993-01-25 2002-07-11 Matsushita Electric Industrial Co., Ltd. Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen
JPH08506427A (ja) * 1993-02-12 1996-07-09 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 雑音減少
TW232116B (en) * 1993-04-14 1994-10-11 Sony Corp Method or device and recording media for signal conversion
JP3475446B2 (ja) * 1993-07-27 2003-12-08 ソニー株式会社 符号化方法
CA2108103C (en) * 1993-10-08 2001-02-13 Michel T. Fattouche Method and apparatus for the compression, processing and spectral resolution of electromagnetic and acoustic signals
DE69420705T2 (de) * 1993-12-06 2000-07-06 Koninklijke Philips Electronics N.V., Eindhoven System und vorrichtung zur rauschunterdrückung sowie mobilfunkgerät
US5485395A (en) * 1994-02-14 1996-01-16 Brigham Young University Method for processing sampled data signals
FR2717294B1 (fr) * 1994-03-08 1996-05-10 France Telecom Procédé et dispositif de synthèse dynamique sonore musicale et vocale par distorsion non linéaire et modulation d'amplitude.
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
DE4417406C2 (de) * 1994-05-18 2000-09-28 Advantest Corp Hochauflösender Frequenzanalysator und Vektorspektrumanalysator
US5675701A (en) * 1995-04-28 1997-10-07 Lucent Technologies Inc. Speech coding parameter smoothing method
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5686683A (en) * 1995-10-23 1997-11-11 The Regents Of The University Of California Inverse transform narrow band/broad band sound synthesis

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015110938A1 (de) * 2015-07-07 2017-01-12 Christoph Kemper Verfahren zur Modifizierung einer Impulsantwort eines Klangwandlers
DE102015110938B4 (de) 2015-07-07 2017-02-23 Christoph Kemper Verfahren zur Modifizierung einer Impulsantwort eines Klangwandlers

Also Published As

Publication number Publication date
CA2210826A1 (en) 1998-01-30
EP0822538B1 (de) 1998-12-30
JPH1097287A (ja) 1998-04-14
CA2210826C (en) 2001-11-06
US6115684A (en) 2000-09-05
EP0822538A1 (de) 1998-02-04
JP3266819B2 (ja) 2002-03-18
DE69700084D1 (de) 1999-02-11

Similar Documents

Publication Publication Date Title
DE69700084T2 (de) Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE3789476T2 (de) Digitaler Vocoder.
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69932786T2 (de) Tonhöhenerkennung
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
Moulines et al. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones
Moulines et al. Non-parametric techniques for pitch-scale and time-scale modification of speech
DE68907629T2 (de) Vektorquantisierung für eine Anordnung zur harmonischen Sprachcodierung.
DE69131776T2 (de) Verfahren zur sprachanalyse und synthese
DE69700087T2 (de) Gerät und Verfahren zur Signalanalyse
DE69328064T2 (de) Zeit-Frequenzinterpolation mit Anwendung zur Sprachkodierung mit niedriger Rate
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
EP1525576B1 (de) Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals
DE69702261T2 (de) Sprachkodierung
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE3884839T2 (de) Codierung von akustischen Wellenformen.
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: ADVANCED TELECOMMUNICATIONS RESEARCH INSTITUTE INT