DE69009545T2 - Verfahren zur Sprachanalyse und -synthese. - Google Patents

Verfahren zur Sprachanalyse und -synthese.

Info

Publication number
DE69009545T2
DE69009545T2 DE69009545T DE69009545T DE69009545T2 DE 69009545 T2 DE69009545 T2 DE 69009545T2 DE 69009545 T DE69009545 T DE 69009545T DE 69009545 T DE69009545 T DE 69009545T DE 69009545 T2 DE69009545 T2 DE 69009545T2
Authority
DE
Germany
Prior art keywords
mel
speech
coefficients
unit
spectral envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69009545T
Other languages
English (en)
Other versions
DE69009545D1 (de
Inventor
Takashi Aso
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Application granted granted Critical
Publication of DE69009545D1 publication Critical patent/DE69009545D1/de
Publication of DE69009545T2 publication Critical patent/DE69009545T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

    ALLGEMEINER STAND DER TECHNIK Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft ein Verfahren zur Sprachanalyse und -synthese, nach dem Sprache in Parameter zerlegt und nach dem Sprache aus diesen Parametern wieder zusammengesetzt wird.
  • Zum Stand der Technik
  • Ein Verfahren zur Sprachanalyse und -synthese ist schon als Mel-Kepstrum-Verfahren bekannt geworden, beispielsweise aus ICASSP'83-IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Boston, 14 bis 16 April 1983, Band 1, Seiten 93 bis 96, IEEE, New York, US; S.IMAI: "Kepstrum analysis synthesis on the mel frequency".
  • Bei diesem Verfahren wird die Sprachanalyse zur Gewinnung einer Spektralhülleninformation durch Bestimmung einer Spektralhülle nach dem verbesserten Kepstrum-Verfahren durchgeführt und durch Umsetzung desselben in Kepstrum-Koeffizienten auf einer nicht-linearen Frequenzskala, in gleicher Weise wie auf der Mel- Skala. Die Sprachsynthese wird unter Verwendung eines Mellogarithmischen Spektrum-Annäherungs (MLSA)-Filters als Synthetisierfilter durchgeführt, und die Sprache wird durch Eingabe der Kepstrum-Koeffizienten synthetisiert, die bei der Sprachanalyse als Filterkoeffizienten gewonnen wurden.
  • Auf diesem Gebiet ist auch das Leistungs-Spektralhüllen- (PFE)-Verfahren bekannt.
  • Bei diesem Verfahren wird bei der Sprachanalyse die Spektralhülle durch Abtastung eines Leistungsspektrums bestimmt, das aus der Sprachkurvenform durch FFT zu Positionen des Vielfachen einer Grundfrequenz gewonnen wird; vergleiche beispielsweise IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING; Band ASSP- 29, Nr. 4, August 1981, Seiten 786 bis 794, New York, US; D.B.PAUL: "Der Spektralhüllen-Schätzvocoder". Die Spektralhülle wird durch Verbinden der gewonnenen Abtastpunkte mit Kosinus-Polynomen geglättet. Die Sprachsynthese wird durch Bestimmung von nullphasigen Impulsantwort-Kurvenformen aus der auf diese Weise gewonnenen Spektralhülle durchgeführt und durch Überlagerung der Kurvenf ormen mit der Grundperiode (Reziprokwert der Grundfrequenz).
  • Derartigen herkömmlichen Methoden haften jedoch folgende Nachteile an:
  • (1) Bei der Bestimmung der Spektralhülle durch das verbesserte Kepstrum-Verfahren nach dem Leistungs-Spektralhüllen-Verfahren neigt die Spektralhülle abhängig von der Beziehung zwischen der Ordnung des Kepstrum-Koeffizienten und der Grundfrequenz der Sprache zum Zittern. Folglich muß die Ordnung des Kepstrum- Koeffizienten entsprechend der Grundfrequenz der Sprache geregelt werden. Auch ist dieses Verfahren nicht in der Lage, schnellen Änderungen des Spektrums zu folgen, wenn ein großer Dynamikbereich zwischen Spitzen und Null-Pegelwert vorliegt. Aus diesen Gründen ist die Sprachanalyse nach dem Mel-Kepstrum-Verfahren für eine genaue Bestimmung der Spektralhülle ungeeignet und gibt Veranlassung zur Verschlechterung der Tonqualität. Auf der anderen Seite ist die Sprachanalyse nach dem PSE-Verfahren nicht mit diesen Nachteilen behaftet, da das Spektrum mit der Grundfreguenz abgetastet wird und da die Hülle durch angenäherte Kurvenformen (Kosinus-Polynome) bestimmt wird, die durch die Abtastpunkte verlaufen.
  • (2) Jedoch erfordert die Sprachsynthese nach dem PSE-Verfahren durch Überlagerung von nullphasigen Impulsantwort-Kurvenformen einen Pufferspeicher, der die synthetisierte Kurvenform speichert, um die lmpulsantwort-Kurvenformen symmetrisch zur Zeit Null zu überlagern. Da auch die Überlagerung von Impulsantwort-Kurvenformen in der Synthese einer stimmlosen Sprachperiode stattfindet, besteht auch eine unvermeidliche Periode der Überlagerung in dem synthetisierten Klang derartiger stimmloser Sprachabschnitte. Auf diese Weise ist das resultierende Spektrum kein kontinuierliches Spektrum, wie es das des weißen Rauschens ist, sondern es ist ein Linienspektrum, dessen Energie nur bei dem Vielfachen der Überlagerungsfrequenz liegt. Eine derartige Eigenschaft unterscheidet sich vollständig von der tatsächlichen Sprache. Aus diesen Gründen ist die Sprachsynthese nach dem PSE-Verfahren zur Echtzeitverarbeitung ungeeignet, und die Kennlinien der synthetisierten Sprache sind unbefriedigend. Auf der anderen Seite ist die Sprachsynthese nach dem Mel-Kepstrum- Verfahren leicht in Echtzeit zu verarbeiten, beispielsweise mit einem DSP, aufgrund der Verwendung eines Filters (MLSA-Filter), und es kann auch den Nachteil bei dem PSE-Verfahren vermeiden, indem die Klangquelle zwischen einem stimmhaften Sprachabschnitt und einem stimmlosen Sprachabschnitt gewechselt wird, wobei weißes Rauschen als Quelle für den stimmlosen Sprachabschnitt verwendet wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Unter Berücksichtigung des Vorstehenden besteht die Aufgabe der vorliegenden Erfindung darin, ein verbessertes Verfahren zur Sprachanalyse und -Synthese zu schaffen, wie es in den Ansprüchen 1 und 5 angegeben ist, das nicht mit den Nachteilen herkömmlicher Verfahren behaftet ist.
  • Nach der vorliegenden Erfindung wird die Spektralhüle durch Gewinnung eines Kurzzeit-Leistungsspektrums durch FFT der Sprachkurvendaten eines kurzen Abschnitts bestimmt, durch Abtastung eines Kurzzeit-Leistungsspektrums an Stellen, die dem Vielfachen einer Grundfrequenz entsprechen, und durch Anwendung eines Kosinus- Polynom-Modells auf die gewonnenen Abtastpunkte. Die synthetisierte Sprache wird gewonnen durch Errechnung der Mel-Kepstrum- Koeffizienten aus der Spektralhülle und durch Anwendung der Mel- Kepstrum-Koeffizienten als Filterkoeffizienten für die Synthetisierfilter (MLSA). Ein derartiges Verfahren ermöglicht es, hochqualitative synthetisierte Sprache in besser anwndbarer Weise zu erzielen.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Fig. 1 ist ein Blockschaltbild eines Ausführungsbeispiels der vorliegenden Erfindung;
  • Fig. 2 ist ein Blockschaltbild einer Analyseeinheit, die in Fig. 1 dargestellt ist;
  • Fig. 3 ist ein Blockschaltbild einer Parameterumwandlungseinheit, die in Fig. 1 dargestellt ist;
  • Fig. 4 ist ein Blockschaltbild einer in Fig. 1 dargestellten Synthetisiereinheit;
  • Fig. 5 ist ein Blockschaltbild eines weiteren Ausführungsbeispiels der in Fig. 1 dargestellten Parameterumsetzeinheit und
  • Fig. 6 ist ein Blockschaltbild eines weiteren Ausführungsbeispiels nach der vorliegenden Erfindung.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE Erstes Ausführungsbeispiel, das eine Frequenzachsen-Konvertierung bei der Bestimmung der Mel-Kepstrum-Koeffizienten anwendet.
  • Fig. 1 ist ein Blockschaltbild, das die Merkmale der vorliegenden Erfindung am besten darstellt, in dem eine Analyseeinheit 1 dargestellt ist, die logarithmische Spektralhüllendaten durch Analyse einer Kurzzeit-Sprachkurve analysiert (die Zeit je Einheit wird als Rahmen bezeichnet), die beurteilt, ob die Sprache stirnmhaft oder stimmlos ist und die die Tonlage (Grundfrequenz) ausliest; in dem eine Parameter- Konvertierungseinheit 2 dargestellt ist, die die Hüllendaten in Mel-Kepstrum -Koeffizienten umsetzt, die von der Analysiereinheit 1 erzeugt worden sind, und das eine Synthetisiereinheit 3 darstellt, die eine synthetisierte Sprachkurvenform aus den Mel-Kepstrum- Koeffizienten gewonnenen Koeffizienten in der Parameter- Konvertierungseinheit 2 sowie die stimmhaft/stimmlos-Information und die von der Analysiereinheit 1 gewonnene Tonlageninformation erzeugt.
  • Fig. 2 zeigt den Aufbau der in Fig. 1 dargestellten Analysiereinheit mit: einer stimmhaft/stimmlos-Entscheidungseinheit 4, die entscheidet, ob die eingegebene Sprache des Rahmens stimmhaft oder stimmlos ist; einer Tönlagen-Ausleseeinheit 5, die die Tonlage (Grundfrequenz) des eintreffenden Rahmens bestimmt; einer Abtasteinheit 7 zur Abtastung des Leistungsspektrums, das in der Leistungsspektrum-Ausleseeinheit 6 mit einer in der Tonlagen Ausleseeinheit gewonnenen Tonlage abtastet; einer Parameter Schätzeinheit 8 zur Koeffizientenbestimmung durch Anwendung eines Kosinus-Polynom-Modells auf einen Zug von Abtastpunkten, der in der Abtasteinheit 7 gewonnen wurde, und mit einer Spektralhüllen- Erzeugungseinheit 9 zur Bestimmung der logarithmischen Spektralhülle aus den in der Parameter-Schätzeinheit 8 gewonnenen Koeffizienten.
  • Fig, 3 zeigt den Aufbau der in Fig. 1 dargestellten Parameter-Konvertierungseinheit. Vorgesehen sind eine Mel- Annäherungsskala-Bildungseinheit 10 zur Bildung einer angenäherten Frequenzskala zur Umsetzung der Frequenzachse in eine Mel-Skala; eine Frequenzachsen-Konvertierungseinheit 11 zur Konvertierung der Frequenzachse in die Mel-Annäherungsskala; sowie eine Mel-Kepstrum- Konvertierungseinheit 12 zur Erzeugung von Kepstrum-Koeffizienten aus der logarithmischen Spektralhülle.
  • Fig. 4 zeigt den Aufbau der in Fig. 1 dargestellten Synthetisiereinheit. Vorgesehen sind ein Impuls-Klangquellen- Generator 13 zur Bildung einer Klangquelle für einen stimmhaften Sprachabschnitt; ein Rausch-Klangquellen-Generator 14 zur Bildung einer Klangquelle für einen stimmlosen Sprachabschnitt; eine Klangquellen-Umschalteinheit 15 zur Auswahl der Klangquelle gemäß der stimmhaft/stimmlos-Information aus der stimmhaft/stimmlos- Entscheidungseinheit 4 sowie eine Synthetisier-Filtereinheit 16 zur Bildung einer synthetisierten Sprachkurvenform für die Mel- Kepstrum-Koeffizienten und für die Klangquelle.
  • Die Funktion des vorliegenden Ausführungsbeispiels wird nachstehend erläutert.
  • In der folgenden Erläuterung wird von folgenden Sprachdaten ausgegangen:
  • Abtastfrequenz: 12 kHz
  • Rahmenlänge: 21,33 msec (256 Datenpunkte)
  • Rahmenperiode: 10 msec (120 Datenpunkte)
  • Wenn Sprachdaten einer Rahmenlänge an die Analysiereinheit 1 angelegt werden, entscheidet die stimmhaft/stimmlos- Entscheidungseinheit 4 zuerst, ob der eintreffende Rahmen ein stimmhafter Sprachabschnitt oder ein stimmloser Sprachabschnitt ist.
  • Die Leistungsspektrum-Ausleseeinheit 5 führt einen Fensterprozess (beispielsweise Blackman-Fenster oder Hunning- Fenster) auf die eingehenden Daten einer Rahmenlänge aus und bestimmt das logarithmische Leistungspektrum durch einen FTT- Prozess. Die Anzahl der Punkte des FFT-Prozesses sollte mit einem relativ großen Wert (beispielsweise 2048 Punkte) ausgewählt werden, da die Auflösungsleistung der Frequenz fein ausgewählt werden sollte, um die Tonlage in dem darauffolgenden Prozess bestimmen zu können.
  • Wenn der ankommende Rahmen ein stimmhafter Sprachabschnitt ist, liest die Tonlagen-Ausleseeinheit 6 die Tonlage aus. Dieses kann beispielsweise durch Bestimmung des Kepstrum geschehen, indem ein inverser FFT-Prozess des logarithmischen Leistungsspektrums ausgeführt wird, das von der Leistungsspektrum-Ausleseeinheit 5 gewonnen wurde, und indem die Tonlage (Grundfrequenz: fo [Hz]) durch den reziproken Wert der Frequenz (sec) festgestellt wird, die einen Maximalwert des Kepstrum angibt. Da in einem stimmlosen Sprachabschnitt keine Tonlage existiert, wird die Tonlage als ein hinreichend kleiner konstanter Wert (beispielsweise 100 Hz) definiert.
  • Die Abtasteinheit 7 führt Abtastungen des logarithmischen Leistungsspektrums durch, das in der Leistungsspektrum- Ausleseeinheit 5 gewonnen wurde, mit dem Tonlagenabschnitt (Stellen, die dem Vielfachen der Tonlage entsprechen), der in der Tonlagen-Ausleseeinheit 6 bestimmt wurde, damit ein Zug von Abtastpunkten gewonnen werden kann.
  • Das Frequenzband zur Bestimmung des Zuges der Abtastpunkte liegt im Falle einer Abtastfrequenz von 12 kHz vorteilhafterweise in einem Bereich von 0 bis 5 kHz; aber es besteht keine Notwendigkeit, sich auf diesen Bereich zu beschränken. Jedoch sollte 1/2 der Abtastfrequenz auf der Grundlage des Abtasttheorems nicht überschreiten. Wenn ein Frequenzband von 5 kHz benötigt wird, können die obere Frequenz F (Hz) des Modells und die Anzahl N von Abtastpunkten durch den Minimalwert von fo x (n-1) definiert werden, der 5000 übersteigt.
  • Dann bestimmt die Parameter-Schätzeinheit 8 aus dem Abtast- Punktzug Yi (= 0, 1, ... n-1), der in der Abtasteinheit gewonnen wurde, Koeffizienten Ai (i = 0, 1, ..., n-1) des Kosinus-Polynoms von N Ausdrücken:
  • Jedoch ist der Wert Y&sub0;, der der Wert des logarithmischen Leistungsspektrums bei Nullfrequenz ist, ungefähr Y&sub1;, weil der Wert bei Nullfrequenz im FFT nicht genau ist. Der Wert Ai kann durch Minimierung des mittleren quadratischen Fehlers zwischen den Abtastpunkten YI und Y(λ) gewonnen werden:
  • Genauer gesagt, werden die Werte durch Lösung N-simultaner Gleichungen erster Ordnung gewonnen, die durch partielles Differenzieren von J nach A&sub0;, A&sub1;, ..., An-1 gewonnen werden und durch Gleich-Null-Setzen der Ergebnisse.
  • Dann bestimmt die Spektralhüllen-Erzeugungseinheit 9 die logarithmischen Spektralhüllendaten aus A&sub0;, A&sub1;, ..., An-1, die in der Parameter-Schätzeinheit gewonnen wurden, gemäß einer Gleichung
  • Y(λ) = A&sub0; + A&sub1; cos λ + A&sub2; cos 2λ + ... + AN-1 cos (N-1) λ (3)
  • Das Vorstehende erläuterte die Erzeugung der Stimmhaft/Stimmlos-Information, der Tonlageninformation und der logarithmischen Spektralhüllendaten in der Analysiereinheit 1.
  • Dann setzt die Parameter-Konvertierungseinheit 2 die Spektralhüllendaten in Mel-Kepstrum-Koeffizienten um.
  • Zuerst bildet die Mel-Annäherungsskala-Formiereinheit 10 eine nicht-lineare Frequenzskala, die der Mel-Frequenz-Skala angenähert ist. Die Mel-Skala ist ein psychophysisches Maß, das die Frequenzauflösungsleistung der Hörfähigkeit repräsentiert, und wird angenähert durch die Phasenkennlinie von Allpassfiltern erster Ordnung. Für die Übertragungskennlinie des Filters gilt:
  • H(z) = (z&supmin;¹ - α)/(1 - αz&supmin;¹) (4)
  • Die Frequenzkennlinien werden angegeben durch
  • H(ejX) = exp [jβ(X)] (5)
  • β(X) = X + 2 tan&supmin;¹ (αsin α/1-αcos X) (6)
  • wobei X = ωΔt; Δt ist die Einheitsverzögerungszeit des Digitalfilters und ω ist die Kreisfrequenz. Es ist bereits bekannt, daß eine nicht-lineare Frequenzskala X = β(X) gut mit der Mel- Skala übereinstimmt, wenn der Wert a in der Übertragungsfunktion H(z) zufällig im Bereich zwischen 0,35 (bei einer Abtastfrequenz von 10 kHz) und 0,46 (bei einer Abtastfrequenz von 12 kHz) liegt.
  • Dann konvertiert die Frequenzachsen-Konvertiereinheit 12 die Frequenzachse der logarithmischen Spektralhülle, die von der Analysiereinheit 1 bestimmt wurde, in die Mel-Skala, die in der Mel-Annäherungsskala-Formiereinheit 10 gebildet wurde, um dadurch eine Mel-logarithmische Spektralhülle zu gewinnen. Das gewöhnliche logarithmische Spektrum G&sub1;(X) auf der linearen Skala wird in das Mel-logarithmische Spektrum Gm(X ) gemäß der folgenden Gleichungen konvertiert:
  • Gm (X ) = G&sub1; [β&supmin;¹(X )] (8)
  • β&supmin;¹ (X ) = X + 2tan&supmin;¹ [α sin X /(1-α cos X )] (9)
  • Die Kepstrum-Konvertiereinheit 12 bestimmt die Mel-Kepstrum- Koeffizienten durch eine inverse FFT-Operation der in der Frequenzachsen-Konvertiereinheit gewonnenen Daten der Mellogarithmischen Spektralhülle. Die Ordnungszahl kann theoretisch auf 1/2 der Anzahl der Punkte in dem FFT-Prozess angehoben werden, aber in der Praxis auf einem Bereich von 15 bis 20.
  • Die Synthetisiereinheit 3 erzeugt die synthetisierten Sprachkurven aus der Stimmhaft/Stimmlos-Information, der Tonlageninformation und den Mel-Kepstrum-Koeffizienten. Zuerst werden Klangquellendaten in dem Rausch-Klangquellengenerator 13 vorbereitet oder in dem Impuls-Klangquellengenerator 14 gemäß der Stimmhaft/Stimmlos-Information. Wenn der eingegebene Rahmen ein stimmhafter Sprachabschnitt ist, erzeugt der Impuls- Klangquellengenerator 14 Impulskurven eines Intervalls der zuvor erwähnten Tonlage als Klangquelle. Die Amplitude der Impulse wird gesteuert von dem Term erster Ordnung der Mel-Kepstrum- Koeffizienten, die die Leistung (Lautheit) der Sprache repräsentieren. Wenn der eintreffende Rahmen ein stimmhafter Sprachabschnitt ist, erzeugt der Geräusch-Klangquellengenerator 13 M-Serien weißen Rauschens als Klangquelle.
  • Die Klangquellen-Umschalteinheit 14 liefert gemäß der Stimmhaft/Stimmlos-Information der Synthetisier-Filtereinheit entweder den Impulszug, der von dem Impuls-Klangquellengenerator 14 während eines stimmhaften Sprachabschnitts erzeugt wurde, oder das M-Serien weiße Rauschen, das in dem Rausch-Klangquellengenerator 13 während eines stimmlosen Sprachabschnitts erzeugt worden ist.
  • Die Synthetisier-Filtereinheit 16 synthetisiert die Sprachkurve aus der Klangquelle, die von der Klangquellen- Umschalteinheit 15 geliefert wurde, und die Mel-Kepstrum- Koeffizienten, die von der Parameter-Konvertierungseinheit 2 geliefert wurden, wobei das Mel-logarithmische Spektralannäherungsfilter (MLSA) verwendet wird.
  • Zweites Ausfuhrungsbeispiel, bei dem eine Gleichung bei der Bestimmung der MEL-Kepstrum-Koeffizienten verwendet wird.
  • Die vorliegende Erfindung ist nicht auf das vorherige Ausführungsbeispiel beschränkt, sondern ist auch Gegenstand verschiedener Abwandlungen. Als ein Beispiel kann die Parameter- Konvertierungseinheit 2 - anstelle des in Fig. 3 dargestellten Aufbaus - in der in Fig. 5 dargestellten Weise aufgebaut sein.
  • In Fig. 5 vorgesehen ist eine Kepstrum-Konvertierungseinheit 17 zur Bestimmung der Kepstrum-Koeffizienten aus den Spektralhüllendaten und eine Mel-Kepstrum-Konvertiereinheit zur Konvertierung der Kepstrum-Koeffizienten in die Mel-Kepstrum- Koeffizienten.Die Funktion des o.g. Aufbaus ist die folgende.
  • Die Kepstrum-Konvertiereinheit 17 bestimmt die Kepstrum- Koeffizienten durch Anwenden eines inversen FFT-Prozesses auf die die von der Analysiereinheit 1 vorbereiteten logarithmischen Spektrum-Hüllendaten.
  • Dann konvertiert die Mel-Kepstrum-Konvertiereinheit 18 die Kepstrum-Koeffizienten C(m) gemäß folgender Regressionsgleichugen in die Mel-Kepstrum-Koeffizienten Cα(m):
  • C(-n) + αu0(n-1), k=0
  • uk(n) = (1 - α²) u0(n-1) + αu&sub1;(n-1), k=1 uk-1(n-1) + α[uk(n-1) - uk-1(n)], k> 1 (10)
  • n =..., -2, -1, 0
  • Cα(-n) = (0), m = 0, 1, 2, ... (11)
  • Drittes Ausführungsbeispiel: Gerat zur Sprachsynthese nach Regeln.
  • Obwohl die vorgehende Beschreibung sich auf ein Gerät zur Sprachanalyse und -synthese beschränkte, kann das Verfahren der vorliegenden Erfindung auch auf ein Gerät zur Sprachanalyse nach Regeln angewandt werden, wie es durch ein Ausführungsbeispiel in Fig. 6 dargestellt ist.
  • In Fig. 6 sind dargestellt: eine Einheit 19 zur von Erzeugung Einheits-Sprachdaten (beispielsweise einsilbige Daten) zur Sprachsynthese nach Regeln; eine Analyseeinheit 20, ähnlich der Analyseeinheit 1 in Fig. 1, um die logarithmischen Spektralhüllendaten aus der Sprachkurve zu gewinnen; eine der in Fig. 1 dargestellten Einheit 2 ähnliche Parameter-Konvertiereinheit 21 zur Bildung der Mel-Kepstrum-Koeffizienten aus den logarithmischen Spektrum-Hüllendaten; ein Speicher 22 zur Speicherung des Mel-Kepstrum -Koeffizienten gemäß einem jeden Einheits-Sprachdatum; eine nach Regeln arbeitende Syntheseeinheit 23 zur Erzeugung eines synthetischen Sprache aus den Daten einer Zeile zufälliger Zeichen; eine Zeichenzeilen-Analysiereinheit 24 zur Analyse der eingegebenen Zeile von Zeichen; eine Regel- Erzeugungseinheit 25 zur Erzeugung der Parameter- Verknüpfungsrechenregel, der Tonlageninformation und der Stimmhaft/Stimmlos-Information auf der Grundlage des Ergebnisses der Analyse aus der Zeichenzeilen-Analysiereinheit 24; eine Parameter-Verknüpfungseinheit 26 zur Verknüpfung der Mel-Kepstrum- Koeffizienten, die in dem Speicher 22 gemäß der Parameterverknüpfungs-Rechenregel aus der Regel-Erzeugungseinheit 25 verknüpft werden, um dadurch eine zeitsequentielle Zeile von MEl-Kepstrum-Koeffizienten zu bilden; und eine der in Fig. 1 dargestellten Einheit 3 ähnliche Synthetisiereinheit 27 zur Erzeugung einer synthetisierten Sprache aus der zeitsequentiellen Zeile von Mel-Kepstrum-Koeffizienten, aus Tonlageninformationen und aus Stimmhaft/Stimmlos-Informationen.
  • Die Arbeitsweise des vorliegenden Ausführungsbeispiels wird nachstehend anhand Fig. 6 beschrieben.
  • Zuerst bereitet die Sprachdaten-Erzeugungseinheit 19 notwendige Daten zur Sprachsynthese nach Regeln vor. Genauer gesagt, wird die Sprache, die die Einheit der Synthese nach Regeln (z.B. Sprache einer Silbe) darstellt analysiert (Analysiereinheit 20), und ein entsprechender Mel-Kepstrum-Koeffizient wird bestimmt (Parameter-Konvertierungseinheit 21) und in der Speichereinheit 22 gespeichert.
  • Dann erzeugt die Regelsyntheseeinheit 23 synthetisierte SPrache aus den Daten einer zufälligen Zeile von Zeichen. Die Daten der eintrffenden Zeichenzeile werden in der Zeichenzeilen- Analysiereinheit 24 analysiert und in Informationen einzelner Silben aufgespaltet. Die Regel-Erzeugungseinheit 25 bereitet auf Grundlage der Information, der Parameter-Verknüpfungsregeln, der Tonlageninformation und der Stimmhaft/Stimmlos-Information die Parameter-Verknüpfungsregeln vor. Die Parameter-Verknüpfungseinheit 26 verbindet notwendige Daten (Mel-Kepstrum-Koeffizienten), die im Speicher 22 gespeichert sind, gemäß den Parameter- Verknüpfungsregeln, um dadurch eine zeitsequentielle Zeile von Mel- Kepstrum-Koeffizienten zu bilden. Dann erzeugt die Synthetisiereinheit 27 Regel-synthetisierte Sprache aus der Tonlageninformation, der Stimmhaft/Stimmlos-Information und der zeitsequentiellen Daten der Mel-Kepstrum-Koeffizienten.
  • Die vorstehenden zwei Ausführungsbeispiele verwenden die Mel- Kepstrum-Koeffizienten als Parameter, jedoch werden die gewonnenen Parameter den Kepstrum-Koeffizienten äquivalent, indem eine Bedingung α = o in den Gleichungen (4), (6), (9) und (10) erfüllt wird. Dies ist leicht zu erreichen durch Löschung der Mel- Annäherungsskalen-Bildungseinheit 10 und der Frequenzsachsen- Konvertierungseinheit 11 im Falle der Fig. 3 oder durch Löschen der Mel-Kepstrum-Konvertierungseinheit 18 im Falle von Fig. 5, und durch Ersetzen der Synthetisier-Filtereinheit 16 in Fig. 4 durch ein logarithmisches Absolutbetrags-Annäherungsfilter (LMA).
  • Wie vorstehend erläutert, schafft die vorliegende Erfindung den Vorteil, eine Sprache gehobener Qualität zu synthetisieren, indem das logarithmische Leistungspektrum, das von der Sprachkurvenform mit der Grundfrequenz bestimmt ist, abgetastet wird, wobei ein Kosinus-Polynom-Modell auf die so gewonnenen Abtastpunkte angewandt wird, um die Spektralhülle zu bestimmen, die Mel-Kepstrum-Koeffizienten aus der Spektralhülle zu errechnen und um Sprachsynthese mit dem LMSA-Filter zu bewirken, wobei die Mel- Kepstrum-Koeffizienten verwendet werden.

Claims (5)

1. Verfahren zur Sprachanalyse und -synthese mit folgenden Verfahrensschritten: Abtastung eines Kurzzeit-Leistungsspektrums einer eingegebenenen Sprache mit dem Vielfachen einer Grundfrequenz, Anwenden eines Kosinus-Polynom-Modells auf in dieser Weise gewonnene Abtastpunkte, um die gewöhnliche Spektralhülle auf der linearen Frequenzskala zu bestimmen, Errechnung der Koeffizienten der Mel-Abbildung des logarithmischen Leistungsspektrums aus der Spektralhülle und Bewirken der Sprachsynthese unter Verwendung der Koeffizienten des logarithmischen Leistungsspektrums als die Filterkoeffizienten eines Mel-logarithmischen Spektrum- Näherungsfilters.
2. Verfahren nach Anspruch 1, bei dem die Koeffizienten der Mel-Abbildung des logarithmischen Leistungsspektrums durch Konvertierung der Frequenzachsen der Spektralhülle in eine Mel- angenäherte Skala errechnet werden und durch Anwenden einer inversen schnellen Fourier-Transformations- (FFT)-Operation auf die Mel-logarithmische Spektralhülle.
3. Verfahren nach Anspruch 1, bei dem die Koeffizienten der Mel-Abbildung des logarithmischen Leistungsspektrums durch Anwenden eines inversen schnellen Fourier-Transformations (FFT)- Prozesses auf die Mel-logarithmische Spektralhülle errechnet werden und durch Anwenden von Regressionsgleichungen auf die Koeffizienten der Abbildung des logarithmischen Leistungsspektrums.
4. Verfahren nach Anspruch 3, bei dem die Regressionsgleichungen die folgenden Gleichungen enthalten:
n =..., -2, -1, 0
Cα(-n) = um(0, m = 0, 1, 2, ...
5. Verfahren zur Sprachanalyse und -synthese und Gerät zur Durchführung des Verfahrens, bei dem die Spektralhülle der Sprache durch Abtastung eines Leistungsspektrums und durch Legen einer Kurve durch die Abtastpunkte bestimmt wird, wobei die Koeffizienten der Abbildung des logarithmischen Leistungsspektrums aus der Kurve errechnet werden, die die gewöhnliche Spektralhülle auf der linearen Frequenzskala repräsentiert, und wobei die Sprache unter Verwendung der errechneten Koeffizienten der Abbildung des logarithmischen Leistungsspektrums synthetisiert wird.
DE69009545T 1989-03-13 1990-03-09 Verfahren zur Sprachanalyse und -synthese. Expired - Fee Related DE69009545T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1060371A JP2763322B2 (ja) 1989-03-13 1989-03-13 音声処理方法

Publications (2)

Publication Number Publication Date
DE69009545D1 DE69009545D1 (de) 1994-07-14
DE69009545T2 true DE69009545T2 (de) 1994-11-03

Family

ID=13140209

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69009545T Expired - Fee Related DE69009545T2 (de) 1989-03-13 1990-03-09 Verfahren zur Sprachanalyse und -synthese.

Country Status (4)

Country Link
US (1) US5485543A (de)
EP (1) EP0388104B1 (de)
JP (1) JP2763322B2 (de)
DE (1) DE69009545T2 (de)

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03136100A (ja) * 1989-10-20 1991-06-10 Canon Inc 音声処理方法及び装置
SE469576B (sv) * 1992-03-17 1993-07-26 Televerket Foerfarande och anordning foer talsyntes
IT1263756B (it) * 1993-01-15 1996-08-29 Alcatel Italia Metodo automatico per implementazione di curve intonative su messaggi vocali codificati con tecniche che permettono l'assegnazione del pitch
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5504834A (en) * 1993-05-28 1996-04-02 Motrola, Inc. Pitch epoch synchronous linear predictive coding vocoder and method
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
JP3548230B2 (ja) * 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
US6050950A (en) 1996-12-18 2000-04-18 Aurora Holdings, Llc Passive/non-invasive systemic and pulmonary blood pressure measurement
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
US6151572A (en) * 1998-04-27 2000-11-21 Motorola, Inc. Automatic and attendant speech to text conversion in a selective call radio system and method
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2004356894A (ja) * 2003-05-28 2004-12-16 Mitsubishi Electric Corp 音質調整装置
JP2006208600A (ja) * 2005-01-26 2006-08-10 Brother Ind Ltd 音声合成装置及び音声合成方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8024193B2 (en) * 2006-10-10 2011-09-20 Apple Inc. Methods and apparatus related to pruning for concatenative text-to-speech synthesis
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7877252B2 (en) * 2007-05-18 2011-01-25 Stmicroelectronics S.R.L. Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
CN104282300A (zh) * 2013-07-05 2015-01-14 ***通信集团公司 一种非周期成分音节模型建立、及语音合成的方法和设备
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN103811021B (zh) * 2014-02-18 2016-12-07 天地融科技股份有限公司 一种解析波形的方法和装置
CN103811022B (zh) * 2014-02-18 2017-04-19 天地融科技股份有限公司 一种解析波形的方法和装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN113421584B (zh) * 2021-07-05 2023-06-23 平安科技(深圳)有限公司 音频降噪方法、装置、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
JPS61278000A (ja) * 1985-06-04 1986-12-08 三菱電機株式会社 有声音無声音判別装置

Also Published As

Publication number Publication date
US5485543A (en) 1996-01-16
EP0388104A2 (de) 1990-09-19
EP0388104A3 (de) 1991-07-03
EP0388104B1 (de) 1994-06-08
DE69009545D1 (de) 1994-07-14
JPH02239293A (ja) 1990-09-21
JP2763322B2 (ja) 1998-06-11

Similar Documents

Publication Publication Date Title
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
DE2524497C3 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69700084T2 (de) Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE69032168T2 (de) Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden
DE69910239T2 (de) Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale
DE69613360T2 (de) Linear-prädiktiver analyse-durch-synthese sprachkodierer
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69700087T2 (de) Gerät und Verfahren zur Signalanalyse
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE69314389T2 (de) Zweimoden langzeitprädiktion in sprechkodierung
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
DE2825082A1 (de) Verfahren zur spracherkennung
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE2622423B2 (de) Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
DE3019823C2 (de)
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee