DE3687815T2 - Verfahren und vorrichtung zur sprachanalyse. - Google Patents

Verfahren und vorrichtung zur sprachanalyse.

Info

Publication number
DE3687815T2
DE3687815T2 DE8686114258T DE3687815T DE3687815T2 DE 3687815 T2 DE3687815 T2 DE 3687815T2 DE 8686114258 T DE8686114258 T DE 8686114258T DE 3687815 T DE3687815 T DE 3687815T DE 3687815 T2 DE3687815 T2 DE 3687815T2
Authority
DE
Germany
Prior art keywords
spectrum envelope
data
spectrum
frequency
envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE8686114258T
Other languages
English (en)
Other versions
DE3687815D1 (de
Inventor
Hitoshi Masuda
Masao Tanabe
Yusuke Tsukahara
Mikio Yamaguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP60230367A external-priority patent/JPS6289999A/ja
Priority claimed from JP60231721A external-priority patent/JP2569472B2/ja
Priority claimed from JP61227286A external-priority patent/JPS62174798A/ja
Application filed by Toppan Printing Co Ltd filed Critical Toppan Printing Co Ltd
Publication of DE3687815D1 publication Critical patent/DE3687815D1/de
Application granted granted Critical
Publication of DE3687815T2 publication Critical patent/DE3687815T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Analyse eines Eingangssprachsignals.
  • In einer herkömmlichen Spracherkennungsvorrichtung, in einer die Aussprache trainierenden Vorrichtung für Hörgeschädigte, in einem Kommunikationssystem, das Sprachanalyse und Sprachsynthese benutzt, oder in einer Sprachsynthesevorrichtung werden Eingangssprachsignale analysiert und ihre Merkmale herausgelesen, um so die gewünschte Aufbereitung durchführen zu können. Das Eingangssprachsignal wird auf der Grundlage seines Frequenzspektrums analysiert. Menschliche Hörempfindung für zeitliche Änderungen der Wellenform im Sprachsignal ist schlechter ausgeprägt als für dessen Spektrum. Signale mit einem identischen Spektrum werden als identische Phoneme erkannt.
  • Ein stimmhafter Lautabschnitt eines Sprachsignals hat eine Struktur eines zyklischen Signals, das durch Schwingungen der Stimmbänder hervorgerufen wird. Das Frequenzspektrum des stimmhaften Lautes hat eine harmonische Spektralstruktur. Jedoch ist ein stimmloser Lautabschnitt (Konsonant) des Sprachsignals nicht von Schwingungen des Stimmbandes begleitet. Der stimmlose Laut hat ein Rauschen, das durch einen Luftstrom durch die Sprachtrakt erzeugt wird. Folglich hat das Frequenzspektrum des stimmlosen Lautes keine zyklische Struktur wie das harmonische Spektrum. In Übereinstimmung mit diesen Frequenzspektren gibt es zwei herkömmliche Sprachanalyseschemata. Ein Schema geht von einer zyklischen Impulsquelle als Klangquelle des Eingangssprachsignals aus, und das andere geht von einer Rauschquelle aus. Das erstere ist als Cepstrum-Analyse-verwendende Sprachanalyse bekannt, und das letztere Sprachanalyseschema ist bekannt als Sprachanalyse, die ein Auto-Rekurrenz-Modell (AR-Modell) verwendet. Gemäß dieser Sprachanalyseschemata werden aus dem Spektrum der Eingangssignale Mikrostrukturen entfernt, um so zu einer sogenannten Spektrumhülle zu gelangen.
  • In der Analyse des Eingangssprachsignals nach dem AR-Modell oder dem Cepstrum-Analyse- Schema wird in beiden Schemata von einem stationären stochastischen Prozeß ausgegangen. Wenn sich das Phonem in Abhängigkeit von der Zeit ändert, kann ein herkömmliches Analyseschema nicht angewendet werden. Zur Lösung dieses Problems wird das Signal in einem kurzem Zeitabschnitt herausgelesen, in dem sich das System nicht nennenswert ändert. Das betrachtete Signal wird mit einer Fensterfunktion multipliziert, wie ein Hamming-Fenster oder ein Hanning-Fenster, um so den Einfluß eines Endpunktes zu eliminieren, wobei ein quasi-stationäres Signal als Funktion der Zeit gewonnen wird. Das quasi-stationäre Signal wird analysiert, um zur Spektrumhülle zu kommen. Diese Hülle ist definiert als Spektrumhülle zur Auslese-Zeiteinteilung des Signals.
  • Um zum Spektrum des Eingangssprachsignals nach dem konventionellen Sprachanalyseschema zu gelangen, wird ein durchschnittliches Spektrum eines Signalabschnittes, der für eine vorgegebene Zeitlänge (soll nachstehend als Rahmenlänge bezeichnet Werden) herausgelesen wird, gebildet. Aus diesem Grunde muß die Rahmenlänge gekürzt werden, wenn eine abrupte Änderung des Spektrums in befriedigender Weise herausgelesen werden soll. Insbesondere an der Anstiegsflanke eines Konsonanten ändert sich dessen Spektrum spontan innerhalb mehrerer Millisekunden, und die Größenordnung der Rahmenlänge muß bei mehreren Millisekunden liegen. Mit dieser Zusammensetzung ist die Rahmenlänge ungefähr der Tonhöhenperiode von Schwingungen des Stimmbandes gleich. Die Genauigkeit der Spektrumsauszüge hängt weitgehend von der Zeiteinteilung und dem Grad der innerhalb einer Rahmenlänge enthaltenen Stimmbandimpulse ab. Folglich kann das Spektrum nicht sicher herausgelesen werden.
  • Es wird angenommen, daß das zuvor beschriebene Problem verursacht wird, weil das dynamische Spektrum als Funktion der Zeit von einem Modell analysiert wird, das einen stationären stochastischen Prozeß voraussetzt.
  • Bei konventionellem Spektrumsauszug muß das Zeitintervall (soll als Rahmenperiode bezeichnet werden) verkürzt werden, nachdem die Rahmenposition zum Herauslesen des Signals verschoben ist, um so dem schnellen Wechsel des Spektrums folgen zu können. Wenn die Rahmenperiode jedoch beispielsweise auf die Hälfte verkürzt wird, verdoppelt sich die Anzahl der zu analysierenden Rahmen. Auf diese Weise läßt die Verkürzung der Rahmenperiode die Anzahl der zu verarbeitenden Daten erheblich ansteigen. Beispielsweise beträgt die Anzahl der Daten, die durch A/D-Wandlung eines eine Sekunde andauernden Sprachsignals mit 50 usec-Raster aufkommen, 20.000. Wenn jedoch die obige Datenlänge mit einer 10 msec-Rahmenlänge und einer 2 msec Rahmenperiode analysiert werden, beträgt die Anzahl zu analysierender Rahmen:
  • 1 sec : 0,002 sec = 500.
  • Folglich ist die Anzahl von tauglichen Daten, die zu analysieren sind:
  • (10 msec : 0,05 msec) · 500 = 100.000,
  • und die Datenzahl ist fünfmal größer.
  • Wie zuvor beschrieben, können im herkömmlichen Sprachanalyseschema, das auf einem stationärem stochastischem Prozeß basiert, abrupte Wechsel im Spektrum an einer dynamischen Stelle, wie der Anstiegsflanke vom Konsonanten, nicht stetig mit hoher Genauigkeit analysiert werden. Wenn die Rahmenperiode gekürzt wird, nimmt die Anzahl tauglicher Daten, die zu verarbeiten sind, bedeutsam zu.
  • Ein anderes herkömmliches Verfahren zur wirksamen Analyse eines Sprachsignals ist die Frequenzanalyse mit einer Filterbank. Gemäß diesem Analyseverfahren wird ein Eingangssprachsignal an eine Vielzahl von Bandpaßfiltern mit unterschiedlicher Mittenfrequenz angelegt, und Ausgangsignale der Filter werden zur Bildung eines Sprachleistungsspektrums herangezogen. Dieses Verfahren hat die Vorteile einer einfachen Hardware-Anordnung sowie einer Echt-Zeit-Verarbeitung.
  • Die meisten herkömmlichen Sprachanalyseverfahren bestimmen Spektrum-Hüllen der Eingangssprachsignale. Ein Verfahren zur letztlichen Analyse des Sprachsignals aus der bestimmten Spektrum-Hülle ist bekannt als Formantanalyse zum Heranziehen von Formantfrequenz und Weite von einer lokalen Spitze zur Analyse des Eingangssprachsignals. Dieses Analyseverfahren basiert auf den Tatsachen, daß jeder Vokal eine spezifische Formantfrequenz und Weite aufweist, und daß jeder Konsonant gekennzeichnet ist durch den Wechsel der Formantfrequenz beim Übergang vom Konsonanten zum Vokal. Zum Beispiel können fünf japanische Vokale ("a", "i", "u", "e", "o") durch zwei Formantfrequenzen F1 und F2 definiert werden, wobei F1 die niedrigste Formantfrequenz und F2 die nächst höhere aufweist. Bei im wesentlichen gegebener Gleichheit werden die Frequenzen F1 und F2 für Stimmen von Personen gleichen Geschlechts und etwa gleichen Alters hervorgebracht. Daher können die Vokale durch Nachweis der Formatfrequenzen F1 und F2 zugeordnet werden.
  • Es ist auch ein anderes Verfahren bekannt, lokale Spitzen aus der Spektrumhülle herauszulesen und diese Spitzen auf der Grundlage ihrer Frequenzen und ihrer zeitlichen Änderungen zu analysieren. Dieses Verfahren basiert auf der Annahme, daß phonemische Merkmale in den Frequenzen lokaler Spitzen des Vokalabschnittes oder in den zeitlichen Änderungen in lokalen Spitzen des Konsonantabschnittes auftreten.
  • In einem anderen herkömmlichen Verfahren wird auch vorgeschlagen, zur Kennzeichnung einer Spektrum-Hüllkurve diese selbst als ein Merkmalsparameter des Sprachsignals zu betrachten und die Merkmalsparameter in der sich anschließenden Identifizierung, Klassifizierung oder Anzeige zu verwenden.
  • In der Analyse eines Sprachsignals ist es wichtig, die Spektrumhülle herauszulesen. Indem die Spektrumhülle selbst ausgeschlossen wird, können die aus der Hülle abgeleitete Formantfrequenz und Weite, und die Frequenz sowie der Übergang der lokalen Spitze als Merkmalsparameter verwendet werden.
  • Wenn eine Person einen Laut äußert, ist anzunehmen, daß dessen Phoneme durch Resonnanz/Antiresonnanz des Sprachtrakte definiert sind. Beispielsweise tritt eine Resonanzfrequenz auf der Spektrumhülle als ein Formant auf. Daher werden sich bei verschiedenen Personen, die einen identischen Sprachtrakte haben, im wesentlichen identische Spektren bei einem identischen Phonem zeigen.
  • Wenn jedoch ganz allgemein, beispielsweise Mann und Frau, Kind und Erwachsener, deutlich verschieden lange Sprachtrakte besitzen, unterscheiden sich auch Resonanz- und Antiresonanzfrequenzen voneinander, und das sich jeweils ergebenden Spektrum ist entsprechend unterschiedlich. In diesem Falle werden lokale Spitzen und Formantfrequenzen bei einem identischen Phonem voneinander verschoben. Diese Tatsache ist störend für eine Analyse, die darauf abzielt, bei identischen Phonemen identische Ergebnisse zu bekommen, ungeachtet der Sprecher, so in den Fällen der Spracherziehung und der sichtbaren Anzeige für hörgeschädigte Personen.
  • Zur Lösung der obigen Probleme sind zwei herkömmliche Verfahren bekannt: das eine ist ein Verfahren, eine große Anzahl standardisierter Muster vorzubereiten, und das andere ist ein Verfahren zur Bestimmung eines Formantfrequenzverhältnisses.
  • Im ersteren Verfahren werden eine große Anzahl verschiedener Spektrumhüllen von Männern und Frauen, Erwachsenen und Kindern als standardisierte Muster registriert. Unbekannte Eingangsmuster werden auf der Grundlage von Ähnlichkeiten zwischen diesen unbekannten Mustern und den standardisierten Mustern klassifiziert. Deswegen können viele unbestimmte Eingangssprach- Signal erkannt werden. Um nach diesem Verfahren Ähnlichkeiten zwischen den standardisierten Mustern und beliebigen Eingangs-Sprachmustern erkennen zu können, muß eine große Anzahl standardisierter Muster vorbereitet werden. Zusätzlich wird eine lange Zeitdauer benötigt, um die Eingangsmuster mit den Standardmustern zu vergleichen. Weiterhin stellt dieses Verfahren nicht die Ergebnisse, die durch die Sprachtraktlänge normiert sind, heraus, und daher kann es nicht verwendet werden zur Anzeige phonemischer Merkmale, die nicht von der Sprachtraktlänge abhängen.
  • Das letztere Verfahren, das heißt, das Verfahren, das Formantfrequenzverhältnis zu bestimmen, ist als ein Verfahren bekannt, phonemische Merkmale herauszulesen, die nicht auf die Sprachtraktlänge bezogen sind, und ist beschrieben in "Normalsiation of Vowels by Vocal- Tract Length and its application to Vowel Identification" from Hisashi Wakita (in IEEE Transaction on Acoutics, Speech an Signal Processing, April 1977, Pages 183 to 192). Genauer gesagt werden unter den lokalen Spitzen in der Spektrumhülle erste, zweite und dritte Formantfrequenzen F1, F2 bzw. F3, von denen angenommen wird, daß sie relativ stabil sind, aus den Vokalen herausgelesen, und Verhältnisse F1/F3 und F2/F3 werden errechnet, um die Merkmalsparameterwerte zu bestimmen. Wenn die Sprachtraktlänge mit a multipliziert wird, werden die Formantfrequenzen 1/a -fach, das heißt F1/a, F2/a und F3/a. Die Verhältnisse der Formantfrequenzen bleiben jedoch dieselben.
  • Das zuvor genannte Verfahren ist effektiv, wenn der erste, zweite und dritte Formant des Vokals sauber herausgelesen werden kann. Wenn diese Formanten jedoch nicht sauber herausgelesen werden können, wird die analytische Zuverlässigkeit bedeutsam beeinträchtigt. Weiterhin ist dieses Verfahren nicht anwendbar auf Konsonanten. Das heißt, der Formant als das Resonnanzcharakteristikum des Vokaltraktes kann nicht für Konsonanten definiert werden, und die Lokalspitzen, die dem ersten, zweiten und dritten Formanten entsprechen, können nicht auf der Spektrumkurve beobachtet werden. Folglich können die Frequenzen F1, F2 und F3 nicht herausgelesen werden oder zur Errechnung ihrer Verhältnisse verwendet werden. An einer ansteigenden oder abfallenden Flanke, sowohl eines Vokals als auch eines Konsonanten, sind die Formanten nicht hinreichend stetig, und so wird oft eine Formantfrequenz herausgelesen. In diesem Fall hat sich das Verhältnis der Formantfrequenzen unstetig geändert und liefert einen total falschen Wert. Daher ist das obige Verfahren nur auf stetige Abschnitte oder Vokale des Sprachsignals anwendbar. Es muß ein anderes Verfahren zur Analyse der ansteigenden und abfallenden Flanken von Vokalen angewandt werden. Da verschiedene Auszugsparameter für die stabilen Abschnitte der Vokale und anderer in den Konsonanten enthaltenen Abschnitte verwendet werden müssen, ist es unmöglich, kontinuierliche Änderungen von einem Konsonanten hin zu einem Vokal darzustellen. Kurz gesagt, kann das Verfahren, das Verhältnis der Formantfrequenz zu berechnen, nur auf stationäre Vokalabschnitte angewandt werden.
  • Die US 4 344 031 zeigt ein Verfahren und eine Vorrichtung auf, Sprachsignale nachzuweisen, wobei die Energie des Sprachsignals getrennt in aufeinanderfolgenden Perioden pro Spektralbereich integriert werden, und die Integrale werden getrennt über das vollständige Sprachsignal aufsummiert und stellen die Sprachspektrensummen der Merkmalswerte dar.
  • Es gibt keine herkömmlichen Verfahren, in denen vorgeschlagen wäre, dem Phonem innenwohnende Merkmalsparameter aus vielen und unbestimmten Spektralhüllen herauszulesen, die auf unterschiedliche Längen des Sprachtraktes zurückzuführen sind.
  • Die vorliegende Erfindung entstand angesichts der oben dargelegten Situation. Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und eine Vorrichtung zur Berechnung analytischer Ergebnisse, die den Phonemen eigen sind, ohne daß diese von unterschiedlichen Längen des Sprachtraktes der Sprecher beeinflußt werden und zur Errechnung von Änderungen in der Spektrumhülle beim Übergang eines Konsonanten in einen Vokal zu schaffen.
  • Hinsichtlich der Vorrichtung wird die Aufgabe mit den Merkmalen des Patentanspruchs 1 gelöst und hinsichtlich des Verfahrens mit den Merkmalen des Patentanspruchs 12.
  • Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen angegeben.
  • Nach der vorliegenden Erfindung wird die Analyse zuverlässig ausgeführt, sowohl bei einem Konsonanten, als auch bei einer ansteigenden Flanke eines Vokals, um so eine gleichmäßige Anzeige spektraler Änderungen zu ermöglichen.
  • Das Problem wechselnder Analyseergebnisse, das die unterschiedliche Länge des Sprachtrakte der Sprecher verursacht, kann gelöst werden. Auf diese Weise können immer beste Ergebnisse bei den Eigenarten der Phoneme erzielt werden. Gemäß der vorliegenden Erfindung wird in diesem Falle das Verfahren willkürlich auf einen beliebigen Spektrumhüllenabschnitt des Sprachsignals angewandt, ohne daß auf Vokale und Konsonanten, auf stimmhafte und stimmlose Laute, Rücksicht zu nehmen ist. Da die Analyseergebnisse nicht von der Ausgangsgenauigkeit und der Stabilität der Formantfrequenz abhängig sind, kann das Verfahren auf den gesamten Bereich der Eingangssprachsignale angewandt werden. Insbesondere können die Änderungen der Spektrumhülle beim Übergang von einem Konsonanten in einem Vokal bestimmt werden, ohne daß individuelle Sprachtraktlängen Einfluß haben, im Gegensatz zu den bekannten Verfahren.
  • Entsprechend der vorliegenden Erfindung wird eine normierte logarithmischen Spektrumhülle als eine zu integrierende Funktion an Stelle der Spektrumhülle und der logarithmischen Spektrumhülle verwendet, so daß auf diese Weise die Einflüsse aus Größen der Stimmen bei identischen Phonemen eleminiert werden.
  • Wenn eine Umsetzung durch Integrieren der Hülle über die Mele (Mel ist Einheit für die Tonlage der Stimme) erfolgt, stimmt diese Umsetzung mit der menschlichen Hörempfindung überein und minimalisiert damit die Ausgabe niederfrequenter Anteile.
  • Gemäß dem Spektrumhüllen-Ausleser in der Vorrichtung zur Sprachanalyse nach der Erfindung kann ein Zeit-Frequenz-Muster eines Frequenzspektrums im Analyserahmen herausgelesen werden, wohingegen herkömmliche Sprachanalysen lediglich ein Durchschnittsspektrum der Eingangssprachsignale im Analyserahmen liefern. Daher können abrupte Änderungen im Spektrum zuverlässig ausgelesen werden, und zwar mit großer Genauigkeit.
  • Das auf diese Weise gewonnene Zeit-Frequenz- Muster des Frequenzspektrums hat eine bestimmte Bedeutung. Künstliche Parameter (Analysegrößen in dem AR-Modell, eine Grenzfrequenz in der Cepstrum-Analyse, usw.) sind im Zeit-Frequenz-Muster nicht enthalten, wodurch hohe Zuverlässigkeit erzielt wird.
  • Da das Zeit-Frequenz-Muster des Frequenzspektrums, das aus dem Rahmen gewonnen wurde, die die stimmlosen Laute und Konsonanten enthalten, überdies viele Geräuschkomponenten beinhaltet, kann es ohne Bearbeitungen nicht verwendet werden. Gemäß der vorliegenden Erfindung ist das durch inverse Fourier-Transformationen hervorgegangene Zeit-Frequenz-Muster des Frequenzspektrums zeitweise geglättet, um die Einflüsse von Geräuschen zu mindern, so daß ein hochqualitatives Zeit-Frequenz-Muster-Ausgangssignal als Funktion der Zeit erzielt wird.
  • Diese Erfindung kann aus der nachstehenden Beschreibung in Verbindung mit der beiliegenden Zeichnung besser verstanden werden. In der Zeichnung bedeuten:
  • Fig. 1 ein Blockschaltbild der Vorrichtung zur Sprachanalyse in einem Ausführungsbeispiel nach der vorliegenden Erfindung;
  • Fig. 2 A ein Blockschaltbild eines Spektrum-Hüllen-Auslesers in der Vorrichtung gemäß Fig. 1;
  • Fig. 2 B ein Blockschaltbild, das eine Abwandlung des Spektrum- Hüllen-Auslesers gemäß Fig. 2A darstellt;
  • Fig. 3 ein Graph, der den Sprachkarte in logarithmischen Spektrumhüllen darstellt, bedingt durch Sprachtrakt-Längen-Unterschiede;
  • Fig. 4 ein Graph, der unterschiedliche Formanten eines Mannes und einer Frau darstellt;
  • Fig. 5 ein Graph, der durch Ausdrucken von Daten aus Fig. 4
  • entstanden ist, und auf den Formantverhältnissen beruht;
  • Fig. 6A bis Fig. 6F Graphen zur Veranschaulichung des Prinzips gemäß der vorliegenden Erfindung;
  • Fig. 7 A und Fig. 7 B Graphen zur Veranschaulichung der U- Umwandlung;
  • Fig. 8 A und Fig. 8 B Graphen, die verschiedene männliche und weibliche Spektrumhüllen darstellen;
  • Fig. 9 A und Fig. 9 B Graphen, die durch Ausführen der U-Umwandlung der Spektrumhüllen gemäß den Fig. 8 A und 8 B entstanden sind;
  • Fig. 10 A ein Graph, der eine Spektrumhülle eines Wortes "ta" darstellt, gesprochen von einer Frau;
  • Fig. 10 B ein Graph, der durch Ausführen der U-Umwandlung der Spektrumhülle gemäß Fig. 10 A entstanden ist;
  • Fig. 11 A und Fig. 11 B sind Graphen, die aus männlichen und weiblichen Äußerungen des japanischen Phonems "a" gewonnen sind;
  • Fig. 12 A und Fig. 13 B sind Graphen, die durch Ausführen der U-Umformung männlicher und weiblicher Äußerungen des japanischem Phonems "e" in Mel-Einheiten gemäß dem anderen Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 13 A ein Graph, der eine Spektrumhülle eines weiblich ausgesprochenen "ta" darstellt;
  • Fig. 13 B ein Graph der die Ergebnisse der U-Umformung von männlich und weiblich gesprochenen japanischen Phonemen "a" in Mel-Einheiten darstellt;
  • Fig. 14 A und Fig. 14 B sind Graphen, die Ergebnisse der U-Umformung männlich und weiblich gesprochener Phoneme "a" in Mel-Einheiten darstellen;
  • Fig. 15 A bis Fig. 15 D sind schematische Ansichten, die ein Modell zur Erzeugung eines Sprachsignals darstellen;
  • Fig. 16 ist ein Graph, der die Ergebnisse der Fourier- Transformationen eines Impulszuges gemäß Fig. 15 A darstellt;
  • Fig. 17 ist ein Graph, der Fouriertransformierte Sprachkarte- Charakteristiken gemäß Fig. 15 C darstellt;
  • Fig. 18 A und Fig. 18 B sind Graphen, die diskrete Spektren zeigen;
  • Fig. 19 A bis Fig. 19 C sind Ansichten, die ein Zeit-Frequenz-Muster eines Frequenzspektrums darstellen, das aus dem Sprachsignal abgeleitet ist;
  • Fig. 20 ist ein Flußdiagramm zur Gewinnung der Spektrumhülle;
  • Fig. 21 ist ein Graph, der die Eingangssprachsignale darstellt;
  • Fig. 22 und Fig. 23 sind Graphen, die Real- und Imaginärteile des resulitierenden Spektrums I(w);
  • Fig. 24 A bis Fig. 24 D sind Graphen, die eine Datenumstellung entsprechend einem FFT-Algorithmus darstellen;
  • Fig. 25 ist ein Graph, der ein Zeit- Frequenz-Muster eines Frequenz-Spektrums darstellt, das durch dieses Ausführungsbeispiel gewonnen wird;
  • Fig. 26 und Fig. 27 sind Graphen, die Zeit- Frequenz-Muster eines Frequenz-Spektrums darstellen, das durch ein Ausführungsbeispiel gemäß Fig. 2 B und Fig. 2 A erzielt wird;
  • Fig. 28 ist ein Graph, der den Zusammenhang zwischen Mel- Maßstab und der Frequenz angibt;
  • Fig. 29 ist ein Blockschaltbild einer Sprachanalysevorrichtung gemäß einem anderen Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 30 und Fig. 31 sind Ausschnitts-Blockschaltbilder einer Anordnung aus Fig. 29;
  • Fig. 32 ist ein Blockschaltbild einer Filterbank aus Fig. 30.
  • Eine Vorrichtung zur Sprachanalyse gemäß einem Ausführungsbeispiel der vorliegenden Erfindung wird nun anhand der Zeichnungen beschrieben.
  • Fig. 1 ist ein Blockschaltbild, das eine Anordnung eines Ausführungsbeispiels darstellt. Vor Beschreibung des Ausführungsbeispiels anhand Fig. 1 wird die grundsätzliche Arbeitsweise des Ausführungsbeispiels anhand der Fig. 3 bis 7 B beschrieben.
  • Vergleichsergebnisse von Sprachsprektrumhüllen hinsichtlich unterschiedlicher Sprachtraktlängen sind in Fig. 3 dargestellt. Fig. 3 zeigt einen logarithmischen Ausdruck einer Spektrumhülle P (f) eines identischen Phonems von zwei unterschiedlichen Sprachtraktlängen l1 und 12. Bezüglich Fig. 3 ist in einem Frequenzbereich von mehreren Hundert Hz bis etwa 5 kHz die Spektrumhülle P1 (f) von langen Sprachtaktlängen l1 ein Vielfaches der Spektrumhülle P2 (f) (log P2 (f) in Fig. 3) entlang der Frequenzachse (f) bezogen auf einen festen Ursprung. Im Bereich von 0 Hz bis zu einigen hundert Hz ist der Unterschied zwischen Hüllen P1 (f) und P2 (f) jedoch typisch, und eine Ähnlichkeit untereinander ist gering. Dieser Frequenzbereich ist begründet in Unterschieden individueller Tonfärbungen und ist für die Sprachanalyse von untergeordneter Bedeutung. Die Sprachtraktlängen verhalten sich proportional zu den Resonanzfrequenzen. Wenn ein Verhältnis l1/l2 der Längen l1 und l2 zueinander r beträgt, erhält man eine Beziehung zwischen den Spektrumhüllen P1 (f) und P2 (f), indem die Beträge davon in den Frequenzbereich von mehreren hundert Hz bis 5 kHz normiert werden:
  • Es werden betragsnormierte logarithmische Spektralhüllen
  • an Stelle von den Spektrumhüllen P1 (f) und P2 (f) selbst verwendet, um die Beträge der Eingangssprachsignale zu normieren.
  • Wenn in diesem Falle der erste bis dritte Formant ausgelesen werden, druckt man ihre Frequenzen F1, F2, F3, F1', F2' und F3' aus, wie in Fig. 3 dargestellt. Da diese Frequenzen der folgenden Beziehung genügen:
  • F1'/F1 F2'/F2 F3'/F3 r, ... (2)
  • Bleiben die Verhältnisse der Formantfrequenzen F unverändert, wobei die Frequenzen in folgenden Verhältnissen (3) vorliegen:
  • F1/F F1'/F2'
  • F1/F3 F1'/F3' ... (3)
  • Der obige Sachverhalt wird bestätigt durch Ergebnisse (Fig. 4 und Fig. 5) ausgeführter Messungen. Fig. 4 stellt eine Verteilung von F1 und F2 von Männern und Frauen im Alter zwischen zwanzig und dreißig Jahren dar. Wie aus Fig. 4 offensichtlich, sind die Verteilungen für Männer und Frauen höchst verschieden. So ist beispielsweise die Formantfrequenz des weiblich gesprochenen japanischen Phonems "a" die gleiche wie das weiblich ausgesprochene japanische Phonem "o", und die Formantfrequenz eines männlich gesprochenen japanischen Phonems "e" ist die gleiche wie die eines weiblich gesprochenen japanischen Phonems "u".
  • Fig. 5 zeigt die Verteilung der Verhältnisse F1/F3 und F2/F3. Bezogen auf Fig. 5 findet man aus den Formant-Frequenz-Verhältnissen, daß die geschlechtsbestimmten Unterschiede zwischen Mann und Frau gelöst werden können.
  • In dem Frequenzbereich zwischen einigen hundert Hz bis etwa 5 kHz wird ungeachtet des stationären Zustandes der Spektrumhülle ein Umform-R, das durch Gleichung (4) angegeben ist, auf die Spektrumhülle P(f) angewandt, um Werte der Frequenzachse mit einer Konstanten zu multiplizieren, das heißt, um r·f zu erhalten:
  • Wenn in diesem Falle das Umform-U zum übertragen der Spektrumhülle P(f) und P(r·f) in einem nicht wechselnden Funktionsraum gefunden ist, müssen Spektrumhüllen P(f), die zu identischen Phonemen gehören, identische Gestalt haben, ungedacht der Sprachtraktlänge l.
  • Die obige Operation ist als Prinzip in den Figuren 6 A bis 6 F dargestellt. Diese Figuren zeigen, trotz gegebenem Unterschied in den Spektralhüllen P(f) des japanischen Phonems "a" oder "i", bedingt durch unterschiedliche Sprachtraktlängen l, daß diese Hüllen in Spektrumhüllen P'(f) umgewandelt werden, die mittels Umform-U eine identische Verteilung aufweisen. Genauer gesagt, werden, wie in Fig. 6 A gezeigt, die Spektrumhülle Pla (f) (Fig. 6 A) des japanischen Phonems "a" bei Länge l1 und die Spektrumhülle P2a (f) (Fig. 6 C) mit der Länge l2 in die Spektrumhüllen P'a (f) (Fig. 6 E) durch U-Umformung umgewandelt. Gleichermaßen werden die Spektrumhülle Pli (f) (Fig. 6 P) des japanischen Phonems "i" und P2i (f) (Fig. 6 D) davon in die Spektrumhüllen Pli (f) (Fig. 6 F) gleicher Gestalt transformiert.
  • In diesem Ausführungsbeispiel wird das Umform-U folgendermaßen ausgeführt. Wenn eine betragsnormierte logarithmische Spektralhülle im logarithmischen Maßstab entlang der Frequenzachse integriert wird und das Resultat zu L (f) wird, schreibt man
  • wobei ε ein sehr kleiner positiver Wert nahe 0 ist und durch später zu erläuternde Bedingungen bestimmt ist.
  • L (f) in Gleichung (5) ist abhängig von der Funktion P (f) und wird neu geschrieben als LP (f). Durch Umformung von Gleichung (4) für LP (f) erhält man:
  • logr, daher, dlogk = dlogh - dlogr. In diesem Falle, da r die konstante ist, dlogk = dlogh
  • daher folgt
  • Wenn der zweite Ausdruck auf der rechten Seite der Gliederung (6) hinreichend klein ist, gibt
  • LP'(f) LP(r·f) ...(7)
  • Angenommen, die Funktion (P(F), LP(f)) werde durch Ausd,rucken der Spectrumhüllen (P(f) und LP(f) gebildet, wobei die Frequenz f als Parameter verwendet wird:
  • (P/f), LP(f)) = (P(r·f), LP (r·f)) = (P'(f), LP'(f)) ...(8)
  • daher folgt
  • Auf diese Weise wird offensichtlich, daß das Umwandlungs-U das Umwandlungs-R aus Gleichung (4) in die nicht wechselnde Funktionsgestalt überträgt. Wenn die normierte logarithmische Spektrumhülle
  • längs der Frequenzachse hinsichtlich der normierten logarithmischen Spektrumhülle
  • proportional verlängert oder komprimiert wird, dann nimmt der Austausch der logarithmischen Frequenzachse mit dem Integral L(f) aus Gleichung (5) die Abweichungen der normierten logarithmischen Spektrumhüllen auf der Frequenzachse auf.
  • Die Fig. 7 A und 7 B sind Übersichten zur Darstellung des Prinzips der U-Umwandlung. Die logarithmische Spektrumhülle log P(f) wird als später zu beschreibende Hüllendaten an Stelle der Spektrumhülle P(f) verwendet. Die U-Umwandlung wird angewandt auf die logarithmische Spektrumhülle gemäß Fig. 7 A, um die Spektrumhülle gemäß Fig. 7 B zu erhalten. In diesem Falle kann Gleichung (8) folgendermaßen neu geschrieben schrieben werden:
  • (log (P(f) ,LP(f)) = (log P'(f) ,LPß(f)) ...(10)
  • Verwendet man die normierte logarithmische Spektrumhülle log P (f) an Stelle der Spektrumhülle P (f) oder der logarithmischen Spektrumhülle log P (f) , kann Gleichung (8) folgendermaßen neu geschrieben werden:
  • Die Bedingung zur Vernachlässigung des zweiten Ausdrucks der rechten Seite in Gleichung (6) wird nachstehend beschrieben. Die Bedingung ist bestimmt durch die Auswertung des Integrals I, das das in Gleichung (12) angegeben ist, da der interessierende Bereich vom Verhältnis r in den Bereich von ½ bis etwa 2 fällt, und die normierte logarithmische Spektrumhülle in dem Bereich ε bis 2c auf der Frequenzachse ist im wesentlichen konstant, das heißt, näherungsweise eine Konstante:
  • Der Betrag der Sprach-Spektrumhülle ist außerordentlich stark abgesenkt bei einer Frequenz, die unter der halben Stimmlagen-Frequenz liegt. Wenn in Gleichung (6) für ε etwa 100 Hz eingesetzt werden, wird aus Gleichung (12) offenbar, daß der zweite Ausdruck in der rechten Seite der Gleichung (6) vernachlässigbar ist. Wenn jedoch ε unangemessen klein ist, wird der Einfluß niedriger Frequenzkomponenten auf das in Gleichung (5) angegebene Integral L(f) ungemessen groß. In diesem Falle wächst die Analyseempfindlichkeit bis nahe an den Ursprung des Spektrums. Daher darf ε nicht unter 10 Hz liegen und soll vorzugsweise in den Bereich von 10 HZ bis 200 Hz fallen.
  • Das Prinzip dieses Ausführungsbeispiels ist beschrieben worden. Die Anordnung zur Verarbeitung nach der obigen Arbeitsweise wird nun anhand Fig. 1 beschrieben.
  • Hinsichtlich Fig. 1 liest der Spektrumhüllenausleser 11 die Spektrumhülle P(f) aus dem Eingangssprachsignal AIN. Es können verschiedenartige Spektrumhüllen - Ausleseschemata, wie etwa das Auslesen nach dem AR- Sprachanalysemodell, Auslesen nach der Cepstrum- Sprachanalyse, Auslesen nach der Sprachanalyse mit einer Filterbank usw. angewendet werden.
  • Eine Logarithmierschaltung 12 setzt den Betrag der Spektrumhülle, den der Ausleser 11 herausgelesen hat, in einen logarithmischen Wert um. Eine Normierschaltung 13 normiert den Betrag des logarithmischen Spektrumhüllensignals log P(f) aus der Logarithmierschaltung 12. Beispiele des Verfahrens zum Normieren des Betrags der logarithmischen Spektrumhülle log P(f) sind ein Verfahren mit Regelverstärker (AGC), ein Verfahren, die logarithmisch Spektrumhülle log P(f) nach der Frequenz t zu differenzieren, um einen konstanten Term aus der Hülle log P(f) zu eliminieren, dann den differenzierten Wert zu integrieren und einen konstanten Wert hinzu zu addieren. Ein Umformabschnitt 10 ist aus der Logarithmierschaltung 12 und der Normierschaltung 13 gebildet.
  • Ein Integrator 14 integriert die normierte logarithmische Hülle
  • (Ausgangssignal aus der Normierschaltung 13), wobei die Frequenz auf der logarithmischen Skala als variable dient. Genauer gesagt, integriert der Integrator 14 die Spektrumhülle
  • gemäß der Integralfunktion aus Gleichung (5). Angemerkt sei, daß der ε - Wert mit 50 Hz angegeben ist.
  • Eine Projektionsschaltung 15 empfängt die logarithmische Spektrumhülle log P(f) als Signal aus der Logarithmierschaltung 12 und das integrierte Ergebnis aus dem Integrator 14, projeziert die Hülle log P(f) auf die Integralfunktion L(f) (= LP(f)), wobei die Frequenz f wie in den Fig. 7 A und 7 B dargestellt, benutzt wird, und zeigt das Projektionsergebniss an. In der Projektionschaltung 15 wird LP(f) entlang der X-Achse des Orthogonalen Koordinatensystems ausgedruckt, und die logarithmische Spektrumhülle log P(f) wird entlang dessen Y-Achse ausgedruckt. Die Parameter werden angezeigt unter Verwendung der Frequenz f, wobei die Analyseergebnisse des Eingangssprachsignals AIN gemustert werden.
  • Wie aus den Gleichungen (10) und (11) hervorgeht, können beim Verarbeiten in der Projektionschaltung 15 die Spektrumhülle P(f) oder die logarithmische Spektrumhülle
  • verwendet werden, wenn der Y-Achsen-Wert ausgedruckt wird. Nach der vorliegenden Erfindung ist es wesentlich, daß die Hülldaten der Projektion unterworfen werden, um wenigsten die vier oben beschriebenen Muster anzuzeigen.
  • Bei der Verarbeitung in der Projektionsschaltung 15 können Hüllendaten auf der X-Achse, und LP(f) kann auf der Y-Achse ausgedruckt werden.
  • Ein Beispiel angewandter Messung durch Sprachanalyse nach diesem Ausführungsbeispiel wird nachstehend beschrieben. Die Fig. 8 A und 8 B stellen logarithmische Spektralhüllen
  • vom männlich beziehungsweise weiblich ausgesprochenen japanischen Phonem "i" dar. Diese Hüllen
  • können wie folgt bestimmt werden.
  • Sprachsignale AIN, die ein Kondensatormikrofon beaufschlagen, werden dem Ausleser 11 eingegeben und mit einer Abtastrate von 50 msec abgetastet, um ein 12-Bit-Digitalsignal zu erhalten. Zur Abtastung des Sprachsignals wird ein 8-K-Wort-Wellenspeicher verwendet.
  • Der Ausleser 11 bestimmt die Spektrumhülle P(f) des Signals AIN durch Cepstrum-Analyse. Cepstrum- Analyse wird folgendermaßen ausgeführt. Ein 1024- Punkt-Rahmen eines stetigen Vokalabschnittes wird differenziert und mit einem Hammingfenster multipliziert. Das Ergebnis wird dann Fouriertransformiert mittels eines FFT-Algorithmus, wodurch die Spektrumhülle P(f) gewonnen wird.
  • Die Logarithmierschaltung 12 errechnet den Logarithmus des Absolutwertes der Hülle P(f). Der Logarithmus wird der inversen Fouriertransformation unterzogen, um sein Cepstrum zu gewinnen. Das Cepstrum wird mit einem rechtwinkligem Fenster abgetastet, das ein Cut-off von 1,7 bis 2,5 msec auf der Frequenzachse hat. Das Resultat ist dann Fourier-transformiert und liefert die Spektrumhülle log P(f) .
  • Um die Spektrumhülle log P(f) zu bekommen, wird der Cut-off-Bereich auf der Frequenzachse in Übereinstimmung mit der Tonlagen-Frequenz gewählt. Außerdem wird zur Normierung des Betrages der Hülle log P(f) diese letztere nach einem Wert der O-ten Ordnung des Cepstrums errechnet, das in einen vorbestimmten Wert umgerechnet wird.
  • Die in den Fig. 8 A und 8 B dargestellten logarithmischen Spektrumhüllen werden in der zuvor beschriebenen Weise gewonnen. Vergleicht man diese Hüllen der Fig. 8 A und 8 B, so bemerkt man, daß ihre Verteilungen einander im Bereich von etwa bis 5 kHz ähneln. Die weibliche Spektrumgestalt ist entlang der Frequenzachse gegenüber der männlichen Spektrumgestalt verlängert.
  • LP(f) (ausgedrückt durch Gleichung (5)) für diese Hülle log P(f) wird errechnet. Die errechneten Werte werden entlang der x-Achse ausgedruckt, und die Hüllen log P(f) werden entlang der Y-Achse ausgedruckt, wie in den Fig. 9 A und 9 B dargestellt. Obwohl die Hüllen der Spitzen und kleine Nuancen dieses Graphs unterschiedlich sind, werden doch die Abweichungen in Frequenzrichtung in den Fig. 8 A und 8 B eleminiert.
  • Fig. 10 A zeigt Zeitreihenwechsel der Logarithmischen Spektrumhülle log P(f) , die durch Verschieben der Rahmenlage als Funktion der Zeit hinsichtlich des ansteigenden Abschnittes des weiblich gesprochenen japanischen Phonems "ta" entstanden ist. Fig. 10 B zeigt Zeitreihenwechsel der Sprachanalyseergebnisse durch U-Transformation der in Fig. 10 A dargestellten logarithmischen Spektrumhülle log P(f) .
  • Gemäß den Meßergebnissen wird deutlich, daß die U-Wandlung bei einem Konsonanten und der ansteigenden Flanke eines Vokals stetig ausgeführt und angezeigt wird.
  • Die Fig. 11 A und 11 B stellen Zeitreihen- Wechsel des männlich und weiblich ausgesprochenen japanischen Phonems "a" dar, die in gleicher Weise wie die Fig. 10 B entstanden sind. Vergleicht man in den Fig. 11 A, 11 B und 10 B die Vokalabschnitte, fest man fest, daß der Einfluß aufgrund sehr unterschiedlicher Sprachtraktlängen bei Männer und Frauen eleminiert worden sind.
  • Gemäß diesem detailliert beschriebenen Ausführungsbeispiel werden Hüllendaten (P(f),
  • durch U- Umformen, das in den Gleichungen (5) oder (9) definiert ist, auf LP(f) projeziert, wodurch die Sprachanalyseergebnisse erzielt werden.
  • Mit dieser Anordnung können Unterschiede der Analyseergebnisse aufgrund unterschiedlicher Längen der Sprachtrakte der Sprecher eleminiert werden. Die den Phonemen eigenen Analyseergebnisse können immer erzielt werden. In diesem Falle ist dieses Ausführungsbeispiel auf die Spektrumhülle eines beliebigen Abschnitts des Eingangssprachsignals AIN anwendbar, ungeachtet stimmhafter und stimmloser Laute, Vokale und Konsonanten. Da die Analyseergebnisse nicht von der Auslesegenauigkeit und nicht von der Stetigkeit abhängen, ist dieses Verfahren außerdem auf den gesamten Bereich von Eingangssprachsignalen AIN anwendbar. Speziell in diesem Ausführungsbeispiel können Änderungen der Spektrumhülle beim Übergang von einem Konsonanten in einen Vokal bestimmt werden, ohne daß Beeinflussungen durch unterschiedliche Sprachtraktlängen 1 auftreten, im Gegensatz zum konventionellen Sprachanalyseverfahren.
  • Da in diesem Ausführungsbeispiel an Stelle der Spektrumhülle P(f) oder der Spektrumhülle log P(f) die normierte logarithmische Spektrumhülle
  • benutzt wird, kann der Einfluß von Sprachgrößen bei einem identischen Phonem eleminiert werden.
  • Die vorliegende Erfindung ist nicht auf das beschriebene, spezielle Ausführungsbeispiel beschränkt.
  • Um beispielsweise eine zu integrierende Funktion zu erhalten, die durch Gleichung (5) angegeben ist, wird im obigen Ausführungsbeispiel das Ausgangssignal der Spektrumhülle P(f) aus dem Ausleser 11 in einen Logarithmus umgewandelt, und der Logarithmus wird normiert. Man kann jedoch zuerst normieren und danach die logarithmische Umwandlung vornehmen.
  • Die Vorrichtung zur Sprachanalyse nach der Erfindung kann durch Hardware oder Software realisiert werden.
  • Nachstehend ist ein weiteres Ausführungsbeispiel nach der Erfindung beschrieben.
  • Im vorherigen Ausführungsbeispiel integriert der Integrator 14 das normierte logarithmische Spektrumhüllen-Signal längs der Frequenzachse. Das Mel ist als Einheit für menschliche Hörempfindung bekannt und entspricht einem Verhältnis mit einer Frequenz des auditiven Nervensystems, das auf die Basilarmembran der Cochlea als Hörorgan verteilt ist. Es wird unterstellt, daß die Frequenzanalyse des Sprachsignals nach einer Mel-Funktion M(f) ausgeführt wird.
  • Fig. 28 ist ein Graph, der eine frequenzbezogene Abhängigkeit der Mel-Funktion M(f) zeigt, und die Mel-Funktion M(f) wird beispielsweise wie folgt angegeben:
  • Im Frequenzbereich von etwa 500 Hz bis 5 kHz kann die Mel-Funktion M(f) angenähert werden als:
  • M(F) 8.5 + 15 · log(f/1000) ...(14)
  • Im zweiten Ausführungsbeispiel wird das erste Ausführungsbeispiel mit U-Umwandlung teilweise verwendet, um die Vorrichtung zur Sprachanalyse realisieren zu können. Wenn eine Größen-normierte logarithmische Spektrumhülle, die in M(f) integriert ist, als L(f) angegeben ist, läßt es sich ausdrücken durch
  • wobei sich der Integrationsbereich von 0 bis f erstreckt.
  • Da L(f) in Gleichung (15) von P(f) abhängt, schreibt man es als LP(f). Wird die Umformung gemäß Gleichung (4) angewandt auf LP(f), dann wird
  • Im angenommenen Frequenzbereich von mehreren hundert Hz bis etwa 5 kHz nähert sich Gleichung (14) an:
  • dM(h/r) dM(h) ...(17)
  • Daher gibt
  • folglich wird
  • LP'(f) LP(r·f) ...(19)
  • Ausgehend von Funktion (P(f),LP/f)), die durch Ausdruck P(f) und LP(f) gewonnen wird, und mit der Frequenz f als Parameter gilt:
  • (P(f),LP(f)) = (p(r·f),Lp(r·f) = (p'(f), Lp'(f))
  • Daher gilt
  • Es ist offensichtlich, daß die U-Umwandlung eine Projektion in einen angenähert in varianten Funktionsraum hinsichtlich des Umwandlungs-R in Gleichung (4) ist.
  • Das Prinzip des zweiten Ausführungsbeispiels ist beschrieben worden. Die Anordnung zur Ausführung dieses Prinzips wird nun anhand Fig. 1 beschrieben.
  • In diesem Ausführungsbeispiel sind der Spektrumhüllen-Ausleser 11, die Logarithmierschaltung 12 und die Normierschaltung 13 dieselben wie im ersten Ausführungsbeispiel.
  • Der Integrator 14 integriert die logarithmische Spektrumhülle
  • die durch die Normierschaltung 13 normiert worden ist, wenn die Mel-Funktion M(f) als Variable verwendet wird. Genauer gesagt, integriert der Integrator 14 die Hülle log P(f) gemäß der Integralfunktion, die durch Gleichung (15) angegeben ist.
  • Die Projektionsschaltung 15 empfängt die logarithmische Spektrumhülle log P(f) aus der Logarithmierschaltung 12 und das Integrations- Ausgangssignal vom Integrator 14, projeziert die Hülle log P(f) hinsichtlich der Frequenz fin die Integralfunktion L(f) (= LP-(f) und zeigt das Projektionsergebnis an. Die Projektionsschaltung 15 arbeitet folgendermaßen. LP(f) wird längs der X-Achse des orthogonalen Koordinatensystems ausgedruckt, logarithmische Spektrumhüllen log p(f) werden entlang der Y-Achse ausgedruckt und diese Elemente werden unter Verwendung der Frequenz f als Parameter in Mustern die Analyseergebnisse des Eingangssprachsignals AIN angezeigt.
  • Die Spektrumhülle P(f) oder die normierte logarithmische Spektrumhülle
  • können als Werte zum Ausdrucken längs der Y-Achse verwendet werden. Alternativ kann auch die normierte Spektrumhülle verwendet werden. Es kommt darauf an, Hüllendaten zu verwenden, die wenigsten die vier zuvor beschriebenen Muster darstellen.
  • Bei der Verarbeitung in der Projektionsschaltung 15 können Hüllendaten auf der X-Achse, und LP(f) kann auf der Y-Achse ausgedruckt werden.
  • Ein Beispiel angewandter Messung durch Sprachanalyse nach diesem Ausführungsbeispiel wird nachstehend beschrieben. Die Fig. 8 A und 8 B stellen logarithmische Spektralhüllen
  • vom männlich beziehungsweise weiblich ausgesprochenen Japanischen Phonem "i" dar. Diese Hüllen
  • können wie folgt bestimmt werden.
  • Spracheingangssignale AIN, die ein Kondensatormikrofon beaufschlagen, werden dem Ausleser 11 eingegeben und mit einer Abtastrate von 50 usec abgetastet, um ein 12-Bit-Digitalsignal zu erhalten. Zur Abtastung des Sprachsignals wird ein 8- K-Wort-Wellenspeicher verwendet.
  • Per Ausleser 11 bestimmt die Spektrumhülle P(f) des Signals AIN durch Cepstrum-Analyse. Cepstrum- Analyse wird folgendermaßen ausgeführt. Ein 1024- PunktRahmen eines stetigen Vokalabschnittes wird differenziert und mit einem Hammingfenster multipliziert. Das Ergebnis wird dann Fouriertransformiert mittels eines FFT-Algorithmus, wodurch die Spektrumhülle P(f) gewonnen wird.
  • Die Logarithmierschaltung 12 errechnet den Logarithmus des Absolutwertes der Hülle P(f). Der Logarithmus wird der inversen Fouriertransformation unterzogen, um sein Cepstrum zu gewinnen. Das Cepstrum wird mit einem rechtwinkligem Fenster abgetastet, das ein Cut-off von 1,7 bis 2,5 msec auf der Frequenzachse hat. Das Resultat ist dann Fourier-transformiert und liefert die Spektrumhülle log P(f) .
  • Um die Spektrumhülle log P(f) zu bekommen, wird der Cut-off-Bereich auf der Frequenzachse in Übereinstimmung mit der Tonlagen-Frequenz gewählt. Außerdem wird zur Normierung des Betrages der Hülle log P(f) diese letztere nach einem Wert der O-ten Ordnung des Cepstrums errechnet, das in einen vorbestimmten Wert umgerechnet wird.
  • Die in den Fig. 8 A und 8 B dargestellten logarithmischen Spektrumhüllen werden in der zuvor beschriebenen Weise gewonnen. Vergleicht man diese Hüllen der Fig. 8 A und 8 B, so bemerkt man, daß ihre Verteilungen einander im Bereich von etwa bis 5 kHz ähneln. Die weibliche Spektrumgestalt ist entlang der Frequenzachse gegenüber der männlichen Spektrumgestalt verlängert.
  • LP(f) (ausgedrückt durch Gleichung (15)) für diese Hülle log P(f) wird errechnet. Die errechneten Werte werden entlang X-Achse ausgedruckt, und die Hüllen log P(f) werden entlang der Y-Achse ausgedruckt, wie in den Fig. 12A und 12B dargestellt. Obwohl die Hüllen der Spitzen und kleine Nuancen dieses Graphs unterschiedlich sind, werden doch die Abweichungen in Frequenzrichtung eleminiert.
  • Man hat auch herausgefunden, daß die Anhebung des Niederfrequenzbereiches begrenzt ist, wie der Vergleich in den Fig. 9 A und 9 B zeigt.
  • Fig. 13 A zeigt zeitserielle Änderungen der logarithmischen Spektrumhülle log P(f) , die durch Verschieben der Rahmenposition als Funktion der Zeit hinsichtlich des ansteigenden Abschnitts des weiblich ausgesprochenen japanischen Phonems "ta" gewonnen wurde. Fig. 13 B zeigt zeitserielle Änderungen von Sprachanalyseergebnissen durch Umformen (U) der in Fig. 13A dargestellten Spektrumhülle lag P(f) . Angesichts der Meßergebnisse wird offensichtlich, daß das Umform-U bei einem Konsonanten und der ansteigenden Flanke eines Vokals stetig ausgeführt und angezeigt wird.
  • Die Fig. 14 A und 14 B stellen Zeitreihenwechsel des männlich und weiblich ausgesprochenen japanischen Phonems "a" dar, die in gleicher Weise wie die in Fig. 13 B entstanden sind. Wenn die Vokalabschnitte in den Fig. 14 A und 14 B und in Fig. 13 B verglichen werden, zeigt sich, daß der Einfluß von einem großen Unterschied zwischen männlichen und weiblichen Sprachtraktlängen eleminiert worden ist.
  • Gemäß diesem detailliert beschriebenen Ausführungsbeispiel werden Hüllendaten (P(f), , lag P(f) oder
  • durch U- Umformen, das in den Gleichungen (5) oder (9) definiert ist, auf LP(f) projeziert, wodurch die Sprachanalyseergebnisse erzielt werden.
  • Mit dieser Anordnung können Unterschiede der Analyseergebnisse aufgrund unterschiedlicher Längen der Sprachtrakte der Sprecher eleminiert werden. Die den Phonemen eigenen Analyseergebnisse können immer erzielt werden. In diesem Falle ist dieses Ausführungsbeispiel auf die Spektrumhülle eines beliebigen Abschnitts des Eingangssprachsignals AIN anwendbar, ungeachtet stimmhafter und stimmloser Laute, Vokale und Konsonanten. Da die Analyseergebnisse nicht von der Auslesegenauigkeit und nicht von der Stetigkeit abhängen, ist dieses Verfahren außerdem auf den gesamten Bereich von Eingangssprachsignalen AIN anwendbar. Speziell in diesem Ausführungsbeispiel können Änderungen der Spektrumhülle beim Übergang von einem Konsonanten in einen Vokal bestimmt werden, ohne daß Beeinflussungen durch unterschiedliche Sprachtraktlängen 1 auftreten, im Gegensatz zum konventionellen Sprachanalyseverfahren.
  • Da in diesem Ausführungsbeispiel an Stelle der Spektrumhülle P(f) oder Spektrumhülle log P(f) die normierte logarithmische Spektrumhülle
  • benutzt wird, kann der Einfluß von Sprachgrößen bei einem identischen Phonem eleminiert werden.
  • Die vorliegende Erfindung ist nicht auf das beschriebene spezielle Ausführungsbeispiel beschränkt.
  • Um beispielsweise eine zu integrierende Funktion zu erhalten, die durch Gleichung (5) angegeben ist, wird im obigen Ausführungsbeispiel das Ausgangssignal der Spektrumhülle P(f) aus dem Ausleser 11 in einen Logarithmus umgewandelt, und der Logarithmus wird normiert. Man kann jedoch zuerst normieren und danach die logarithmische Umwandlung vornehmen.
  • Die Vorrichtung zur Sprachanalyse nach der vorliegenden Erfindung kann durch Hardware oder Software realisiert werden.
  • Es sind verschiedene Ausführungen und Abwandlungen möglich, die unter dem Umfang und die Wesensart der Erfindung der fallen.
  • In den zuvor beschriebenen Ausführungsbeispielen ist der Ausleser 11 von konventioneller Art; er kann aber auch folgendermaßen konzipiert sein.
  • Ein anderes Konzept eines Auslesers wird nachstehend anhand Fig. 2 genauer beschrieben.
  • Fig. 2 ist ein Blockschaltbild, das ein anderes Ausführungsbeispiel eines Spektrumhüllen-Auslesers 11 darstellt. Vor Beschreibung des Auslesers 11 anhand Fig. 2 soll zunächst anhand der Fig. 15 A bis 19 C dessen Prinzip erläutert werden.
  • Jetzt wird ein Signal (Fig. 15 A) als Modell zur Erzeugung von Sprachsignalen i(t) angenommen. In diesem Modell wird ein Impulszug p(t) von Wiederholimpulsen (Fig. 15 B) mit einer Tonhöhenperiode von T mit einer Intensitätshüllkurve e(t) der Stimmbandschwingungen amplitudenmodulliert. Ein Signal aus solch einer Klangquelle wird mit dynamischen Sprachtrakt-Charakteristika q(t;τ) als Funktion der Zeit gefiltert, wodurch das Signal i(t) gebildet wird.
  • Das obige Modell wird mathematisch folgendermaßen ausgedrückt:
  • Wenn stationäre Sprachtraktcharakteristika als eine Funktion der Zeit beispielhaft als ein Spezialfall veranschaulicht werden:
  • q(t;τ) → q(t-τ)
  • Gleichung (21) erfordert Gleichung (22) in gleicher Weise wie das konventionelle Cepstrum- Analysemodell:
  • In dem Modell als grundlegendes Modell dieses Ausfilhrungsbeispiels werden die Sprachtrakt- Charakteristika des konventionellen Cepstrum-Analysemodells (Gleichung (22)) als Änderung einer Zeitfunktion betrachtet.
  • Wenn Fourier-transformierte Ergebnisse dynamischer Sprachtrakt-Charakteristika q(t;τ), Stimmbandschwingungs-Wellenformen (Impulszug) p(t), und Klangquellen-Hüllkurvenintensitäten e(t) als Q(t,w), P(2 πm/T) und E(k) bestehen folgende Beziehungen:
  • wobei p(τ) ein Impulssignal ist, das eine vorbestimmte Periode besitzt und als eine Fourier- Folge dient.
  • Ein mathematischer Ausdruck eines stationären Modells der Gleichung (22) für q(t-τ) sieht folgendermaßen aus:
  • In dem dynamischen Modell zeigt die Gleichung (23) eine natürliche Erweiterung für Gleichung (26) an, und Q(t,w) repräsentiert zeitliche Änderungen in der Komponente der Kreisfrequenz w des Spektrums der sprachtrakt-Charakteristika.
  • Die Substitution der Gleichungen (23) bis (25) in die Gleichung (21) als ein Spracherzeugungsmodell zielt ab auffolgende Gleichung:
  • Substitution von F(w) in Gleichung (27) führt zu nachstehender Gleichung:
  • Eine Fourier-Transformation führt in Abhängigkeit von Q(t&sub1; w) nach zur Gleichung (30):
  • Die Funktion F(w), die durch die Gleichung (28) definiert ist, ist ein Streuspektrum mit einer Periode von 2π/T in Fig. 16. Die Breite Δ w des Spektrums in Fig. 16 ist eine Bandbreite des Spektrums E(w) der Intensitätshüllkurve e(t). Die Bandbreite Δ w wird durch eine abrupte Änderung der Intensitätshüllkurve e(t) als Funktion der Zeit definiert. Δ w von F(w) wächst an, wenn die Spektrumhüllkurve sich abrupt ändert. Da in der Praxis die Spektrumhüllkurve des Sprachsignals sich nicht so abrupt ändert, hat F(w) einen signifikanten Wert nahe 2mπ/T. Es sei angemerkt, daß die Intensitätshüllkurve e(t) Bedingungen entsprechen muß, in denen die Intensität e(t) sich nicht abrupt ändert innerhalb der Ein- Tonlagenzeit der Stimmlagenschwingung zur Trennung der beiden Spektren S1 und S2 gemäß Fig. 16. In ähnlicher Weise repräsentiert Q'(P,w) die Abhängigkeit von P, wie in Gleichung (30) angegeben, ein Sprachtrakt-Spektrum als Funktion der Zeit. Nimmt man an, daß die Hüllkurvenintensität e(t) nicht abrupt innerhalb der Ein-Tonlagenzeit der Stimmbandschwingung geändert wird, dann ist E(P) auf folgende Bandbreite begrenzt:
  • P < 2&pi;/T
  • Die Abhängigkeit des Q'(P,w) von w repräsentiert das Sprachtraktspektrum. Wie Fig. 17 zeigt&sub1; wechselt es innerhalb der Periode von 2&pi;/T nicht abrupt in Übereinstimmung einer Tonlage.
  • Als Ergebnis obiger Diskussion hat Q'(P,w-P) in Gleichung (31) einen Wert der Null ausschließt, wenn P < 2w/T. In diesem Falle kann folgende Annäherung erzielt werden:
  • Q' (P,w-P) Q' (P,w) ...(32)
  • Wenn Qß(P,w) als Q'(P,2&pi;m/T) dargestellt wird, wobei w ungefähr 2&pi;m/T ist, dann gilt:
  • w-2&pi;m/T < 2&pi;/T ...(33)
  • In einem Bereich, der sich durch Gleichung (33) ergibt, wird I(w) in Gleichung (31) angenähert durch das nächste (w):
  • F(w-P) in Gleichung (34) ist durch Gleichung (28) angegeben wie folgt:
  • Nach Definitionen aus Gleichungen (24) und (30) ist
  • Durch Subsitution der Gleichungen (36) und (37) in Gleichung (35) erhält man folgende Gleichung:
  • Unter obiger Voraussetzung und da die Spektren von e(&tau;) und Q(&tau;),2&pi;m/T) eingegrenzt sind innerhalb 2&pi;/T , hat das Integral auf der rechten Seite von Gleichung (38) einen Wert, der nur Null ausschließt, wenn
  • w-2&pi;n/T < 2&pi;/T ...(39)
  • Da w in Gleichung (38) als nahe bei 2&pi;m/T liegend angenommen wird und Gleichung (33), vorausgesetzt, bedeutet dies
  • w-2&pi;m/T < 2&pi;/T ...(33)
  • und die auf n bezogene Gleichung (38) führt nur bei n = m entsprechend den Ungleichungen (33) und (39).
  • Das heißt,
  • Die Funktion e(&tau;)Q(&tau;,2&pi;m/T im Integral von Gleichung (40) wird hergeleitet auf Grundlage der Annahme von Bandbreitenbegrenzung innerhalb 2&pi;/T , das heißt, die Annahme eines diskreten Spektrums. Daher kann das Integral, das auf &tau; von Gleichung (40) bezogen ist, angenähert durch die Summe von Abtastintervallen I angegeben werden:
  • Obgleich Im(w) als ein Wert nahe w 2 &pi; m/T von I(w) definiert ist, kann diese Funktion auf andere Frequenzbereiche ausgedehnt werden:
  • Die vorstehende Funktion wird, wie in den Fig. 18 A und 18 B dargestellt ausgedruckt.
  • Die zyklische Funktion (w) wird durch Fourier- Erweiterung folgendermaßen ausgedrückt:
  • Das eingeführte (nT) wird durch inverse Fourier-Transformation folgendermaßen abgeleitet:
  • Die resultierenden Funktionen aus den Gleichung (41) und (42) werden verglichen, um sie folgendermaßen in Faktoren zu zerlegen:
  • Gleichung (44) ist der letztendliche Ausdruck.
  • Die linke Seite der Gleichung (44) wird durch Gleichung (43) folgendermaßen definiert:
  • Jedoch ist die Beziehung
  • gültig innerhalb des Integrationsbereiches
  • w- 2&pi;m/T < 2&pi;/T
  • Daher wird die Beziehung (44) ersetzt durch folgende Gliederung: (45)
  • Kurzum: Wenn sowohl die Sprachtrakt-Charakteristika q(t;&tau;) als Funktion der Zeit als auch die Hüllkurvenintensität e(t) der Amplitude der Stimmband-Klangquelle nicht abrupt innerhalb einer Tonhüllenperiode von T geändert wurden, das heißt, wenn ihre Spektren innerhalb der Bandbreite von 2&pi;/T geändert werden, erhält man folgende Ergebnisse nach Empfang von Eingangssprachsignalen i(t):
  • Die Prozeduren sind in den Fig. 19 A bis 19 C dargestellt. Die Gleichung (44) zeigt an, daß im(nT) zur Zeit nT ein Produkt aus dem Stimmband-Schwingungs-Spektrum, der Klangquellenstärke und des Sprachtrakt-charakteristischen Spektrums ist. Die
  • Resultierende im(nT) ist das Zeitfrequenzmuster SEP (t;fP·n) des Frequenzspektrums des Eingangssprachsignals i(t), wobei t = nT und fP=1/T ist.
  • Das Prinzip der Arbeitsweise ist vorstehend beschrieben worden, und die Anordnung dafür wird anhand der Fig. 2 A und 2 B nachstehend beschrieben.
  • Bezüglich Fig. 2 A führt die Fourier-Transformations-Schaltung 111 Fouriertransformationen des Eingangssprachsignals i(t) aus, um dessen Frequenzspektrum zu erhalten.
  • Der Tonhöhen-Frequenz-Erkenner 112 erkennt Tonhöhenfrequenzen fp des Signals i(t). Der Erkenner 112 führt beispielsweise die Cepstrum-Analyse des Ausgangssignals aus der Schaltung 111 aus, um die Tonhüllenfrequenz fP zu bestimmen.
  • Der Spektrumausleser 113 liest ein Spektrum vorbestimmten Frequenzbereiches fA aus dem Frequenzspektrums-Ausgangssignal aus der Fourier- Transformierschaltung 111 aus. Der vorbestimmte Frequenzbereich fA wird auf Grundlage der Tonhüllenfrequenz fP eingestellt, die durch den Erkenner 112 in folgender Weise bestimmt wird:
  • fP · n - fP/2 &le; fA &le; fP · n + fP/2,
  • wobei n Null oder eine positive ganze Zahl ist.
  • Die inverse Fourier-Transformations-Schaltung 114 führt inverse Fourier-Transformationen des Frequenzspektrums aus, das vom Ausleser 113 ausgelesen wurde, um Zeit-Frequenz-Muster SEP (t;fP·n) des Frequenzspektrums bei der Frequenz fP · n zu erhalten.
  • Die Vorrichtung zur Sprachanalyse, die die Funktionsblöcke in Fig. 2 A hat, kann entweder durch Hardware oder durch Software realisiert werden. Die Softwareanordnung der Vorrichtung wird anhand der Fig. 2 A und 2 B genauer beschrieben.
  • Fig. 21 stellt einen Sprach-Eingangs-Abtastwert dar, der derart gewonnen wird, daß ein Spracheingangssignal von einem Mikrofon mit einer ,Abtastfrequenz von 50 usec abgetastet wird, und die abgetasteten Werte werden durch ein 12-Bit- Analog/Digitalumsetzer quantisiert. Die Daten in Fig. 21 repräsentieren Abtastwerte von 1638 Punkten aus den gesamten Sprachabtastwerten dar. In diesem Fall ist der Sprecher eine Frau in ihren zwanziger Jahren, und das Phonem ist der japanische Vokal "a". Der Rahmen in Fig. 21 enthält auch einen ansteigenden Teil des Vokals.
  • Fig. 20 ist ein Flußdiagramm, das den Sprachabtastprozeß darstellt. Bezüglich Fig. 20 wird in Schritt S1 ein Sprachabtastwert, der eine vorbestimmte Rahmenlänge hat, aus dem quantisierten Sprachabtastwert ausgelesen. Wenn der Sprachabtastwert in dem Rahmen (1 &le; n &le; N) ist, wird eine Differenz wie in Schritt S2 verarbeitet und folgendermaßen errechnet:
  • in&larr;in - in-1
  • Das Hamming-Fenster wird mit dem Differenzausgangssignal in Schritt S3 multipliziert:
  • und es wird eine schnelle Fourier-Transformation (FFT) in Schritt S4 ausgeführt. Das Frequenzspektrum I(w) wird auf der Basis des Transformationsergebnisses aus Schritt S5 errechnet. Ein Real- und Imaginär-Teil des Spektrums I(w) wird in Abhängigkeit des Sprachsignals in Fig. 21 erhalten und als IRn und IIn definiert, wobei diese Komponenten in den Fig. 22 bzw. 23 dargestellt sind. In diesem Falle wird n als 1 &le; n &le; N/2 definiert.
  • Die oben stehenden Arbeitsschritte entsprechen der Verarbeitung der Fourier-Transformationsschaltung 111 in Fig. 2 A. In den Schritten S 6 und S 7 wird die Verarbeitung vom Tonlagen-Frequenz-Erkenner 112 ausgeführt. Genauer gesagt, wird in Schritt S 6 die Cepstrum-Analyse als Fourier-transformierten Ausgangssignal durchgeführt. In Schritt S 7 wird die Tonlagen-Periode T, das heißt die Tonhöhenfrequenz fP des Eingangssprachsignals auf Grundlage der Analyseergebnisse festgestellt.
  • In den Schritten S 8 bis S 10 erfolgt die Verarbeitung im Spektrumausleser 113 und in der inversen Fourier-Transformationsschaltung 114 gemäß Fig. 2 A. Genauer gesagt, wird eine Ein- Perioden-Komponente aus dem Frequenzspektrum I(w) herausgelesen und der inversen Fourier-Transformation unterzogen, wobei wiederholt Rechnungen der Zeit-Frequenz-Muster SEP (t;fP·n) des Spektrums I(w) ausgeführt werden. In Schritt S8 werden von den Spektren IRn und IIn M/2 Datensignale vor und nach der (m · M)-ten Datenkomponente in die folgenden beiden Gebiete geschoben, die die Länge L haben&sub1; die länger als die Tonlagenperiode T ist:
  • IMRj, IMIj (1 &le; j &le; L)
  • Die Daten-Schiebe-Regeln sind in den Fig. 24 A bis 24 D dargestellt, um so dem FFT-Algorithmus zu entsprechen. Genauer gesagt, werden die Datenkomponenten des Realteils des Fourier-transformierten Spektrums nach den nachstehenden Regeln, die in den Fig. 24 A und 24 B dargestellt sind, eingerichtet. Die Datenkomponenten des Imaginärteils des Fourier-transformierten Spektrums werden neu geordnet, wie in den Fig. 24 C und 24 D dargestellt. Das positive Vorzeichen eines Teils der Datenkomponenten, die in Fig. 24 C angegeben sind, werden ins negative Vorzeichen gewechselt, oder umgekehrt. Danach wird in Schritt 59 die inverse Fourier-Transformation für jedes Paar von IMR und IME ausgeführt, um die Zeit-Frequenz-Muster (nT) zu erhalten. Diese Operation wird m - mal von 1 bis N/2M wiederholt.
  • Die Gleichstromkomponente (nT) des Spektrums entsprechen dem Falle, in dem m gleich Null ist. Da die Differenz des Sprachabtastwertes in Schritt S2 errechnet wird, wird (nT) als Null betrachtet und somit vernachlässigt.
  • Fig. 25 zeigt den Algorithmus des Absolutwertes von Zeit-Frequenz-Mustern SEP (mT:fP·n) des resultierenden Spektrums.
  • Das zuvor detailliert beschriebene Ausführungsbeispiel hat folgende Wirkung. In herkömmlicher Cepstrum-Analyse und herkömmlichem AR-Modell der Sprachanalyse wird nur das Durchschnittsspektrum des Analyserahmens aus dem Eingangssprachsignal ausgelesen. In diesem Ausführungsbeispiel jedoch können die Zeit-Frequenz-Muster des Spektrums im Analyserahmen ausgelesen werden. Daher können abrupte Änderungen im Spektrum stetig mit hoher Genauigkeit ausgelesen werden.
  • Außerdem haben die Zeit-Frequenz-Muster SEP (t;fP·n) des resultierenden Spektrums eine definierte Bedeutung, die durch Gleichung (44) angegeben ist. Da künstliche Parameter (zum Beispiel Vorgaben der Analyse im AR-Modell und die Grenzfrequenz in der Cepstrum-Analyse) nicht in den Analyseergebnissen enthalten sind, ist eine hohe Zuverlässigkeit garantiert.
  • Fig. 2 B zeigt noch ein anderes Ausführungsbeispiel gemäß der vorliegenden Erfindung. Gleiche Bezugszeichen wie in Fig. 2 A bezeichnen gleiche Teile in Fig. 2 B, und auf eine genaue Beschreibung wird verzichtet.
  • Im Ausführungsbeispiel von Fig. 2 B wird ein Ausgangssignal aus der inversen Fourier-Transformations-Schaltung 114 auf die Absolutwertschaltung 115 gegeben. Die Absolutwertschaltung 115 errechnet einen absoluten Wert des Eingangssignals und liefert den Wert in die Glättungsschaltung 116. Die Glättungsschaltung 116 errechnet einen durchschnittlichen Mitlaufwert des Eingangssignals längs der Zeitbasis, um das Eingangssignal zu glätten und ein geglättetes Signal zu erzeugen.
  • Die obige Anordnung bewirkt folgenden Effekt. Die Zeit-Frequenz-Muster, die aus dem Rahmen mit dem unbetonten und Konsonant-Abschnitten enthalten viele Geräuschkomponenten. Wenn diesen Zeit-Frequenz-Muster verwendet wird, erhält man das Frequenzmuster SEP (t;fPn), das in Fig. 27 dargestellt ist. In diesem Falle ist es schwer zu sagen, daß dieses Muster eine signifikante Spektrumhülle darstellt. Jedoch erhält man, wie oben beschrieben, zwei Zeit-Frequenz-Muster SEP (mT;fP·n) des Spektrums, das von der inversen Fourier-Transformations-Schaltung 114 erzielt wurde und zur Reduzierung des Rauscheinflusses geglättet wird, um so ein hochqualitatives Zeit- Frequenzmuster-Ausgangssignal zu erhalten, wie in Fig. 26 dargestellt.
  • Die Fig. 26 und 27 stellen die Fälle dar, in denen die ansteigenden Abschnitte des japanischen Phonems "ka" verwendet werden, um Zeit-Frequenz- Muster zu erhalten, einmal mit und dann ohne Glättung. Vergleicht man diese Graphen miteinander, so stellt man fest, daß die Muster mit Glättung in Fig. 26 einen geringeren Einfluß als jene ohne Glättung gemäß Fig. 27 aufweisen. Im Muster gemäß Fig. 26 wird ganz einfach ein Durchschnittswert aus drei Punkten errechnet, um den Glättungsdurchschnittswert zu erhalten.
  • SEP(mT,fP·n) ( SEP( (m-1)T,fP·n) + SEP (mT,fP·n) + SEP (m+i)T,fP·n) )/3
  • Eine Vorrichtung zur Sprachanalyse gemäß eines noch anderen Ausführungsbeispiels der vorliegenden Erfindung wird nun detailliert anhand der Fig. 29 bis 32 genauer beschrieben.
  • Die Anordnung dieses Ausführungsbeispiels wird zunächst anhand Fig. 29 beschrieben. Die Vorrichtung zur Sprachanalyse umfaßt den Spektrum-Hüll- Ausleser 11', die Logarithmierschaltung 12', die Normierschaltung 13', den Integrator 14' und den Synthesizer 15' in gleicher Weise wie in den vorherigen Ausführungsbeispielen. Der Umformabschnitt 10' enthält die Logarithmierschaltung 12' und die Normierschaltung 13'. Der Synthesizer 15' wird in gleicher Weise wie die Projektionsschaltung 15 des vorherigen Ausführungsbeispiels verwendet. Die Vorrichtung zur Sprachanalyse in Fig. 29 enthält ferner die CPU 16' und die Anzeigeeinheit 17'.
  • Die Anordnung der zugehörigen Komponenten wird detailliert anhand Fig. 30 und 31 nachstehend beschrieben.
  • Der Spektrumhüllenausleser 11' enthält eine Justiervorrichtung 211 zum Einstellen des Pegels des Eingangssprachsignals, eine höherfrequente Anhebeschaltung 212, die höherfrequente Anteile des Sprachsignals anhebt, einen Puffer 213 zur Verstärkung des Signals in geeigneter Weise für die nächste Stufe, eine Verteilschaltung 214 zur Aufteilung des Signals aus dem Puffer 213 in Komponenten, die geeignete Frequenzbänder und Verstärkung zum Ausgeben dieser Komponenten aufweisen, eine Filterbank 215 zum Herauslesen der Signalkomponenten aus der Verteilerschaltung 214 in Einheiten vorbestimmter Frequenzbänder, um eine Spektrumhülle gemäß Bandsteuerdaten aus der CPU 16' zu formen, und eine Multiplexerschaltung 216 zum Empfangen der Spektrumhüllendaten aus der Filterbank 215 und zum Ausgeben serieller Daten aus letzterer in Übereinstimmung mit der Ausgabe von Auswahlsteuerdaten aus der CPU 16'.
  • In diesem Ausführungsbeispiel umfaßt die Verteilschaltung 214 vier Verteiler 214-1 bis 214-4. Die Filterbank 215 umfaßt acht Filter 215-1 bis 215- 8. Jedes Filter umfaßt Bandpaßfilter 315, Gleichrichter 316 und Tiefpaßfilter 317. Band- und Tiefpaß-Filter 315 und 317 sind DT-212D und DT- 6FLl, die von der Firma NF-Circut Design Block and Compariy Ltd. erhältlich sind.
  • Das Bandpaßfilter 315 wird in Abhängigkeit von Steuerdaten aus der CPU 16' gesteuert und läßt ein Signal mit einer spezifischen Bandbreite hindurch. Der Gleichrichter 316 führt eine Zweiwegegleichrichtung des Signals aus dem Filter 315 durch und das Zweiweg gleichgerichtete Ausgangssignal wird auf das Tiefpaßfilter 217 geleitet. Das Filter 317 liest eine niederfrequente Komponente des Signals aus dem Gleichrichter 316, das heißt, eine Komponente, die Änderungen bewirkt. Daher ist die Bandbreite durch das Bandpaßfilter 315 begrenzt, und die Bandbegrenzungs- Spektrumhülle wird gewonnen.
  • Die Logarithmierschaltung 12' empfängt nacheinander Spektrumhüllen, die in serielle Ausgangsdaten umgesetzt sind, aus dem Spektrumhüllen-Ausleser 11'. Die Logarithmierschaltung 12' umfaßt eine Sample/Hold-Schaltung (S/H) 222 zum Abtasten und Halten der Spektrumhüllendaten eines jeden Kanals und die logarithmische Schaltung (LOG) 223 zum Empfangen des von S/H 222 gehaltenen Signals und setzt dieses in ein logarithmisches Signal um.
  • Der Ausgang der Logarithmierschaltung 12' ist mit der Normierschaltung 231 verbunden, und das Ausgangssignal wird durch dieses normiert. Das Ausgangssignal der Normierschaltung 231 wird dem Integrator 241 des Integrators 14' und Syntheziser 15' zugeführt.
  • Der Syntheziser 15' umfaßt eine Sample/Hold- Schaltung (S/H) 251 zum Abtasten und Halten von Daten, die durch den Integrator 14' integriert wurden, einen A/D-Umsetzer 252 zum Umsetzen von Daten die im S/H 251 gehalten sind in digitale Daten, eine Pufferspeicher 253 zur vorübergehenden Speicherung der Ausgangsignale aus dem A/D-Wandler 252 in Abhängigkeit der Taktsignale aus dem Taktgeber 257 und einen Systemspeicher 261 zur Datenspeicherung im Speicher 256 in Übereinstimmung mit dem im Pufferspeicher 213 gespeicherten Daten sowie Adressdaten.
  • Mit der obigen Anordnung kann das Eingangssprachsignal festgestellt werden. Um das festgestellte Ergebnis anzuzeigen, enthält die Vorrichtung dieses Ausführungsbeispiels eine Anzeigeeinheit 17', die mit dem Ausgang des Syntheziser 15' verbunden ist.
  • Die Anzeigeeinheit 17' umfaßt eine Anzeigesteuerung 259 zum Auslesen von Daten aus dem Systemspeicher 261, einen Rahmenspeicher 258 zum Speichern von aus dem Speicher 261 ausgelesenen Daten, um diese anzuzeigen, sowie eine Bildschirmröhre CRT 260 zum Anzeigen von in Speicher 258 gespeicherten Daten in Abhängigkeit eines Befehls aus der Steuerung 259.
  • Der Rahmenspeicher 258 umfaßt acht Rahmenspeicher. Aus Speicher 261 ausgelesene Daten werden in acht Datensignale klassifiziert und in einem eigenen Rahmenspeicher in Übereinstimmung mit dem Klassifizierungsergebnis gespeichert. Auf diese Weise entspricht jeder Datenwert einem Punkt eines der Rahmenspeicher, wobei die Abstufung der resultierenden Spektrumhülle angezeigt wird.
  • Die Verarbeitungsweise der Vorrichtung zur Sprachsignalanalyse mit der zuvor beschriebenen Anordnung wird nachstehend beschrieben.
  • BCD-Code-Steuerdaten aus der CPU 16' werden einem Band- und Tiefpaßfilter 315 und 317 vor Eingang des Sprachsignals zugeführt. In diesem Ausführungsbeispiel werden 64 Bandpaßfilter verwendet. 64 Abschnitte des Frequenzbandes der Spektrumhülle, das heißt 64 Kanäle werden ausgewählt. Wenn die aus der CPU 16' gelieferten Steuerdaten längs der logarithmischen Frequenzachse angegeben werden, kann daher die letzte Spektrumhülle als Vergleich längs der Frequenzachse dienen. Wenn anderenfalls Steuerdaten längs der Mel-Achse bestimmt sind, können diese zum Vergleich entlang der Mel-Achse dienen.
  • Nachdem Band- und Tiefpaßfilter 315 und 317 abhängig von den Steuerdaten aus der CPU 16' eingestellt sind, wird das Sprachsignal der Justiervorrichtung 211 zugeführt. Das Eingangssprachsignal wird auf einen geeigneten Gleichstrompegel eingestellt. Das eingestellte Signal wird der höherfrequenten Anhebeschaltung 212 zugeführt. Da das Sprachsignal bei höheren Frequenzen abgeschwächt ist, wird die höherfrequenten Komponente des Sprachsignals angehoben, um so etwa den gleichen Pegel wie die niederfrequenten Anteile zu haben. Das verstärkte Signal wird an Puffer 213 ausgegeben.
  • In diesen Ausführungsbeispiel wird die zu analysierende Spektrumhülle in 64 Kanäle eingeteilt, das heißt, es werden 64 Frequenzbänder festgestellt. Aus diesem Grunde muß das Sprachsignal durch eine Vielzahl (64 in diesem Ausführungsbeispiel) von Filtern geführt und durch Puffer 213 verstärkt werden. Das Ausgangssignal aus dem Puffer 213 wird der Verteilschaltung 214 zugeführt, verstärkt und in vier Frequenzbänder geteilt. Das Ausgangssignal aus dem Verteiler 214-1 wird den Filtern FDOA 215-1 und FBOB 215-2 zugeführt. Andere Signale werden in der beschriebenen Weise entsprechenden Filtern zugeführt.
  • Jedes Filter 215 umfaßt acht Kanäle. Jeder Kanal enthält Bandpaßfilter 315, Gleichrichter 316 sowie Tiefpaßfilter 317, wie in Fig. 32 dargestellt. Das Filter 315-1 empfängt externe BCD - Steuerdaten und gibt eine vorbestimmte Frequenzkomponente des Eingangssignals in Abhängigkeit der BCD - Steuerdaten aus. Das zweiweg- gleichgerichtete Signal aus dem Gleichrichter 316-1 wird dem Tiefpaßfilter 317-1 zugeführt.
  • Das Band des Tiefpaßfilters 317-1 ist durch die externen BCD - Daten begrenzt, und das Filter 317-1 liest eine vorbestimmte Frequenzkomponente des Ausgangssignals vom Gleichrichter 316-1 aus. Somit ist das Band vom Bandpaßfilter 315 begrenzt, und die bandbegrenzte Spektrumhülle wird gewonnen.
  • Ausgangsignale von den Tiefpaßfiltern 317-1 bis 317-16 werden einem Multiplexer 216-1 zugeführt. In ähnlicher Weise werden Ausgangsignale aus den Filtern 317-17 bis 317-32 einem Multiplexer 216-2 zugeführt; und ein anderes Ausgangssignal aus den Tiefpaßfiltern der Filterbank 251-3 bis 251-8 werden in gleicher Weise den Multiplexern 216-2 bis 216-4 zugeführt.
  • In diesem Ausführungsbeispiel ist das 64-Kanal- Band eingerichtet, um 64 Spektrumhüllen zu erhalten. Die Multiplexer 216-1 bis 216-4 geben Daten der zugehörigen Kanäle abhängig von Auswahlsteuerdaten aus der CPU 16' aus.
  • Das Signal aus der Multiplexerschaltung 216 wird in ein logarithmisches Signal umgewandelt. In diesem Falle enthält das Signal aus dem Multiplexer 216-1 Störsignale im Anfangsabschnitt. Die Auswahlsteuerdaten werden derart aus der CPU 16' gegeben, daß das Signal von S/H 222 abgetastet und gehalten wird, nachdem sich das Signal stabilisiert hat. Das von S/H 222 gehaltene Signal wird durch LOG 223 in ein logarithmisches Signal umgewandelt.
  • Das logarithmische Spektrumhüllensignal wird dem Integrator 241 und dem Syntheziser 15' zugeführt. Der Integrator 241 integriert die Eingangsspektrumhülle, und das integrierte Ergebnis wird an S/H 251 des Syntheziser 15' ausgegeben.
  • Die S/H 251 und 254 im Syntheziser 15' tasten ab und halten die Eingangsspektrumhülle abhängig von einem Signal, das vom Multiplexer 216 ausgegeben ist, und die gehaltenen Signale werden an A/D - Wandler 252 und 255 ausgegeben. Die A/D - Wandler 252 und 255 wandeln analoge Eingangssignale in digitale Werte, und die Digitalsignale aus den Wandlern 252 und 255 werden Pufferspeichern 253 bzw. 256 zugeführt.
  • Die Speicher 253 und 256 empfangen Taktsignale aus dem Taktgeber 257. Der Taktgeber 257 empfängt ein Signal (aus CPU 16'), das mit dem Auswahlsteuerdaten synchronisiert ist, die dem Multiplexer 216 zugeführt werden und liefert Taktsignale und Adressendaten an die Speicher 253 und 256 in Abhängigkeit von dem Signal aus der CPU 16'. Der Speicher 253 empfängt daher zeitweise die integrierten Werte, und der Logarithmus der Spektrumhülle wird vorübergehend unter einer Adresse (diese Adresse ist dieselbe wie die des Speichers 253) des Speichers 256 gespeichert.
  • Die vorübergehend im Speicher 256 gespeicherten Daten werden im Systemspeicher 216, gesteuert von der Steuereinrichtung 259, gespeichert. In diesem Falle dienen im Pufferspeicher 253 gespeicherte Daten als Adressdaten des Speichers 261 und im Speicher 215 gespeicherte Daten werden im Systemspeicher 261 gespeichert. Da die im Speicher 253 gespeicherten Daten integrierte Daten sind, werden diese nicht immer unter jeder vorbestimmten Adresse des Speichers 261 gespeichert. Wenn sich die ausgelesene Spektrumhülle abrupt ändert, springt die Adresse auf eine höhere Adresse.
  • Wenn die Intensitätsdaten der Spektrumhülle unter Adressen im Speicher 261 gespeichert werden, die ausgesondert über einem vorbestimmten Wert liegen, können Interpolationsdaten aus CPU 16' an den Speicher 261 geliefert werden.
  • Im Systemspeicher 261 gespeicherte Daten werden von der Steuereinrichtung 259 ausgelesen und dem Rahmenspeicher 258 zugeführt. In diesem Falle werden die Auslesedaten verzweigt, je nachdem, mit welchem Pegel die ausgelesenen Daten übereinstimmen. Die ausgelesenen Daten werden entsprechend dem Ausleseergebnis weitergeleitet. Im Rahmenspeicher 258 gespeicherte Daten werden auf CRT 260 angezeigt. In diesem Falle werden die Daten in acht Pegel eingeteilt, so daß die Abstufung der Daten angezeigt werden kann. Zum Beispiel wird ein Abschnitt, der mit der Spitze des Zeit- Frequenzmusters der Spektrumhülle übereinstimmt, in weiß angezeigt, und andere Abschnitte werden in schwarz angezeigt.
  • Wie im einzelnen beschrieben, werden die Steuerdaten aus der CPU 16' sauber ausgewählt, und das ausgewählte Sprachsignal wird der Filterbank zugeführt. Daher können die Daten entweder auf der Frequenz- oder Mel-Achse integriert werden.

Claims (16)

1. Vorrichtung zur Sprachanalyse zur Anzeige der Ergebnisse einer Analyse eines Eingangssprachsignals (Ain) das aus der Sprache von Sprechern stammt, die unterschiedliche Sprachtraktlängen in einem Raum haben, in dem ein von einem beliebigen Sprecher gesprochenes spezielles Phonem eine identische Gestalt hat mit:
einem Spektrumhüllenausleser (11), der eine Spektrumhülle P(f) aus dem Eingangssprachsignal herausliest, einem Umformmittel (10), das die Spektrumhülle empfängt und die Spektrumhülle umformt, um Größendaten zu bilden, zu denen normierte Spektrumhüllendaten, logarithmische Spektrumhüllendaten oder normierte logarithmische Spektrumdaten gehören, gemäß denen eine umgeformte Spektrumhülle erzeugt wird,
Integriermittel (14), die das umgeformte Spektrumhüllen - Ausgangssignal aus dem Umformmittel (10) empfangen und die die Spektrumhülle hinsichtlich Frequenz oder Mel integrieren, um integrierte Daten LP(f) zu erzeugen und mit einem
Projektionsmittel (15), das die transformierte Spektrumhülle aus dem Integriermittel (10) empfängt und die transformierte Spektrumhülle gegenüber den integrierten Daten ausdruckt, um den Raum zu bestimmen und die Ergebnisse anzuzeigen.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das Umformmittel (10) ein Logarithmiermittel (12) zum Umsetzen der Größendaten der Eingangsspektrumhülle in logarithmische Daten und zum Ausgeben der logarithmischen Daten enthält sowie Normiermittel (13) zur Normierung und Erzeugung der logarithmischen Daten der Spektrumhülle, die von dem Logarithmiermittel (12) umgesetzt werden.
3. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das Umformmittel Normiermittel (13) zur Normierung und Erzeugung der Größendaten der Eingangsspektrumhülle enthält sowie Logarithmiermittel (12) zum Umsetzen der Größendaten der Spektrumhülle, die vom Normiermittel (13) normiert sind, und zum Erzeugen der logarithmischen Daten.
4. Vorrichtung nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß das der Spektrum-Hüllen-Ausleser gebildet ist aus:
Fourier-Transformations-Mitteln (111), die das Eingangssprachsignal einer Fourier-Transformation unterziehen, um ein Leistungsspektrum zu gewinnen;
Tonlagenfrequenz-Erkennmittel (112), die eine Tonlagenfrequenz des Eingangssprachsignals aus dem Leistungsspektrum aus den Fourier-Transformations-Mitteln (111) feststellen;
Spektrum - Auslesemittel (113), die ein Leistungsspektrum eines Frequenzbereichs (fA) auslesen, das auf der Grundlage der von den Tonlagen Frequenz-Erkennmitteln (112) festgestellten Tonhöhenlagenfrequenz aus dem durch die Fourier- Transformations-Mittel gewonnenen Leistungsspektren folgendermaßen festgelegt wird:
fP·n - fP/2 &le; fA &le; fP·n + fP/2
wobei fP die Stimmlagenfrequenz ist und n 0 oder ganzzahlig ist sowie
inverse Fourier-Transformations-Mittel (14), die die inverse Fourier-Transformation des Leistungsspektrums, das von den Spektrumauslesemitteln (113) ausgelesen ist, ausführen, um die Spektrumhülle zu erhalten.
5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß die Tonlagenfrequenz - Erkennmittel (112) Cepstrum - Analysemittel zur Ausführung der Cepstrum - Analyse des Leistungsspektrums aus zuführen, das durch die Fourier - Transformations - Mittel (111) transformiert ist, um die Tonlagenfrequenz zu erhalten.
6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, das die Spektrumhüllen - Auslesemittel (11) weiterhin Glättungsmittel (116) enthalten, die das Spektrumhüllenausgangssignal aus den inversen Fourier - Transformationsmitteln glätten.
7. Vorrichtung nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die Spektrumhüllen - Auslesemittel (11) gebildet sind aus:
höherfrequenten Verstärkungsmitteln (212) zum Anheben des Eingangssprachsignals in der Weise, daß ein höherfrequenter Anteil im wesentlichen den gleichen Pegel wie der eines niederfrequenten Anteils erhält,
Bandpaß-Filter-Mitteln (215) zum Aufteilen des höherfrequenten, verstärkten Sprachsignals in eine Vielzahl von vorbestimmten Kanälen und zum Begrenzen der Bandbreite nach Maßgabe erster Steuerdaten,
Gleichrichtmitteln (316) zur Zweiweggleichrichtung des Sprachsignals eines jeden Kanals, dessen Bandbreite durch die Bandpaß - Filter - Mittel begrenzt ist,
Tiefpaß - Filter - Mitteln (317) zum Auslesen eines zeitlichen Wechsels der Spitze des Zweiweg - gleichgerichteten Sprachsignals aus den Gleichrichtmittel (316), um in Übereinstimmung mit den ersten Steuerdaten die Spektrumhülle eines jeden Kanals zu bestimmen sowie
Multiplexmitteln (216) zum Multiplexen von Daten der Spektrumhülle, die mit Ausgangssignalen eines jeden Kanals übereinstimmen, und zum Ausgeben eines seriellen Ausgangssignals der gemultiplexten Daten in Abhängigkeit von zweiten Steuerdaten.
8. Vorrichtung nach Anspruch 7, die außerdem Steuermittel (16') zur Ausgabe der ersten und zweiten Steuerdaten enthält.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die Steuermittel (16') Mittel zur Ausgabe der ersten Steuerdaten enthalten, um so die Spektrumhüllen - Auslesemittel (11) zu veranlassen, die Spektrumhülle hinsichtlich der Frequenz oder hinsichtlich der Mele auszulesen.
10. Vorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß die Steuermittel (16') außerdem Mittel zur Ausgabe dritter Steuerdaten enthalten, und daß die Projektionsmittel (15') erste A/D - Wandlungsmittel (252) zur Wandlung der integrierten Daten aus den Integriermitteln (14') in integrierte digitale Daten enthalten,
erste Puffer-Speicher-Mittel (253) zur vorübergehenden Speicherung der integrierten Daten aus den ersten A/D - Wandler - Mittel (252) abhängig von den dritten Steuerdaten,
zweite A/D - Wandel - Mittel (252) zur Wandlung der transformierten Größendaten aus den Transformationsmitteln (10) in digitale Größendaten,
zweite Pufferspeichermittel (256) zur vorübergehenden Speicherung der digitalen Größendaten aus dem zweiten A/D - Wandler - Mitteln (255) in Abhängigkeit von den dritten Steuerdaten und
Speichermittel (261) zur Speicherung der digitalen Größendaten, die in den zweiten Pufferspeichermitteln (256) gespeichert sind, in Übereinstimmung mit den integrierten Daten, die in den ersten Puffer - Speicher - Mitteln (253) als Adressdaten gespeichert sind.
11. Vorrichtung nach Anspruch 10, dadurch gekennzeichnet, daß die Vorrichtung außerdem Anzeigemittel (17') zum Anzeigen in den Speichermitteln (261) gespeicherter Daten enthält, daß die Anzeigemittel (17') eine Vielzahl von Rahmenspeichern (258) zur Speicherung von anzuzeigenden Daten enthalten, Mittel (259) zum Auslesen von Daten aus den Speichermitteln (261), Mittel (259) zur Klassifizierung der ausgelesenen Daten hinsichtlich vorbestimmter Pegel, zum Zugriff eines der Vielzahl von Rahmenspeichern entsprechend den Klassifikationsergebnissen und zum Schreiben der Daten entsprechend den ausgelesenen Daten sowie Anzeigemittel (260) zur Anzeige der in der Vielzahl von Rahmenspeichern gespeicherten Daten.
12. Verfahren zur Anzeige der Ergebnisse einer Analyse eines Eingangssprachsignals (Ain), das aus der Sprache von Sprechern stammt, die unterschiedliche Sprachtraktlängen in einem Raum haben, in dem ein von einem beliebigen Sprecher gesprochenes spezielles Phonem eine identische Gestalt hat, mit folgenden Schritten:
Auslesen einer Spektrumhülle P(f) aus dem Eingangssprachsignal,
Empfang der Spektrumhülle und Transformation der Spektrumhülle, um Größendaten zu erzeugen, die normierte Spektrumhüllendaten, logarithmische Spektrumhüllendaten oder normierte logarithmische Spektrumdaten enthalten, um so eine transformierte Spektrumhülle zu erzeugen,
Empfang der transformierten Spektrumhülle und Integration der Spektrumhülle hinsichtlich Frequenz oder Mel, um integrierte Daten LP(f) zu erzeugen, sowie
Empfang der transformierten Spektrumhülle und der integrierten Daten und Ausdrucken der transformierten Spektrumhülle zu den integrierten Daten, um den Raum zu bestimmen und die Ergebnisse anzuzeigen.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Transformation der Eingangsspektrumhülle wenigstens einen Schritt der Umsetzung der Größendaten der Eingangsspektrumhülle in logarithmische Paten umfaßt und einen Schritt des Normierens der Größendaten der Eingangsspektrumhülle.
14. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet, daß der Schritt des Auslesens der Spektrumhülle folgendes umfaßt:
Fourier-Transformation des Eingangssprachsignals,
Feststellen der Tonlagenfrequenz des Eingangssprachsignals aus dem Leistungsspektrum, das in dem Fourier-Transformationsschritt gewonnen wurde,
Auslesen des Leistungsspektrums eines Frequenzbereichs (fA), der auf der Grundlage der Tonlagenfrequenzerkennung erkannten Tonlagenfrequenz durch die Fourier-Transformation aus dem Leistungsspektrum bestimmt ist, wobei der Frequenzbereich folgendermaßen festgelegt wird:
fP·n - fP/2 &le; fA &le; fP·n + fP/2
wobei fP die Stimmlagenfrequenz ist und n entweder 0 oder ganzzahlig ist sowie inverse Fourier- Transformation des Leistungsspektrums, das in dem Spektrumausleseschritt ausgelesen wurde, um die Spektrumhülle zu erhalten.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß der Tonlagenfrequenz-Erkennschritt das Ausführen der Cepstrum-Analyse des Leistungsspektrums umfaßt, das in dem Fourier-Transformationsschritt transformiert wurde.
16. Verfahren nach Anspruch 14 oder 15, dadurch gekennzeichnet, daß in dem Spektrumhüllenausleseschritt außerdem in einem Schritt das Spektrumhüllenausgangssignal aus dem inversen Fourier-Transformations-Schritt geglättet wird.
DE8686114258T 1985-10-16 1986-10-15 Verfahren und vorrichtung zur sprachanalyse. Expired - Fee Related DE3687815T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP23036885 1985-10-16
JP60230367A JPS6289999A (ja) 1985-10-16 1985-10-16 音声分析装置
JP60231721A JP2569472B2 (ja) 1985-10-17 1985-10-17 音声分析装置
JP61227286A JPS62174798A (ja) 1985-10-16 1986-09-26 音声分析装置

Publications (2)

Publication Number Publication Date
DE3687815D1 DE3687815D1 (de) 1993-04-01
DE3687815T2 true DE3687815T2 (de) 1993-06-17

Family

ID=27477258

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8686114258T Expired - Fee Related DE3687815T2 (de) 1985-10-16 1986-10-15 Verfahren und vorrichtung zur sprachanalyse.

Country Status (3)

Country Link
US (1) US4827516A (de)
EP (1) EP0219109B1 (de)
DE (1) DE3687815T2 (de)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69132659T2 (de) * 1990-05-28 2002-05-02 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5696878A (en) * 1993-09-17 1997-12-09 Panasonic Technologies, Inc. Speaker normalization using constrained spectra shifts in auditory filter domain
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
WO1997037345A1 (en) * 1996-03-29 1997-10-09 British Telecommunications Public Limited Company Speech processing
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
US6151572A (en) * 1998-04-27 2000-11-21 Motorola, Inc. Automatic and attendant speech to text conversion in a selective call radio system and method
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
GB9822930D0 (en) * 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
JP4439740B2 (ja) * 1999-02-16 2010-03-24 有限会社ジーエムアンドエム 音声変換装置及び方法
GB9913773D0 (en) * 1999-06-14 1999-08-11 Simpson Mark C Speech signal processing
AT408286B (de) * 1999-09-10 2001-10-25 Siemens Ag Oesterreich Verfahren zur unterdrückung von störrauschen in einem signalfeld
GB2357231B (en) * 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
GB2365145A (en) * 2000-07-26 2002-02-13 Canon Kk Voice control of a machine
GB2365189A (en) * 2000-07-26 2002-02-13 Canon Kk Voice-controlled machine
JP2002123213A (ja) * 2000-10-18 2002-04-26 Fujitsu Ltd 画像表示のためのデータ変換方法
JP3711880B2 (ja) * 2001-03-09 2005-11-02 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
US6526356B1 (en) * 2001-06-19 2003-02-25 The Aerospace Corporation Rocket engine gear defect monitoring method
DE10242333A1 (de) * 2002-09-12 2004-03-18 Rohde & Schwarz Gmbh & Co. Kg Verfahren zum Bestimmen der Hüllkurve eines modulierten Signals
US7327803B2 (en) 2004-10-22 2008-02-05 Parkervision, Inc. Systems and methods for vector power amplification
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법
US7567903B1 (en) 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US7911272B2 (en) 2007-06-19 2011-03-22 Parkervision, Inc. Systems and methods of RF power transmission, modulation, and amplification, including blended control embodiments
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US7818168B1 (en) * 2006-12-01 2010-10-19 The United States Of America As Represented By The Director, National Security Agency Method of measuring degree of enhancement to voice signal
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
JP4246792B2 (ja) * 2007-05-14 2009-04-02 パナソニック株式会社 声質変換装置および声質変換方法
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
US20120078625A1 (en) * 2010-09-23 2012-03-29 Waveform Communications, Llc Waveform analysis of speech
KR20160058855A (ko) 2013-09-17 2016-05-25 파커비전, 인크. 정보를 포함하는 시간의 함수를 렌더링하기 위한 방법, 장치 및 시스템
JP6386237B2 (ja) * 2014-02-28 2018-09-05 国立研究開発法人情報通信研究機構 音声明瞭化装置及びそのためのコンピュータプログラム
US10803857B2 (en) * 2017-03-10 2020-10-13 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3649765A (en) * 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4087632A (en) * 1976-11-26 1978-05-02 Bell Telephone Laboratories, Incorporated Speech recognition system
DE2920041C2 (de) * 1979-05-18 1986-09-04 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren zum Verifizieren von Signalen, und Anordnung zum Durchführen des Verfahrens

Also Published As

Publication number Publication date
EP0219109B1 (de) 1993-02-24
DE3687815D1 (de) 1993-04-01
EP0219109A3 (en) 1988-11-17
US4827516A (en) 1989-05-02
EP0219109A2 (de) 1987-04-22

Similar Documents

Publication Publication Date Title
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE69417445T2 (de) Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE69513919T2 (de) Sprachanalyse
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69836785T2 (de) Audiosignalkompression, Sprachsignalkompression und Spracherkennung
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE60031432T2 (de) System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern
DE69718284T2 (de) Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz
US4829574A (en) Signal processing
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE69700087T2 (de) Gerät und Verfahren zur Signalanalyse
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP3291234A1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE69421704T2 (de) Verfahren und vorrichtung zum testen einer fernmeldeanlage unter verwendung eines testsignals mit verminderter redundanz
DE3882805T2 (de) Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee