DE2659096A1

DE2659096A1 - Verfahren und vorrichtung zur spracherkennung

Info

Publication number: DE2659096A1
Application number: DE19762659096
Authority: DE
Inventors: Stephen L Moshier
Original assignee: Dialog Systems Inc
Current assignee: Dialog Systems Inc
Priority date: 1975-12-29
Filing date: 1976-12-27
Publication date: 1977-07-07
Also published as: JPS52107707A; US4038503A; FR2337393B1; GB1569990A; FR2337393A1; GB1569989A; DE2659096C2

Description

Λ 42 145 b

ü - 1.63 _;

27. Dezember 1976

Dialog Systems, Inc.

Verfahren und Vorrichtung zur Spracherkennung

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Spracherkennung, bei denen das Spektrum eines Audio-Signales analysiert wird, um das Verhalten der Formantresonanz während eines Zeitintervalls zu bestimmen. Eine Vielzahl von Spracherkennungssystemen sind bisher vorgeschlagen worden, auch solche, die versuchen, sogenannte Phoneme zu erkennen/und die die Erkennung und Bestimmung des Musters der Formantfrequenzen in der Sprache zu erreichen suchen. Während diese bekannten

709827/0770

A 42 145 b

u - 163

27. Dezember 1976 - # - 2659096

Techniken bis zu einem gewissen Masse erfolgreich waren, bleiben doch erhebliche Probleme zu lösen. Beispielsweise ist das erkennbare Vokabular begrenzt; die Genauigkeit der Spracherkennung hängt in starkem Masse von Unterschieden der Sprachcharakteristiken verschiedener Sprecher ab; die Systeme sind ausserdem sehr empfindlich gegen Verzerrungen der zu analysierenden Sprachsignale. Dieses letztere Problem verhindert den Einsatz automatischer Spracherkennungssysteme bei Sprachsignalen, die über gewöhnliche Telefonleitungen übermittelt werden, obwohl diese Signale von einem menschlichen Hörer ohne weiteres erkannt und verstanden v/erden können.

Es ist daher Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Sprachanalyse zu schaffen, die eine verbesserte Spracherkennungsgenauigkeit aufweisen. Die Empfindlichkeit gegenüber Frequenzverzerrung der zu erkennenden Sprachsignale soll relativ klein sein. Ferner soll auch die Empfindlichkeit gegenüber Sprechgeschwindigkeitsunterschieden möglichst gering sein. Ein solches System soll verschiedene Stimmen erkennen können. Schliesslich soll eine entsprechende Vorrichtung verlässlich arbeiten und relativ einfach und daher kostensparend aufgebaut sein.

Diese Aufgabe wird gemäss der Erfindung durch ein Verfahren zur Sprachanalyse gelöst, wie es in den Ansprüchen beschrieben ist.

Das Spracherkennungssystem der vorliegenden Erfindung analysiert ein Audio-Signal zur Bestimmung des Verhaltens der Formantfrequenzen in einem Zeitintervall, welches einem ge-

709827/0770

Λ 42 145 b

u - 163

27. Dezember 19 76 -JT-

sprochenen Wort oder einem Satz oder einer Phrase entspricht. In diesem Intervall wird wiederholt ein das Amplituden- oder Energiespektrum des Audio-Signales in einem kurzen Teilintervall darstellendes Spektrum erzeugt. In jedem Frequenzband eines Spektrums wird der über das Zeitintervall auftretende Maximalwert bestimmt, so dass man für das Zeitintervall ein sogenanntes Spitzenspektrum erhält. Dieses Spitzenspektrum wird durch einen Mittelungsprozess geglättet, bei welchem jeder Spitzenwert mit den Werten der benachbarten Frequenzbänder gemittelt wird. Die Breite des gesamten zur Mittelung beitragenden Bandes entspricht etwa dem typischen Frequenzabstand zwischen Formantfrequenzen (etwa 1000 Hz). In jedem der Spektren der ursprünglich ermittelten Folge von Spektren werden die Amplitudenwerte jedes Frequenzbandes durch den entsprechenden Wert des geglätteten Spitzenspektrum dividiert. Dadurch erhält man eine entsprechende Folge von frequenzegalisierten Spektren. Ein Vergleich eines solchen egalisierten Spektrums mit Basisdaten, die ein bekanntes Vokabular beschreiben, führt zu einer wesentlich verbesserten Erkennung des Originalsprachsignals, auch wenn dieses einer Frequenzverzerrung unterworfen wurde, beispielsweise durch eine Telefonübertragungsleitung.

Bei einer Weiterbildung der Erfindung werden die Amplitudenänderungen in jedem Frequenzband des egalisierten Spektrums gewichtet und addiert, um ein Mass für die Subjektivzeit zu erhalten. Dann werden eine begrenzte Anzahl von Spektren ausgewählt, die in Bezug auf die Subjektivzeit gleiche Intervalle repräsentieren sollen. Dadurch werden Unterschiede in der Sprechgeschwindigkeit eliminiert. Die ausgewählten Spektren

709827/0770

Λ 42 145 b

u - 163

27. Dezember 19 76 - y-

werden dann norm±ert und transformiert, so dass die Unterschiede zwischen phonetisch unterschiedlichen Lauten besonders deutlich v/erden. Mit Hilfe einer Maximalwahrscheinlichkeitsmethode werden die transformierten Werte dann mit Basisdaten verglichen,' die das zu erkennende Vokabular repräsentieren.

Vorteilhafte Aus- und Weiterbildungen der Erfindung sind Gegenstand der Neben- und Unteransprüche und in diesen niedergelegt. Die Erfindung betrifft neben dem Verfahren zur Spracherkennung auch eine Vorrichtung zur Durchführung dieses Verfahrens.

Die nachfolgende Beschreibung bevorzugter Ausführungsformen der Erfindung dient im Zusammenhang mit der Zeichnung der näherei

Erläuterung. Es zeigen:

Fig. 1 ein Flussdiagramm der v/esentlichen Verfahrensschritte des erfindungsgemässen Verfahrens;

Fig. 2 ein schematisches Blockdiagramm einer elektronischen Vorrichtung zur Durchführung einiger Anfangsoperationen in dem in dem Flussdiagramm der Fig. 1 dargestellten Verfahren und

Fig. 3 ein Flussdiagramm eines digitalen Computerprogramms zur Durchführung einiger weiterer Verfahrensschritte des in Fig. 1 dargestellten Verfahrens.

Entsprechende Bezugszeichen bezeichnen in sämtlichen Zeichnungen entsprechende Teile.

709827/0770

Λ 42 145 b

In dem besonderen bevorzugten Ausführungsbeispiel, welches hier beschrieben wird, wird die Spracherkennung durch eine Vorrichtung erreicht, die sowohl speziell konstruierte elektronische Systeme zur Durchführung bestimmter analoger und digitaler Prozeduren an den eingehenden Sprachsignalen als auch einen digitalen Mehrzweckcomputer umfasst, der gemäss der vorliegenden Erfindung programmiert ist, um bestimmte Datenreduktionsschritte und numerische Auswertungen durchzuführen. Die Aufteilung der Aufgaben zwischen dem hardware-Teil und dem software-Teil des Systems ist so durchgeführt, dass man ein Gesamtsystem erhält, welches Spracherkennung im Echtzeitbetrieb zu geringen Kosten durchführen kann. Es wird jedoch darauf hingewiesen, dass einige der von den hardware-Teilen des besonderen Systems durchgeführten Aufgaben ebenso auch in software vorliegen können, während einige der durch die Software-Programmierung durchgeführten Aufgaben dieses Beispiels in einem anderen Ausführungsbeispiel ebenso mittels einer Vielzweckschaltungsanordnung durchgeführt werden können.

Die durch das vorliegende System bei der Erkennung von Sprachsignalen aufeinanderfolgenden Operationen sind in Fig. 1 allgemein dargestellt. Es ist nützlich, diese anfängliche übersichtsbeschreibung auch bei der folgenden detailierten Beschreibung der verschiedenen Datenverarbeitungen im Auge zu behalten, um das Verständnis des detailiert beschriebenen Verfahrens zu erleichtern. Wie bereits ausgeführt, liegt ein Merkmal der vorliegenden Erfindung in der Schaffung einer Vorrichtung, die Sprachsignale auch dann erkennen kann, wenn diese Signale frequenzverzerrt sind, z.B. durch eine Telefonübertragungsleitung. In Fig. 1 kann man daher annehmen, dass

70 9 8 27/0770

A 42 145 b

u - 163

27. Dezember 1976 -JT- 2659096

das Spracheingangssignal 11 ein Sprachsignal ist, das von einer Telefonleitung empfangen wird und über eine beliebige Entfernung und über eine Anzahl von Schaltzwischenstationen gelaufen ist.

Wie sich im Verlaufe der folgenden Beschreibung verdeutlichen wird, betreffen das beschriebene Verfahren und die entsprechende Vorrichtung die Erkennung von Sprachsegmenten, die eine Folge von Tönen, Lauten oder "Phonemen" enthalten. In der folgenden Beschreibung und in den Ansprüchen wird auf ein "einem gesprochenen Wort entsprechendes Intervall" Bezug genommen, da dies eine einfache Möglichkeit darstellt, eine Minimalzeitdauer zu formulieren, welche ausreicht, eine erkennbare Ton- oder Lautfolge zu enthalten. Dieser Ausdruck sollte jedoch weit und allgemein so verstanden werden, dass er auch eine Anzahl von Wörtern im grammatikalischen Sinn oder nur ein einziges Wort enthalten kann.

In der dargestellten Ausführungsform wird das einem gesprochenen Wort entsprechende Intervall etwas willkürlich als ein Ein-Sekunden-Intervall angenommen. Es sind eine Anzahl von Techniken bekannt, wie ein solches Intervall zu beginnen ist. Die spezielle Technik, die dafür angewandt wird, ist im wesentlichen nicht Teil der vorliegenden Erfindung. Vorzugsweise wird das Intervall jedoch dann begonnen, wenn die in der im folgenden beschriebenen Weise berechnete Grosse eines Eingangssignales in einem Gleitfenster von etwa dreissig aufeinanderfolgend erzeugten Spektren des Sprachsignales, die in der im folgenden beschriebenen Weise digitalisiert sind, einen vorgegebenen Schwellwert um mehr als die Hälfte übersteigt.

— 7 —

709827/0770

A 42 145 b

u- 163

27. Dezember 19 76 -)7 -

Nachdem die Amplitude mit einer automatischen Verstärkungsregelungsschaltung (AVR-Schaltung) normalisiert ist, wird das Sprachsignal digitalisiert, d.h., die Signalamplitude wird in digitale Form umgewandelt. Im folgenden Beispiel wird eine binäre 8-bit-Darstellung der Signalamplitude mit einer Geschwindigkeit von 10 000 Umwandlungen pro Sekunde erzeugt. Ein Autokorrelator 17 verarbeitet dieses Eingangssignal und erzeugt 100-mal pro Sekunde eine Autokorrelationsfunktion, wie dies bei 19 angedeutet ist. Jede Autokorrelationsfunktion umfasst 32 Werte oder Kanäle, wobei jeder Wert auf eine 24-bit-Auflösung berechnet wird. Der Autokorrelator wird weiter unten unter Bezugnahme auf Fig. 2 näher beschrieben.

Die Autokorrelationsfunktionen 19 werden einer Fourier-Transformation unterzogen, wie dies bei 21 angedeutet ist, so dass man die entsprechenden Energiespektren 23 erhält. Diese Spektren werden mit derselben Wiederholungsrate berechnet wie die Autokorrelationsfunktion, d.h. mit 32 Kanälen, von denen jeder eine Auflösung von 16 bits hat. Jeder der 32 Kanäle in jedem Spektrum stellt ein Frequenzband dar. In der vorliegenden Ausführungsform werden die Fourier-Transformation sowie die weiteren Verarbeitungsschritte mit Hilfe eines digitalen Vielzweckcomputers durchgeführt, der entsprechend programmiert ist und zur Beschleunigung der bei der vorliegenden Methode wiederholt erforderlichen arithmetischen Operationen periphere Array-Prozessoren verwendet. Der speziell eingesetzte Computer ist ein Modell PDP11, der von der Digital Equipment Corporation of Maynard, Massachusetts, USA, hergestellt worden ist. Die im folgenden unter Bezugnahme auf Fig. 3 beschriebene Programmierung ist im wesentlichen auf die Möglichkeiten und

709827/0770

Λ 42 145 b

u - 163

27. Dezember 1976 -18 -

Eigenschaften dieses im Handel erhältlichen Computers abgestellt.

Jedes der aufeinanderfolgenden Spektren v/ird frequenzegalisiert, wie dies bei 25 angedeutet ist. Diese Egalisierung wird als Funktion der in jedem Frequenzband innerhalb des Intervalls auftretenden Spitzenamplitude durchgeführt, wie dies weiter unten ausführlich beschrieben wird.

Die egalisierten Spektren 26 werden wiederum mit einer Rate von 100 pro Sekunde erzeugt, jedes Spektrum hat 32 Kanäle, die mit einer Genauigkeit von 16 Binärbit ausgewertet werden.

Um Unterschiede in der Sprechgeschwindigkeit auszugleichen, führt das System dann eine Neuverteilung oder Kompensation durch, die auf dem Ablauf der subjektiven Zeit beruht. Diese Kompensation wird v/eiter unten noch genauer beschrieben, im Augenblick sei aber darauf hingewiesen, dass diese Auswertung im wesentlichen in der Addition der Grossen aller Amplitudenänderungen besteht, die in all den verschiedenen Frequenzkanälen im interessierenden Intervall auftreten. Diese Addition wird bei 29 durchgeführt. Da die Spracherkennung in gewissem Ilasse auf der Verschiebung der Formantfrequenzen beruht, ist die Verschiebungsgeschwindigkeit ein Hinweis auf die Sprachgeschwindigkeit. Diese Verschiebungen lassen sich auch an Änderungen der Amplituden in den beteiligten Frequenzkanälen erkennen.

Diese subjektive Zeitauswertung bildet eine Grundlage für die Auswahl einer begrenzten Anzahl von Spektren innerhalb des

709827/0770

Λ 42 145 b

u - 163

27. Dezember 19 76 -*9 - 2659096

Intervalls, wobei diese ausgewählten Proben das gesprochene Wort recht gut repräsentieren. Wie bereits ausgeführt, werden die Spektren selbst 100-mal pro Sekunde erzeugt. Jedoch ist verständlich, dass viele der Daten redundant sind. Bei der praktischen Durchführung der Erfindung hat es sich herausgestellt, dass 12 Spektren eine adäquate Darstellung eines kurzen Wortes oder einer Phonemfolge bilden, die für die Erkennung geeignet sind. Die subjektive Zeitauswertung wird daher verwendet, um das Gesamtintervall (annähernd eine Sekunde lang) in 12 Perioden von gleichen subjektiven Zeitwerten einzuteilen und ein entsprechendes Spektrum für jede dieser Perioden auszuwählen. Diese Auswahl wird bei 31 durchgeführt. Zur Erleichterung der Endauswertung des gesprochenen Wortes werden die Spektren bei 35 einer Amplitudentransformation unterzogen, die auch eine nichtlineare Amplitudentransformation umfasst. Diese Transformationen werden weiter unten ausführlicher beschrieben, aber es sei bereits jetzt darauf hingewiesen, dass diese Transformation die Genauigkeit verbessert, mit welcher ein unbekanntes Sprachsignal mit einem Referenzvokabular verglichen werden kann. In dem dargestellten Ausführungsbeispiel wird diese Transformation bei allen Spektren durchgeführt, und zwar parallel zu der Addition oder Akkumulation, welche die subjektive Zeit auswertet und vor der Auswahl der repräsentativen Proben. Der tatsächliche Vergleich der ausgewählten Spektren mit den Grunddaten wird nach einer Vektor-Transformation durchgeführt, die bei 37 erfolgt. Dazu wird das Produkt der Vektor-Transformation einem mit 41 bezeichneten Wahrscheinlichkeitsauswerter zugeführt.

- 10 -

709 8 27/0770

Λ 42 145 b

u - 163

27. Dezember 1976 -^

Vorprozessor

In der in Fig. 2 dargestellten Vorrichtung werden aus einem durch den Analog-Digital-Konverter 13, der das Analog-Sprachsignal 11 digitalisiert, hergestellten Datenstrom auf digitalem Wege eine Autokorrelationsfunktion und eine Mittelungsfunktion erzeugt. Die digitalen Verarbeitungsfunktionen und die eingangs erfolgende Analog-Digital-Umwandlung werden mittels eines Zeitgeberoszillators 51 gesteuert. Dieser Zeitgeberoszillator 51 liefert ein Basiszeitsignal mit 320 000 Impulsen pro Sekunde, und dieses Signal wird einem Frequenzteiler 52 zugeführt, so dass man ein zweites Zeitsignal mit 10 000 Impulsen pro Sekunde erhält. Das langsamere Zeitsignal steuert den Analog-Digital-Konverter 13 und eine Halteschaltung 53, die die 8-bit-Ergebnisse der letzten Umwandlung festhält, bis die nächste Umwandlung vollendet ist. Bevor der Digitalwert der Halteschaltung zugeführt wird, wird er bei 54 von der Darstellung, die ein konventioneller Analog-Digital-Wandler, wie der bei 13, liefert, in eine Vorzeichen-Grössen-Darstellung umgewandelt.

Die gewünschten Autokorrelationsprodukte werden von einer digitalen Multipliziereinheit 56 und einem 32 Wort-Schieberegister 58 und der dazugehörigen Steuerschaltung erzeugt. Das Schieberegister 58 wird im Zirkuliermode betrieben und von der schnelleren Zeitgeberfrequenz gesteuert, so dass ein vollständiger Datenumlauf während jeder Analog-Digital-Umwandlung vollendet wird. Ein Eingangssignal für die digitale Multipliziereinheit 56 kommt von der Halteschaltung 53, während das andere Eingangssignal für die Multipliziereinheit von dem laufenden Ausgängssignal des Schieberegisters stammt. Die

- 11 -

70982 7/0770

A 42 145 b

u - 163

27. Dezember 1976 -Vf- 2659096

Multiplikationen werden mit einer höheren Zeitgeberfrequenz durchgeführt. Auf diese Weise wird jeder bei der Umwandlung erhaltene Wert mit jedem der vorhergehenden 31 Umwandlungswerte multipliziert. Für den Fachmann ist ersichtlich, dass die dabei erzeugten Signale einer Multiplikation des Eingangssignales mit sich selbst entsprechen, wobei die Signale selbst um 32 verschiedene Zeitintervalle verzögert sind. Um eine Korrelation mit Null-Verzögerung (d.h. die Energie) zu erzeugen, veranlasst ein Multiplexer 59 die Multiplikation des laufenden Wertes mit sich selbst, und zwar zu einem Zeitpunkt, wenn der neue Wert in das Schieberegister eingeführt wird, welche Zeitfunktion bei 60 dargestellt ist.

Wie sich für den Fachmann auch ergibt, sind die Produkte einer einzigen Umwandlung mit ihren 31 Vorgängern nicht sonderlich repräsentativ für die Energieverteilung oder das Spektrum des Signals über ein vernünftiges Probenintervall. Daher sieht die Vorrichtung der Fig. 2 eine Mittelung dieser Sätze von Produkten vor.

Um den additiven Prozess der Mittelung zu erleichtern, werden die binären Vorzeichen-Grössendarstellungen der einzelnen durch die Multipliziereinheit 56 erzeugten Autokorrelationsprodukte bei 61 in einen Zweier-Komplement-Code umgewandelt. Der die Mittelung bewirkende Akkumulationsprozess erfolgt durch ein 32-Wort-Schieberegister 63, welches mit einer Addiereinheit 65 verbunden ist und so einen Satz von 32 "Akkumulatoren" bildet. Auf diese Weise kann jedes Wort zirkuliert werden, nachdem zu ihm das entsprechende Inkrement der digitalen Multipliziereinheit addiert worden ist. Die Zirkulierschleife

- 12 -

709827/0770

Λ 42 145 b

»Τ £«*« ,»τ* « 2659Π96

läuft durch ein Tor 67, welches von einer mit der niederen Frequenz des Zeitgebers betriebenen Teilerschaltung 69 gesteuert v/ird. Der Teiler 69 teilt das niederfrequente Zeitgebersignal durch einen Faktor, der die Zahl von augenblicklichen Autokorrelationsfunktionen bestimmt, die akkumuliert oder gemittelt werden sollen, bis das Schieberegister 6 3 ausgelesen wird.

In dem bevorzugten Beispiel werden vor der Ablesung 1OO Werte akkumuliert. Mit anderen Worten, N für den durch N dividierenden Teiler ist 100. Wenn 100 Werte auf diese Weise transformiert und akkumuliert worden sind, dann triggert die Zeitschaltung 69 eine Computerunterbrecherschaltung 71. In diesem Zeitpunkt wird der Inhalt des Schieberegisters 6 3 über eine geeignete Anpass- oder Übertragungsschaltung 73 in den Speicher des Computers eingelesen, wobei die 32 Wörter des Registers nacheinander der übertragungsschaltung zugeführt werden. Wie für den Fachmann klar ist, kann das Einlesen der Daten typischerweise durch einen Prozess mit direktem Zugang zum Speicher erfolgen. Ausgehend von der Mittelung von 100 Werten und einer anfänglichen Erzeugungsrate von 10 000 Werten pro Sekunde ergibt sich, dass dem Computer in jeder Sekunde 100 gemittelte Autokorrelationsfunktionen zugeführt werden. Während der Inhalt des Schieberegisters in den Computer ausgelesen wird, ist das Tor 67 geschlossen, so dass jedes der Wörter in dem Schieberegister effektiv auf Null zurückgesetzt wird, so dass die Akkumulation von neuem beginnen kann.

Mathematisch kann die Operation der in Fig. 2 dargestellten Vorrichtung wie folgt beschrieben werden. Wenn man annimmt,

- 13 -

7098 27/0770

Λ 42 145 b u - 163

27, Dezember 1976 - 3Λ -

2ο 59096

dass der Analog-Digital-Konverter eine Zeitserie S(t), S(t-T), S(t-2T), ... erzeugt, dann kann man annehmen, dass die Korrelator schaltung der Fig. 2 die Autokorrelationsfunktion

berechnet.

Nach einem dem gesprochenen Wort entsprechenden Zeitintervall hat der Digitalkorrelator dem Computer eine Reihe von Datenblöcken übermittelt, die das gesprochene Wort darstellen. Wenn man annimmt, dass das interessierende Intervall in der Grössenordnung von einer Sekunde liegt, dann handelt es sich dabei um 100 Datcnblöckc, von denen jeder 32 Wörter mit je 24 bits aufweist. Jeder Datenblock stellt weiterhin eine aus einem entsprechenden Teilintervall des gesamten betrachteten Intervalls abgeleitete Autokorrelationsfunktion dar. In der beschriebenen Ausführungsform wird die Vieiterverarbeitung von diesem Punkt an durch einen geeignet programmierten digitalen Mehrzweckcomputer übernommen. Das die vom Computer durchgeführten Schritte beschreibende Flussdiagramm ist in Fig. 3 dargestellt. Es soll jedoch noch einmal darauf hingewiesen werden, dass verschiedene dieser Schritte ebensogut durch hardware wie durch software durchgeführt werden können, ebenso wie bestimmte von der Vorrichtung der Fig. 2 ausgeführte Funktionen zusätzlich in der software enthalten sein können, indem man das Flussdiagramm der Fig. 3 entsprechend abändert.

Obwohl der Digitalkorrelator der Fig. 2 eine gewisse Zeitmittelung der jeweils augenblicklich erzeugten Autokorrelations-

- 14 -

709827/0770

Λ	42 145 b	1976	- ΛΛ
U	- 163		21
27	. Dezember

funktionen durchführt, können die in den Computer eingelesenen Autokorrelationsfunktionen immer noch einige anomale Unstetigkeiten aufweisen, die einer ordnungsgemässen Weiterverarbeitung und Auswertung der Werte entgegenstehen. Aus diesem Grunde wird jeder Datenblock zuerst bezüglich der Zeit geglättet, d.h. bezüglich benachbarter die Funktion definierender Kanäle, welche später folgenden Zeitintervallen entsprechen. Das wird in dem Flussdiagramm der Fig. 3 bei 79 angedeutet. Der bevorzugte Glättungsprozess ist ein Zweipol-Faltungsverfahren bei welchem das geglättete Ausgangssignal τ*** (j ,t) gegeben ist durch den Ausdruck

Y₅[j i)*GΎ(j,V + C₁Y₁US-">°V-QXCj₁1-sooτ)

wobei j (j,t) die ungeglättete Eingangsautokorrelation und ^Y (j/t) die geglättete Ausgangsautokorrelation für den j-ten Zeitverzögerungswert darstellen; t bezeichnet die Echtzeit; T bezeichnet das Zeitintervall zwischen aufeinanderfolgend erzeugten Autokorrelationsfunktionen (T = 0,01 Sekunden in dem bevorzugten Ausführungsbeispiel).

Die Konstanten C_Q, C₁, C sind derart gewählt, dass die Glättungsfunktion einen annähernd Gauss-förmigen Impuls mit einer Abschneidefrequenz von etwa 20 Hz ergibt. Wie angedeutet, wird diese Glättungsfunktion getrennt für jede Verzögerung j angewendet. Wie bei 81 angedeutet, wird dann jede Autokorrelationsfunktion einer Kosinus-Fourier-Transformation unterzogen, so dass sich ein 32-Punkte-Energiespektrum ergibt. Das Spektrum ist durch den folgenden Ausdruck definiert:

- 15 -

709827/0770

A 42 145 b

u - 163

27. Dezember 1976 -

2659Q96 JtS

Jeder Punkt oder Wert innerhalb dieses Spektrums stellt ein entsprechendes Frequenzband dar. Man kann diese Fourier-Transformation vollständig innerhalb der konventionellen Computer-hardware durchführen, das Verfahren wird jedoch wesentlich beschleunigt, wenn man eine externe hardware-Multipliziereinheit oder eine periphere Sehne11-Fourier-Transformationsvorrichtung benutzt. Aufbau und Betriebsweise derartiger Einheiten sind bekannt und werden daher in diesem Zusammenhang nicht ausführlich beschrieben. Nach der Durchführung der Kosinus-Fourier-Transformation wird jedes der sich ergebenden Energiespektren bei 83 mittels eines Hamming-Fensters geglättet. Wie dargestellt, werden diese Funktionen bei jedem Datenblock durchgeführt, und das Programm führt Schleifen aus, wie dies bei 85 dargestellt ist, bis das gesamte Wortintervall, etwa eine Sekunde, vollendet ist.

Während die nacheinanderfolgenden, das Wortintervall darstellenden Energiespektren durch die Schritte 79 bis 85 umfassende Schleife verarbeitet werden, wird die innerhalb jedes Frequenzbandes auftretende höchste Amplitude festgehalten. Zunächst wird bei 87 die Spitzenamplitude, die innerhalb des gesamten Wortes auftritt, herausgesucht oder aufgefunden. Beginnend am Wortanfang (Schritt 88) wird dann eine Schleife durchlaufen, welche die Schritte 89 bis 91 umfasst und die Spitzenwerte innerhalb jedes Frequenzbandes feststellt und die entsprechenden Werte festhält. Am Ende eines Wortintervalles bilden die Spitzenwerte ein Spitzenspektrum. Das Spitzenspektrum wird dann dadurch geglättet, dass man jeden Spitzenwert mit den Werten mittelt, die den benachbarten Frequenzen entsprechen, wobei die Breite des Frequenz-

- 16 -

709827/0770

A 42 14b t»

u - 163

27. Dezember 1976

•ep

bandes, welches zu der Mittelung beiträgt, etwa gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist. Dieser Schritt ist bei 9 3 angedeutet. Für Fachleute der Spracherkennung ist ersichtlich, dass dieser Abstand in der Grössenordnung von 1000 Hz liegt. Wenn man in dieser speziellen Weise mittelt, dann wird die nutzbare Information in den Spektren, d.h. die lokalen Variationen der Formantfreauenzen, unterdrückt, während eine Insgesamt- oder Bruttobetonung im Frequenzspektrum erhalten bleibt. Die im Schritt 87 bestimmte Spitzenamplitude wird dann dazu verwendet, um die Spitzenamplitude des geglätteten Spitzenspektrums auf den gleichen Wert wie im Originalspitzenspektrum zu bringen. Dieser Schritt ist mit 9 4 bezeichnet und wird durchgeführt, um eine maximale Ausnützung des dynamischen Bereichs des Systems zu ermöglichen.

Nach der Bestimmung des geglätteten Spitzenamplitudenspektrums werden die aufeinanderfolgenden individuellen, das eingehende Audio-Signal darstellenden Spektren frequenzkompensiert, indem man den Amplitudenwert für jedes Frequenzband innerhalb jedes Spektrums durch den entsprechenden Wert des geglätteten Spitzenspektrums dividiert. Dieser Schritt ist bei 99 angedeutet und bildet einen Teil einer Schleife, die das gesamte Wort verarbeitet und die Schritte 98 bis 102 umfasst. Man erzeugt damit eine Folge von frequenzegalisierten Spektren, die Änderungen im Frequenzinhalt des eingehenden Audio-Signales betonen, während sie allgemeine Frequenzbetonungen oder Verzerrungen unterdrücken. Es hat sich herausgestellt, dass dieses Verfahren zur Frequenzkompensation bei der Erkennung von über Telefonleitungen übermittelten Sprachsignalen äusserst vorteilhaft ist gegenüber den gebräuchlicheren

- 17 -

709827/0770

Λ 42 145 b

u - 163

27. Dezember 1976 Jft

Systemen der Frequenzkompensation, bei welcher als Bas. '°r Kompensation der Dutchschnittswert entweder des gesamten Signals oder des entsprechenden Frequenzbandes genommen wird.

An dieser Stelle soll darauf hingewiesen werden, dass die aufeinanderfolgenden Spektren zwar auf verschiedene Weise bearbeitet und egalisiert worden sind, dass aber die Daten, die das gesprochene Wort repräsentieren, immer noch etwa 100 Spektren umfassen, wobei jedes Spektrum in einer Weise normalisiert und frequenzkompensiert ist, dass Verschiebungen der individuellen Formantfrequenzen von einem Spektrum zum anderen betont werden.

Wie bei verschiedenen bekannten Systemen verwendet das erfindungsgemässe Spracherkennungsverfahren die Muster und die Änderungen der Muster der Formantfrequenzen, um Wörter in seinem Vokabular zu erkennen. Um die Erkennung der Verschiebungen der Formantfrequenzmuster auch dann zu erkennen, wenn die Sprachgeschwindigkeit verändert wi bildet das erfindungsgemässe Verfahren einen Paramter, den man als Mass für die subjektive Zeit ansehen kann. In dem vorliegenden System wird ein diesem ^rarameter entsprechender Wert auf relativ einfache Weise dadurch erzeugt, dass man die Absolutwerte der Amplitudenänderung jedes Frequenzbandes von einem aufeinanderfolgenden Spektrum zum nächsten sammelt oder addiert und daß man weiterhin über alle Frequenzbänder summiert. Wenn man das Spektrum, das aus Werten für 32 Frequenzbänder besteht, als einen Vektor mit 32 Dimensionen auffasst , dann kann man die Bewegung der Spitze dieses Vektors

einen. von einem Spektrum zum nächsten als / Teil einer Bogenlänge

- 18 -

709827/077 0

A 42 145 b

u - 163

27. Dezember 1976

betrachten. Die Summe der Änderungen in den verschiedenen Dimensionen ist fernerhin eine für diesen Zweck ausreichend genaue Darstellung der Bogenlänge. Indem man die Boaenlängenteilstücke über das gesamte Wortintervall addiert, erhält man eine Summenbogenlänge. Wenn der Sprecher ein Phonem bei seiner Aussprache dehnt, dann wird der Zuwachs der Bogenlänge nur sehr langsam Erfolgen, während er schnell erfolgen wird, wenn die Sprechgeschwindigkeit beschleunigt wird. Der Akkumulationsprozess ist in Fig. 3 bei 101 dargestellt.

Vor dieser letzten Summierung werden die Beiträge der verschiedenen Frequenzbänder vorzugsweise gewichtet, so dass die phonetisch wichtigeren Frequenzen eine grössere Wirkung entfalten. Mit anderen Worten wird die Grosse der Amplitudenänderung in jedem Frequenzband zwischen zwei aufeinanderfolgenden ausgewerteten Spektren mit einem konstanten Gewichtsfaktor multipliziert, der diesem Frequenzband zugeordnet ist. Die gewichteten Grossen der Amplitudenänderungen werden dann über alle Frequenzbänder aufsummiert und ergeben den Zuwachs an subjektiver Zeit, die zwischen den beiden Spektren vergangen ist.

Änderungen im Frequenzbereich, der üblicherweise von den drei untersten Formantresonanzen des Wortzuges eingenommen wird, haben sich für die Korrektur der Sprachgeschwindigkeit als wesentlich wertvoller herausgestellt als Änderungen bei höheren Frequenzen. Tatsächlich sind die relativen Beiträge bei Frequenzen oberhalb von 2500 Hz so gering, dass die Gewichtsfaktoren in diesen Frequenzbändern zu Null gemacht werden können, ohne dass man statistisch bedeutsame Auswirkkungen auf die.Ergebnisse findet.

- 19 -

709827/0770

A 42 145 b

u - 163

27. Dezember 1976 -

Eine Tabelle von Gewichtsfaktoren ist unten angegeben, wobei die Gewichtsfaktoren für das bevorzugte Ausführungsbeispiel
bei einer speziellen praktischen Anwendung der Methode optiraalisiert sind. Die angegebenen Werte sollen nicht beschränkend wirken, optimale Werte können von den Besonderheiten der verwendeten Spektrum-Analysenmethode, von dem zu erkennenden Vokabular sowie vom Geschlecht und Alter des Sprechers abhängen. Diese Werte stellen jedoch einen Versuch dar, einen
besten Kompromiss für eine sprecher-unabhängige Erkennung
eines üblichen englischen Vokabulars zu finden.

Tabelle von Gewichtsfaktoren für die Subjektivzeitberechnung

Frequenzbandmxtte, Hz	Relativer Wichtungs faktor
O	0,254
159	0,261
317	0,736
476	1,000
635	0,637
79 4	0,377
952	0,240
1111	0,264
1270	0,377
1429	0,470
1587	0,381
1746	0,254
1905	0,181
206 3	0,079
2222	0,025
2381	0,002

- 20 -

709827/0770

A 42 145 b

u - 163

27. Dezember 1976 - 3€Γ -

Sobald man den Wert oder Paramter für die gesamte Bogenlänge erhalten hat, wird dieser in 12 gleiche Teile eingeteilt. Für jeden dieser Teile wird ein ein repräsentatives Spektrum darstellender Datenblock ausgewählt, wie dies bei 105 dargestellt ist. Auf diese Weise wird die Zahl der Spektren, die zur Darstellung des Probenintervalls benötigt werden, um einen Faktor von etwa 8 reduziert. Es ist jedoch darauf hinzuweisen, dass infolge der sogenannten Subjektivzeitbestimmung dies nicht der Auswahl einer Probe oder eines Beispiels aus 8 berechneten Spektren äquivalent ist. Die ursprüngliche Probenrate oder Aufnahmegeschwindigkeit ist bezüglich der absoluten Zeit konstant, während die ausgewählten Proben bezüglich der Subjektivzeit einen gleichen Abstand aufweisen, d.h. bezüglich der entsprechend der oben beschriebenen Methode bestimmten Zeit.

Entweder direkt vor oder direkt nach diesem Auswahlprozess werden die Spektren einer Amplitudentransformation unterzogen, die bei 107 dargestellt ist und die eine nicht-lineare Anpassung und Veränderung bewirkt. Nimmt man an, die individuellen Spektren seien mit S(f,t) bezeichnet, wobei f die verschiedenen Frequenzbänder und t die Echtzeit beschreiben, dann wird das nicht-linear angepasste Spektrum S (f,t) durch die lineare Bruchfunktion

angegeben, wobei A der Durchschnittswert des wie folgt bestimmten Spektrums ist:

- 21 -

709827/0770

A 42 145 b

u - 163 Si

27. Dezember 1976 - 2Ί"-

A-

JL

Diese Anpassung erzeugt einen weichen Schwelleneffekt oder einen allmählichen Sättigun_y-seffekt für Spektralintensitäten, die stark von dem Kurzzeitdurchschnitt A abweichen. Für Intensitäten, die dem Durchschnittswert näherliegen, ist die Funktion annähernd linear. Vom Durchschnittswert entfernt ist sie annähernd logarithmisch und bei Extremwerten ist sie nahezu konstant. In einem logarithmischen Maßstab ist die Funktion S (f,t) symmetrisch zum Nullpunkt und zeigt ein Schwellen- und Sättigungsverhalten, welches an die Impulsabgabefunktion eines Gehörnervs erinnert. In der Praxis arbeitet das Erkennungssystem mit dieser besonderen nicht-linearen Anpassungsfunktion wesentlich besser als mit einer linearen oder logarithmischen Anpassung der Spektralamplituden.

Eine lineare Matrixoperation wandelt daraufhin das egalisierte Spektrum in einen Satz von Koeffizie .ten um, wobei phonetische Eigenheiten der bearbeiteten Sprache vergrössert werden, Symbolisch lässt sich das durch Koeffizienten p.. darstellen, die auf das Spektrum wirken, so dass sich numerische Werte für einen Satz von Eigenschaftsdaten x., ergeben:

32
x.(t)". = >- P_n SCj.t). (1)

¹ j=i ^J

Die Koeffizienten werden aus einer Mustersammlung von eingegebenen, zu erkennenden Wortsignalen bestimmt, so dass der Durchschnittswert von x. ein Minimum ergibt, wenn das Eingangs-

- 22 -

709827/0770

A 42 145 b

J«

signal in der i-ten phonetischen Klasse liegt, während x. so gross wie möglich ist, wenn das Eingangssignal zu einer anderen als der i-ten Klasse gehört. Die Koeffizienten ρ.., die das eine oder das andere dieser beiden Kriterien am besten erfüllen, kann man durch Analyse von Beispielen bekannter Spracheingangswellenformen bestimmen, indem man bekannte statistische Techniken der linearen Systemtheorie, der multidimensionalen Transformationstheorie oder die Faktoranalyse einsetzt.

Zum Zwecke der Bestimmung der Transformationskoeffizienten p.. wird eine "phonetische Klasse" derart definiert, dass sie jeden Ton oder Laut enthält, der in einer der durchnumerierten, ausgewählten Proben eines bestimmten Wortes des zu erkennenden Vokabulars auftritt. Obwohl nominell das gleiche Phonem in verschiedenen Worten oder in verschiedenen Silben desselben Wortes auftreten kann, können die akustischen Eigenschaften des Lautes oder Tones oft sogar wesentlich verändert werden durch die benachbarten phonetischen Teile; die hier verwendeten phonetischen Klassen sind daher umgebungsspezifisch.

Man kann diese auf der phonetischen Nachbarschaft beruhenden Abweichungen nutzbar machen, indem man eine erhöhte Anzahl von Lineartransformations-Koeffizienten p.. gleichzeitig auf zwei oder mehr nacheinander ausgewählte Spektren wirken lässt. Dieses abwechselnde Verfahren ist zwar komplizierter, es unterscheidet aber Silben wesentlich verlässlicher als die phonetische Transformation Phoneme differenzieren kann.

Die ausgewählten, transformierten Daten

χ = [ X₁(C₁^, i = 1.....32; k = I₁ ... ,12 ] (2)

- 23 -

7098 2 7/0770

A 42 145 b

»:£.*„ »76 -*r- 2659Π96

werden schliesslich als Eingangssignale für eine statistische Wahrscheinlichkeitsrechnung verwendet, die bei 131 angedeutet ist. Diese Einheit berechnet ein Mass für die Wahrscheinlichkeit, dass das unbekannte Eingangssprachsignal einem der Referenzwörter im Vokabular des Rechners entspricht. Typischerweise hat jeder Wert ^ (t, ) eine leicht schiefe Wahrscheinlichkeitsdichte, wird aber trotzdem statistisch durch eine Normalverteilung mit einem mittleren Wert M!(i,k) und einer Abweichung [s(i,k)J gut angenähert. Die einfachste Ausführungsform des Verfahrens nimmt an, dass die verschiedenen Werten von i und k zugeordneten Werte unkorreliert sind, so dass die kombinierte Wahrscheinlichkeitsdichte für alle Daten x, die das einem gesprochenen Wort entsprechende Eingangssignal enthalten sich folgendermassen darstellt (logarithmisch)

In p(x) = -]> In

k)

(3

Da der Logarithmus eine monotone Funktion ist, ist diese Statistik zur Bestimmung, ob die Wahrscheinlichkeit einer Übereinstimmung mit einem Wort des Vokabulars grosser oder kleiner ist als die Wahrscheinlichkeit der Übereinstimmung mit einem anderen Wort des Vokabulars, ausreichend. Jedes Wort im Vokabular hat seinen eigenen Satz statistischer Bezugsparameter m(i,k), s(i,k). Jeder dieser Parametersätze wird mit dem Datensatz verglichen, bis das Eingganssprachsignal mit allen Wörtern des Vokabulars verglichen ist. Die

- 24 -

709827/0770

A 42 145 b

;: iL³ 1976

sich ergebende statistische Aufstellung reiht die verschiedenen Wörter des Vokabulars entsprechend der relativen Wahrscheinlichkeit ihrer Übereinstimmung auf.

Wie für den Fachmann ersichtlich, bildet dieses Aufreihen die Spracherkennung insoweit, als sie an einzelnen Wortproben durchgeführt werden kann. Dieses Aufreihen kann auf verschiedene Weise entsprechend der letztlich durchzuführenden Funktion in Gesamtsystemen verwendet werden. Bei bestimmten Systemen, z.B. bei Systemen, bei denen die Daten telefonisch eingegeben werden, kann eine erste Auswahl nach dem Versuchssystem (trial and error system) vollkommen ausreichend sein. Bei anderen kann es erwünscht sein, Kenntnisse über Textzusammenhänge oder Regeln zu verwenden, um die Genauigkeit zur Erkennung ganzer Sätze zu verbessern. Derartige Modifikationen gehen jedoch über den Rahmen der vorliegenden Erfindung hinaus und werden daher nicht eingehend behandelt.

Wie bereits ausgeführt, ist ein bevorzugtes Ausführungsbeispiel der Erfindung gebaut worden. Die Bearbeitung der Signale und Daten erfolgte dabei, soweit dies nicht in dem in Fig. 2 dargestellten Vorprozessor durchgeführt wurde, auf einem Computer der Firma Digital Equipment Corporation mit der Bezeichnung PDP 11.

Es wird noch darauf hingewiesen, dass die Beschreibung bevorzugter Ausfuhrungsformen der Erfindung den Rahmen der Erfindung nicht beschränken soll, diese Beschreibung ist nur zur Erläuterung gedacht.

- 25 -

709827/0770

Claims

Patentansprüche:

Verfahren zur Sprachanalyse, bei dem das Spektrum eines Audio-Signales analysiert wird, um das Verhalten der Formantresonanzen während eines Zeitintervalls zu bestimmen, gekennzeichnet durch eine Frequenzkompensation, welche die folgenden Schritte umfasst:

man bestimmt in dem Zeitintervall wiederholt einen Satz von Parametern, die das Spektrum des Audio-Signales in einem Teilintervall des Zeitintervalls bestimmen, und erzeugt dadurch eine Folge von Spektren,

man bestimmt für jeden Parameter in dem Satz den im Intervall auftretenden Maximalwert, wobei der Satz der dadurch bestimmten Maximalwerte einem Spitzenspektrum des Intervalls entspricht,

man glättet das Spitzenspektrum, indem man einen Mittelwert eines Spitzenwertes mit den Spitzenwerten anderer Frequenzen bildet, wobei die Breite des bei der Mittelung mitwirkenden Frequenzbandes annähernd gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist,

man dividiert in jedem Spektrum der Folge von Spektren den Wert jedes Paramters des Satzes durch den entsprechenden Wert des geglätteten Spitzenspektrums und

26 -

ORIGINAL INSPECTED

709827/0770

man erzeugt dadurch in dem Zeitintervall eine Folge von egalisierten Spektren, die dem egalisierten Energieinhalt des Audio-Signals in allen im Spektrum enthaltenen Frequenzbändern entspricht.
2. Verfahren zur Sprachanalyse, bei dem ein Audio-Signal in einem einem gesprochenen Wort entsprechenden Intervall analysiert wird, um das Verhalten der Formantresonanzen in Bezug auf eine Folge von ein vorgewähltes Wort darstellenden Bezugsvektoren zu bestimmen, gekennzeichnet durch eine Methode zur Auswahl von Mess- oder Vergleichspunkten innerhalb des Intervalles, welches die folgenden Schritte umfasst:

man bestimmt in diesem Intervall einen Satz von Parametern, der dem Energiespektrum des Signales zu der bestimmten Zeit entspricht, wobei jeder Satz von Werten als Vektor mit Koordinaten darstellbar ist, die den Parametern entsprechen,

man summiert über den ganzen Satz von Parametern die Grosse der Änderung, die sich zwischen aufeinanderfolgenden Bestimmungen jedes Parameters ergeben und erhält damit einen Wert, der dem Bogenlängenteilschritt entspricht, den der vielkoordinatige Vektor in einem Teilintervall zwischen aufeinanderfolgenden Bestimmungen durchläuft,

man summiert die Bogenlängenteilschritte über aufeinanderfolgende Teilintervalle und erhält dabei

- 27 -

709827/07 7 0

eine Folge von Summenbogenlängen in dem gesamten Intervall sowie eine Gesamtbogenlänge für das Intervall,

man teilt die Gesamtbogenlänge in gleichlange Teilstücke, deren Zahl der Anzahl der Folge von Referenzvektoren entspricht, und

man wählt für jedes Teilstück einen Satz von Parameterwerten aus, die innerhalb des Teilstückes einen repräsentativen Vektor beschreiben und vergleicht diesen Satz von Parameterwerten mit dem ausgewählten Satz von Parameterwerten, die den entsprechenden Referenz- und Erkennungsvektor bestimmen, wobei die derart durchgeführten Vergleiche die Übereinstimmung des Audio-Signals mit dem dem Referenz- oder Erkennungsvektor entsprechenden Wort ergeben.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Grossen der zwischen aufeinanderfolgenden Bestimmungen des Parameters sich ergebenden Änderungen vor der Aufsummierung mit einem jeweils vorbestimmten Gewichtsfaktor multipliziert werden, um dadurch die Bedeutung bestimmter Parameteränderungen hervorzuheben und die Bedeutung bestimmter anderer Parameter abzuschwächen.
4. Verfahren nach einem der Ansprüche 2 oder 3, dadurch gekennzeichnet, dass man zur Erzeugung eines Satzes von Parametern, die dem Energiespektrum des Frequenzsignals

- 28 -

709827/0770

zu einer bestimmten Zeit entsprechen, wie folgt vorgeht:

man bestimmt in dem Gesamtintervall wiederholt einen Satz von Parametern, die das Spektrum des Audio-Signals in einem Teilintervall des Zeitintervalls bestimmen, und erzeugt dadurch eine Folge von Spektren,

man bestimmt für jeden Parameter in dem Satz den im Intervall auftretenden Maximalwert, wobei der Satz der dadurch bestimmten Maximalwerte einem Spitzenspektrum des Intervalls entspricht,

man glättet das Spitzenspektrum, indem man einen Mittelwert eines Spitzenwertes mit den Spitzenwerten anderer Frequenzen bildet, wobei die Breite des bei der Mittelung mitwirkenden Frequenzbandes annähernd gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist,

man dividiert in jedem Spektrum der Folge von Spektren den Wert jedes Parameters des Satzes durch den entsprechenden Wert des geglätteten Spitzenspektrums und man erzeugt dadurch in dem Zeitintervall eine Folge von egalisierten Spektren, die dem egalisierten Energieinhalt des Audio-Signals in allen im Spektrum enthaltenen Frequenzbändern entspricht, wobei jeder Satz von egalisierten Parametern als Vektor darstellbar ist, dessen Koordinaten den Parametern entsprechen.

- 29 -

709827/0770
5. Verfahren zur Sprachanalyse, gekennzeichnet durch eine Methode zur Erhöhung des Informationsgehaltes eines Spektrums eines Sprache darstellenden Audio-Signales, welches die folgenden Schritte umfasst:

man erzeugt einen Satz von Werten S(f), die dem Energiespektrum des Signals entsprechen, wobei jeder Wert die Energie in einem korrespondierenden Frequenzband f darstellt,

man erzeugt einen Wert A, der dem Durchschnitt dieses Satzes von N Werten entspricht, wobei

N
A - fi ^T^ S(JFo)

und F die Breite jedes Frequenzbandes darstellt,

und man erzeugt für jeden Wert dieses Satzes mit Hilfe der Entlinearisierungsbeziehung

S (f) - A

^S S (f) +A
entsprechende Werte S (f).
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass man aus dem Satz von egalisierten Parametern S(f), die das egalisierte Spektrum darstellen, einen Wert A bildet, der dem Durchschnitt dieses Satzes von N Werten entspricht wobei

- 30 -

709827/0770

und F die Breite jedes Frequenzbandes darstellt,

und daß man für jeden Wert dieses Satzes mit Hilfe der Entlinearisierungsbeziehung

S (f) - Λ
S₃ (f) - ——

S (f) + A
einen entsprechenden Wert S (f) erzeugt.
7. Verfahren zur Sprachanalyse, gekennzeichnet durch ein Verfahren zum Vergleich des Spektrums eines die Sprache darstellenden Audio-Signales mit einem Vektor von Erkennungskoeffizienten la., b., c J , das folgende Schritte umfasst:

man bildet einen Satz von Werten S(f), die dem Energiespektrum des Signales entsprechen, wobei jeder Wert die Energie in dem korrespondierenden Frequenzband f beschreibt;

man bildet aus diesen Werten einen Satz lineartransformierter Werte L,, wobei

Pjk S (jFo); k=l, . . . , M;

und wobei die konstanten Koeffizienten pjk nicht vom Sprachmuster abhängen, das von den Koeffizien-

- 31 -

709827/0770

ten f a., b., c j dargestellt wird, und man bildet einen numerischen Vergleichswert K, wobei

X = C+ ^ b_L (L₁ -. a_±)

welcher Wert X die Übereinstimmung zwischen dem Audio-Signal und dem durch die Erkennungs- oder Bezugskoeffizienten dargestellten Wort angibt.
8. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass man aus den Werten S (f) einen Satz linear transformier

ter Werte L, bildet, wobei

(JFo); k=l,..., M;

und daß man einen numerischen Vergleichswert X bildet, wobei · _M

welcher Wert X die Übereinstimmung zwischen dem Audio-Signal und dem durch die Erkennungs- oder Referenzkoeffizienten dargestellten Wort angibt.
9. Verfahren nach Anspruch 8, gekennzeichnet durch die folgenden Schritte:

- 32 -

709827/077

man bestimmt in dem wenigstens einem gesprochenen Wort entsprechenden Zeitintervall einen Satz von Parametern S(f) , wobei jeder Satz von Werten als Vektor mit Komponenten darstellbar ist, die den Parametern entsprechen,

man summiert über den gesamten Satz von Parametern die Grosse der Änderung, die sich zwischen aufeinanderfolgenden Bestimmungen jedes Parameters ergeben, und erhält damit einen Wert, der dem Bogenlängenteils tück entspricht, das der vielkomponentige Vektor in diesem Teilstück zwischen aufeinanderfolgenden Bestimmungen durchläuft,

man summiert die Bogenlängenteilstücke über aufeinanderfolgende Teilintervalle und erhält dabei eine Folge von Summenbogenlängen in dem gesamten Intervall sowie eine Gesamtbogenlänge für das Intervall,

man teilt die Gesamtbogenlänge in gleichlange Teilstücke, deren Zahl der Anzahl der Folgen von Referenzvektoren entspricht,

und man wählt für jedes Teilstück einen Satz von Parameterwerten S(f) aus, die innerhalb des Teilstückes einen repräsentativen Vektor beschreiben und vergleicht diesen Satz von Parameterwerten mit dem ausgewählten Satz von Parameterwerten, die den entsprechenden Referenz- oder Erkennungsvektor be-

- 33 -

709827/0770

stimmen, wobei die Summe der Vergleichswerte X ein Mass für die Übereinstimmung zwischen dem Audio-Signal und den dem Wort entsprechenden Erkennungsoder Referenzvektoren angeben.
10. Verfahren nach einem der Ansprüche 8 oder 9, gekennzeichnet durch die Schritte:

man bestimmt in einem mindestens einem gesprochenen Wort entsprechenden Zeitintervall wiederholt einen Satz von Werten S„(f) ,

man bestimmt für jeden Parameter in dem Satz den im Intervall auftretenden Maximalwert, wobei der Satz der dadurch bestimmten Maximalwerte einem Spitzenspektrum des Intervalls entspricht,

man glättet das Spitzenspektrum, indem man einen Mittelwert eines Spitzenwertes mit den Spitzenwerten anderer Frequenzen bildet, wobei die Breite des bei der Mittelung mitwirkenden Frequenzbandes annähernd gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist,

man dividiert in jedem Satz SJf) den Wert jedes Parameters des Satzes durch den entsprechenden Wert des geglätteten Spitzenspektrums und

man erzeugt dadurch in dem Zeitintervall einen Satz S(f) bzw. S¹ (f)

- 34 -

709827/0770

von egalisierten Spektren, die dem egalisierten Energieinhalt des Audio-Signales in dem genannten Zeitintervall entspricht.

709827/07 7 0