DE2825110A1

DE2825110A1 - Verfahren zur erkennung kontinuierlicher sprachsignale

Info

Publication number: DE2825110A1
Application number: DE19782825110
Authority: DE
Inventors: Stephen L Moshier
Original assignee: Dialog Systems Inc
Current assignee: Dialog Systems Inc
Priority date: 1978-04-27
Filing date: 1978-06-08
Publication date: 1979-11-08
Also published as: US4227177A; CA1172363A

Description

DR.-ING. DIPL.-INS. M. SC. D¹PL. PHYO. O.I. DIpI PHYS.

HÖGER - STELLRECHT - &R!£SS3ACH - HAECKER

PATENTANWÄLTE IN STUTTGART

A 42 891 b Anmelder: DIALOG SYSTEMS, INC.

u - 163 32 Locust Street,

ö.Juni 1978 Belmont, Massachusetts 02178.

USA

Beschreibung Verfahren zur Erkennung kontinuierlicher Sprachsignale

Die Erfindung betrifft ein Verfahren zur Erkennung von einem oder mehreren Schlüsselwörtern in einem kontinuierlichen Audio-Signal .

Verschiedene Spracherkennungssysteme sind bisher vorgeschlagen worden, mit denen isolierte Laute dadurch erkannt werden, dass ein unbekanntes isoliertes Audio-Signal nach einer geeigneten Verarbeitung mit einem oder mehreren vorher aufbereiteten Darstellungen des bekannten Schlüsselworts verglichen werden. In diesem Zusammenhang soll der Ausdruck "Schlüsselwort" sowohl eine verbundene Gruppe von Phonemen oder Tönen umfassen als auch beispielsweise einen Teil einer Silbe, eines Wortes, einer Phrase etc. Während viele Systeme einen begrenzten Erfolg erreichen konnten, ist insbesondere ein System mit Erfolg kommerziell zur Erkennung von isolierten Schlüsselwörtern verwendet worden. Dieses System arbeitet im wesentlichen nach dem im US-Patent 4 038 503 derselben Anmelderin (erteilt am 26.JuIi 1977) beschriebenen Verfahren. Dieses Verfahren liefert eine erfolgreiche Methode zur Erkennung eines Wortes aus einem beschränkten Schlüsselwortvokabulars, wobei die Voraussetzung gilt, dass die Begrenzungen der unbekannten Audio-Signaldaten entweder Ruhe oder Hintergrundrauschen sind, welche von dem Erkennungssystem festgestellt v/erden können.

90984 5/059*

A 42 891 b

Dieses System baut auf der Annahme auf, dass das Intervall, in welchem das unbekannte Audio-Signal auftritt, genau definiert ist und eine einzige Äusserung enthält.

Bei einem kontinuierlichen Audio-Signal, beispielsweise bei einem kontinuierlichen Konversationssignal, bei welchem die Grenzen der Schlüsselwörter nicht von vorneherein bekannt und markiert sind, ist von verschiedenen Methoden vorgeschlagen worden, die auftretenden Audiodaten in Segmente zu teilen, d.h. die Grenzen der Spracheinheiten, also der Phoneme, Silben, Wörter, Sätze etc. , zu bestimmen, ehe der Erkennungsprozess eingeleitet wird. Diese früheren Erkennungssysteme für kontinuierliche Sprache haben jedoch nur einen begrenzten Erfolg gehabt, insbesondere da ein zufriedenstellendes Verfahren zur Segmentierung nicht gefunden werden konnte. Auch andere wesentliche Probleme sind noch ungelöst. Beispielsweise kann nur ein begrenztes Vokabular erkannt werden, wenn eine niedrige Fehlerkennungsrate gewünscht wird. Die Erkennung ist ausserordentlich empfindlich in Bezug auf Unterschiede in den Sprachcharakteristiken verschiedener Sprecher. Ausserdem sind die Verfahren gegenüber Verzerrungen des Audio-Signals hochempfindlich, wie sie beispielsweise in Audio-Signalen auftreten, die über eine gewöhnliche Telefonleitung übertragen werden. Obwohl der menschliche Hörer die kontinuierlichen Sprachsignale leicht erkennen und verstehen kann, hat bei einer maschinellen Erkennung selbst eines begrenzten Schlüsselwortvokabulars bei kontinuierlichen Sprachsignalen der entscheidende Durchbruch erst noch zu erfolgen.

Im übrigen wird der Vollständigkeit halber darauf hingewiesen, daß ein isoliertes Wort ein Aspekt eines kontinuierlichen Sprachsignals darstellt.

909845/0594

A 42 391 b ?Q9C1in

u - 163 ZoZO I I U

6.Juni 1978 - 12 -

Ein Spracherkennungssystem, mit welchem man wirksam Schlüsselwörter in einem kontinuierlichen Sprachsignal erkennen kann, ist in der gleichzeitig eingereichten Patentanmeldung P derselben Anmelderin (Verfahren zur Spracherkennung) beschrieben. Dieses Verfahren verwendet eine Methode, bei v/elcher jedes Schlüsselwort durch eine Schablone charakterisiert wird, die aus einer geordneten Folge eines oder mehrerer Zielmuster besteht, wobei jedes Zielmuster eine Vielzahl von Kurzzeit-Schlüsselwort-Energiespektren aufweist, die zeitlich im Abstand auftreten. Zusammen decken die Zielmuster alle wichtigen akustischen Ereignisse in dem Schlüsselwort ab. In dem in der parallelen Anmeldung P beschriebenen Verfahren wird eine Frequenzanalysenmethode beschrieben, bei welcher wiederholt Parametersätze gebildet werden, die ein Kurzzeit-Energiespektrum des Audio-Signals in jedem Probenabschnitt einer Vielzahl von gleichlangen Probenabschnitten beschreibt. Man erhält dabei also eine kontinuierliche, zeitlich geordnete Folge von Kurzzeit-Audio-Energiespektrenabschnitten. Aus diesen Kurzzeit-Energiespektrenabschnitten wählt man wiederholt einen ersten und mindestens einen später auftretenden Abschnitt aus und bildet aus diesem einen Mustersatz. Gemäss dem in der Parallelanmeldung beschriebenen Verfahren vergleicht man, vorzugsweise unter Verwendung einer Wahrscheinlichkeitsstatistik, jeden dieser in der beschriebenen Weise gebildeten Mustersätze mit jedem ersten Zielmuster jeder Schlüsselwortschablone. Man entscheidet dann, ob jeder Mustersatz einem ersten Zielmuster der Schlüsselwortschablonen entspricht. Für jeden Mustersatz, der sich bei diesem Vergleich als dem ersten Zielmuster eines potentiellen Kandidaten-Schlüsselworts entsprechend herausstellt, werden später auf-

909845/0594

A 42 891 b

6.Juni 1978 - 13 -

tretende Spektrenabschnitte ausgewählt und aus ihnen später auftretende Mustersätze aufgebaut. In ähnlicher Weise wird dann verglichen, ob die später auftretenden Mustersätze später auftretenden Zielmustern des potentiellen Kandidaten-Schlüsselwortes entsprechen. Ein Kandidaten-Schlüsselwort wird dann als erkannt identifiziert, wenn eine ausgewählte Folge von Mustersätzen den Zielmustern einer Schlüsselwortschablone entspricht.

Dieses in der Parallelanmeldung beschriebene Verfahren arbeitet bei der Erkennung von Schlüsselwörtern in kontinuierlichen Sprachsignalen erheblich besser als bekannte Systeme, jedoch sind auch bei diesem Verfahren v/eitere Verbesserungen möglich.

Der Erfindung liegt die Aufgabe zugrunde, das in der Parallelanmeldung beschriebene Spracherkennungsverfahren weiter zu verbessern, um eine erhöhte Treffsicherheit zu erzielen. Das Verfahren soll relativ unempfindlich gegenüber Phasen- und Amplitudenverzerrungen des unbekannten Audio-Eingangssignals sein und relativ unempfindlich gegenüber Variationen in der Sprechgeschwindigkeit des unbekannten Audio-Eingangssignals. Sie soll Sprachsignale verschiedener Sprecher und damit mit verschiedenen Sprachcharakteristiken gleich gut erkennen und im Echtzeitbetrieb arbeiten. Um die Durchführung des Spracherkennungs verfahr ens zu erleichtern, soll im Rahmen des erfindungsgemässen Verfahrens auch die Dimension der unbekannten Eingangssignale erniedrigt werden.

Diese Aufgabe wird erfindungsgemäss durch die in den Ansprüchen beschriebenen Verfahren gelöst.

90884 5/0 594

A 42 891 b

6.Juni 1978 14 -

Bei dem erfindungsgemässen, sich auf die Erkennung mindestens eines vorbekannten Schlüsselwortes in einem Audio-Eingangssignal beziehende Verfahren ist jedes Schlüsselwort durch eine Schablone gekennzeichnet, die aus einer geordneten Folge von einem oder mehreren Zielmustern besteht. Jedes Zielmuster umfasst mindestens ein Kurzzeit-Schlüsselwort-Energiespektrum. Zusammen decken die Zielmuster alle wichtigen akustischen Ereignisse im Schlüsselwort ab. Gemäss der Erfindung wird eine Frequenzanalysenmethode durchgeführt, bei welcher wiederholt ein Parametersatz bestimmt wird, der in jedem einer Anzahl von gleichlangen Probenintervallen ein Kurzzeit-Energiespektrum des Audio-Signals beschreibt. Man erhält dabei eine kontinuierliche, zeitlich geordnete Folge von Kurzzeit-Audio-Energiespektrenabschnitten. Mit Hilfe einer schnell ansteigenden, langsam abfallenden Spitzendetektorfunktion erzeugt man für jeden Abschnitt wiederholt ein Spitzenspektrum, weiches den jeweiligen Spektrenabschnitten entspricht. Dann dividiert man die Amplitude jedes Frequenzbandes durch den entsprechenden Intensitätswert im entsprechenden Spitzenspektrum. Aus den derart egalisierten Abschnitten wählt man eine Folge von Abschnitten aus, die einen Mustersatz bilden. Das Kandidaten-Schlüsselwort identifiziert man dann, wenn eine ausgewählte Folge von Mustersätzen den Zielmustern einer Schlüsselwortschablone entsprechen, die man dann als ausgewählte Schlüsselwortschablone bezeichnet.

Im Rahmen des erfindungsgemässen Verfahrens wird als Wert jedes der Spitzenspektrum-Frequenzbänder der Maximalwert des ankommenden neuen Spektrumwertes für dieses Frequenzband oder des vorhergehenden Spitzenspektrenwertes, der mit einem kon-

9 0 9 8 U K / η S 9

A 42 891 b

u - 163

6.Juni 1978 - 15 -

stanten Verkleinerungsfaktor multipliziert worden ist, welcher unter eins liegt, ausgewählt.

Gemäss einem anderen Aspekt der Erfindung wird ein Verfahren zur Mustererkennung beschrieben, welches in einem Datenstrom mindestens ein Zielmuster identifiziert, das in Form eines Vektors aus Erkennungselementen x. beschrieben ist, wobei diese Elemente eine statistische Verteilung haben. Bei diesem Verfahren bestimmt man aus einer Anzahl von vorgegebenen Musterproben χ des Zielmusters eine Kovarianzmatrix K und einen Erwartungswertvektor x. Aus der Kovarianzmatrix K berechnet man eine Vielzahl von Eigenvektoren e. mit Eigenwerten ν., wobei

> l-i

v^ = v^+1. Aus dem Datenstrom werden unbekannte Muster y ausgewählt, in einen neuen Vektor W transformiert, der die Form (W-, W₂/ ...., W , R) hat, wobei W₁ = e^ (y - χ) . ρ ist eine positive ganae Zahl, die kleiner ist als die Anzahl der Elemente des Musters y, und R ist die Rekonstruktionsabweichungsstatistik und hat die Form

, .2 £
( I χ - χI - Z.

1/2

Indem man eine statistische Wahrscheinlichkeitsfunktion auf den Vektor W anwendet, wird entschieden, ob das Muster y mit irgendeinem der Zielmuster übereinstimmt.

Bei einem bevorzugten Ausführungsbeispiel des erfindungsgemässen Verfahrens wird eine statistische Wahrscheinlichkeits funktion gemäss einer der beiden Formeln aufgestellt:

3OS845/059*

A 42 891 b U - 163 6.Juni 1978

- 16 -

Tl ¹J _-|

W₁ - S₁, ²

Invar (W.)

^ var (W₁)

var (R)

+ In var (R)J, oder

L" = - 1/2

(R - R) ²

var (R)

+ In var (R)

wobei die gestrichenen Variablen Probenmittelwerte sind und var () die Varianz der unbegrenzten Proben darstellt.

8098A5/0594

Die nachfolgende Beschreibung bevorzugter Ausführungsformen der Erfindung dient im Zusammenhang mit der Zeichnung der näheren Erläuterung. Es zeigen:

Fig. 1 ein Flussdiagramm der wesentlichen Verfahrensschritte des erfindungsgemässen Verfahrens;

Fig. 2 ein schematisches Blockdiagramm einer elektronischen Vorrichtung zur Durchführung einiger Anfangsoperationen in dem in dem Flussdiagramm der Fig. 1 dargestellten Verfahren;

Fig. 3 ein Flussdiagramm eines digitalen Computerprogramms zur Durchführung einiger weiterer Verfahrensschritte des in Fig. 1 dargestellten Verfahrens und

Fig. 4 eine graphische Darstellung der Klassifizierungsgenauigkeit bei Verwendung verschiedener Transformationsverfahren.

Entsprechende Bezugszeichen bezeichnen in sämtlichen Zeichnungen entsprechende Teile.

In dem besonderen bevorzugten Ausführungsbeispiel, welches hier beschrieben wird, wird die Spracherkennung durch eine Vorrichtung erreicht, die sowohl speziell konstruierte elektronische Systeme zur Durchführung bestimmter analoger und digitaler Prozeduren an den eingehenden Sprachsignalen als auch einen digitalen Mehrzweckcomputer umfasst, der gemäss der vorliegenden Erfindung programmiert ist, um bestimmte Daten-

84 5/0594

-163 -18- 9fi?m ι η

.Ttim· iQ7fi ΔΟΔΌ I IU

5.Juni 1978

reduktionsschritte und numerische Auswertungen durchzuführen. Die Aufteilung der Aufgaben zwischen dem Hardware-Teil und dem Software-Teil des Systems ist so durchgeführt, dass man ein Gesamtsystem erhält, welches Spracherkennung im Echtzeitbetrieb zu geringen Kosten durchführen kann. Es wird jedoch darauf hingewiesen, dass einige der von den Hardware-Teilen des besonderen Systems durchgeführten Aufgaben ebenso auch in Software vorliegen können, während einige der durch die Software-Programmierung durchgeführten Aufgaben dieses Beispiels in einem anderen Ausführungsbeispiel ebenso mittels einer Vxelzweckschaltungsanordnung gelöst werden können.

Wie bereits erwähnt, ist ein Aspekt der vorliegenden Erfindung die Schaffung einer Vorrichtung, welche bestimmte Wörter in einer Reihe kontinuierlicher Sprachsignale auch dann noch erkennt, wenn die Signale beispielsweise durch eine Telefonübertragungslinie verzerrt sind. Das in Fig. 1 dargestellte Spracheingangssignal 10 kann beispielsweise als ein Stimmensignal verstanden werden, welches von einem Telefonhörer erzeugt und über eine Telefonleitung übertragen wird, die eine beliebige Distanz überbrücken und eine Anzahl von Schaltstellen aufweisen kann. Eine typische Anwendung der vorliegenden Erfindung ist also die Erkennung von bestimmten Wörtern in einem Signalfluss, der über ein Telefonsystem von einer unbekannten Quelle erhalten wird. Das Eingangssignal kann aber auch jedes andere Audiosignal sein, beispielsweise ein gesprochenes Eingangssignal, das über ein Telekommunikationssystem erhalten wird, beispielsweise über einen kommerziellen Rundfunksender oder über eine private Funkverbindung.

u - 163 - 19 - 282511 O

5.Juni 1978 ^L ° ^{L Ό} ' ' ^U

Wie sich im Verlaufe der folgenden Beschreibung verdeutlichen wird, betreffen das beschriebene Verfahren und die entsprechende Vorrichtung die Erkennung von Sprachsignalen, welche eine Folge von Tönen, Lauten oder "Phonemen" oder anderen erkennbaren Eigenschaften enthalten. In der folgenden Beschreibung und in den Ansprüchen werden die Ausdrücke "Schlüsselwort" (keyword) , "Folge von Zielmustern¹¹ (sequence of target patterns) "Schablone (nmuster)"(template pattern) oder "Schlüsselwortschablone" (keyword template) verwendet, die alle als allgemeine und äquivalente Ausdrücke zu betrachten sind. Mit diesen Ausdrucken soll eine erkennbare Folge von Audiosignalen oder die Darstellung dieser Audiosignale bezeichnet werden, welche mit dem erfindungsgemassen Verfahren und der erfindungsgemassen Vorrichtung erkennbar sind. Diese Ausdrücke sollen so breit und allgemein verstanden werden, dass sie alles von einfachen Phonemen, Silben oder Lauten bis zu einer Wortreihe (im grammatikalischen Sinne) und auch ein einzelnes Wort umfassen.

Ein Analog-Digital-Converter (A/D) 13 empfängt das analoge Audioeingangssignal über die Leitung 10 und wandelt die Signalamplitude des Eingangssignals in digitale Form um. Der dargestellte Analog-Digital-Converter wandelt das Eingangssignal in eine Binärdarstellung mit 12 bit um, wobei die Umwandlungsgeschwindigkeit bei 8000 Umwandlungen pro Sekunde liegt. Der Analog-Digital-Converter 13 liefert seine Ausgangssignale über Leitungen 15 zu einem Autokorrelator 17. Dieser verarbeitet die digitalen Eingangssignale und erzeugt 100-mal pro Sekunde eine Kurzzeit-Autokorrelationsfunktion. Die Ausgangssignale werden Ausgangsleitungen 19 zugeführt. Jede Autokorrelationsiunktion umfasst 3 2 Werte oder Kanäle, wobei jeder Wert auf eine

SD9845/0594

u - 163 - 20 - OOOClin

5.Juni 1978 Ao/O \ IU

30-bit-Auflösung berechnet wird. Der Autokorrelator wird weiter unten unter Bezugnahme auf Fig. 2 näher beschrieben.

Die über die Leitung 19 weitergegebenen Autokorrelationsfunktionen werden in einer entsprechenden Anordnung 21 einer Fourier-Transformation unterzogen, wodurch man die entsprechenden Kurzzeit-Energiespektrenabschnitte an den Leitungen 23 erhält. Die Spektren werden mit derselben Wiederholungsfrequenz wie die Autokorrelationsfunktion erzeugt, d.h. mit 100 pro Sekunde. Jedes Kurzzeit-Energiespektrum (power spectrum) hat einunddreissig numerische Terme mit einer Auflösung von 16 bit pro Term. Jeder dieser einunddreissig Terme im Spektrum repräsentiert die Signalleistung oder -energie innerhalb eines Frequenzbandes. Die Fourier-Transformationsanordnung umfasst . vorzugsweise ein Hamming-Fenster oder eine vergleichbare Einrichtung, um Korrelationen mit den benachbarten Bändern herabzusetzen.

In dem dargestellten Ausführungsbeispiel· werden die Fourier-Transformation sowie die folgenden Verarbeitungsschritte unter der Aufsicht eines entsprechend programmierten digitalen Vielzweckcomputers durchgeführt, wobei ein peripherer Array-Processor verwendet wird, um die Rechenoperationen zu beschleunigen, die bei dem erfindungsgemässen Verfahren wiederholt benötigt werden. Der im speziellen Fall verwendete Computer ist ein PDP-11-Computer, der von der Firma Digital Equipment Corporation of Maynard, Massachusetts, USA, hergestellt worden ist. Der besondere Array-Processor.ist in der deutschen Patentanmeldung P (US-Patentanneldung SN 841 390) beschrieben. Das im folgenden unter Bezugnahme auf Fig. 3 beschriebene Programm ist im wesentlichen auf die Fähigkeiten

$09845/058*

u - 163 - 21 -

5.Juni 1978

und Eigenschaften dieser im Handel erhältlichen Digital-Verarbeitungseinheiten abgestimmt.

Die Kurzzeit-Energiespektrenabschnitte werden bei 25 frequenzegalisiert, wobei diese Frequenzegalisierung als Funktion der Spitzenamplitude durchgeführt wird, die in jedem Frequenzband oder -kanal auftritt, wie dies im folgenden noch ausführlich beschrieben wird. Die frequenzegalisierten Spektren, die an der Leitung 26 anfallen, werden mit einer Rate von 100 pro Sekunde erzeugt. Jedes Spektrum umfasst einunddreissig numerische Terme, die mit einer Genauigkeit von 16 bit vorliegen. Um die Endauswertung der Audioeingangssignale zu erleichtern, werden die frequenzegalisierten und begrenzten(window-Spektren über die Leitung 26 einer Amplitudentransformations- · vorrichtung 35 zugeführt, in welcher eine nicht-lineare Amplitudentransformation der Eingangsspektren erfolgt. Diese Transformation wird im folgenden ausführlich beschrieben, jedoch kann bereits jetzt festgestellt werden, dass diese Amplitudentransformation die Genauigkeit vergrössert, mit v/elcher das unbekannte Eingangs-Audiosignal mit Schlüsselwörtern in dem Referenzvokabular verglichen werden kann. In dem dargestellten Ausführungsbeispiel wird diese Transformation bei allen frequenzegalisierten und begrenzten Spektren vor dem Vergleich der Spektren mit den Schlüsselwortschablonen durchgeführt, welche die Schlüsselwörter in dem Vergleichvokabular darstellen.

Die an der Leitung 38 anstehenden, amplitudentransformierten und egalisierten Kurzzeitspektren v/erden dann in der Einrichtung 40 mit Schlüsselwortschablonen verglichen. Diese mit dem Bezugszeichen 42 bezeichneten Schlüsselwortschablonen stellen die

S09345/059A

5.Juni 1978

Schlüsselwörter des Referenzvokabulars in einem spektralen Muster dar, mit welchem die transformierten und egalisierten Spektren verglichen v/erden kennen. Entsprechend der Nähe bei dem Vergleich werden auf diese Weise in die engere Wahl fallende Wörter, sogenannte Kandidatenwörter, herausgesucht. In dem dargestellten Ausführungsbeispiel soll bei diesem Auswahlprozess die Wahrscheinlichkeit eines übersehenen Schlüsselwortes' verkleinert werden, während gleichzeitig unbrauchbare Muster weitgehend unberücksichtigt bleiben sollen. Die Kandidatenwörter (und gespeicherte statistische Daten, die sich auf die entsprechenden Eingangsdaten beziehen) werden über die Leitung 44 einer Nachentscheidungseinheit 46 zugeführt, in welcher die Zahl der unrichtigen Übereinstimmungsmeldungen reduziert wird. Diese Nachentscheidung, welche die Verwendung " einer Prosodie-Maske und/oder eines Testes des Verhältnisses der Wahrscheinlichkeit bestimmter akustischer Niveaus umfasst, verbessert die Unterscheidung zwischen korrekten Zuordnungen und falschen Anzeigen, wie dies weiter unten ausführlich beschrieben wird.

Vorprocessor

In der in Fig. 2 dargestellten Vorrichtung wird aus dem digitalen Datenstrom, den der Analog-Digital-Converter 13 aus den analogen Audioeingangssignalen, in der Regel also aus einem Stimmsignal, erzeugt, eine Autokorrelationsfunktion mit ihrer zugehörigen Mittelung auf digitalem Wege erzeugt. Der Converter 13 erzeugt an der Leitung 15 ein digitales Eingangssignal. Die digitalen Verarbeitungsfunktionen und die eingangs erfolgende Analog-Digital-Umwandlung werden mittels eines Zeitgeberoszillators 51 gesteuert. Dieser Zeitgeberoszillator 51 liefert ein

9098/. 5/0594

Basiszeitsignal mit 256000 Impulsen pro Sekunde, und dieses Signal wird einem Frequenzteiler 52 zugeführt, so dass man ein zweites Zeitsignal mit 8000 Impulsen pro Sekunde erhält. Das langsamere Zeitsignal steuert den Analog-Digital-Converter 13 und eine Halteschaltung 53, die die 12-bit-Ergebnisse der letzten Umwandlung festhält, bis die nächste Umwandlung vollendet ist.

Die gewünschten Autokorrelationsprodukte werden von einer digitalen Multipliziereinheit 56 erzeugt, welche die in der Halt, schaltung 53 enthaltene Zahl mit dem Ausgangssignal eines 32-Wort-Schieberegisters 58 multipliziert. Das Schieberegister 58 wird im Zirkuliermode betrieben und von der schnelleren Zeitgeberfrequenz gesteuert, so dass ein vollständiger Daten- · umlauf während jeder Analog-Digital-Umwandlung vollendet wird. Ein Eingangssignal für das Schieberegister 58 wird an der Halteschaltung 53 einmal während jedes vollständigen Umlaufes entnommen. Ein Eingangssignal für die digitale Multipliziereinheit 56 kommt direkt von der Halteschaltung 53, während das andere Eingangssignal für die Multipliziereinheit (mit einer weiter unten beschriebenen Ausnahme) von dem laufenden Ausgangssignal des Schieberegisters über einen Multiplexer 59 herangeführt wird. Die Multiplikationen werden mit einer höheren Zeitgeberfrequenz durchgeführt.

Auf diese Weise wird jeder bei der Analog-Digital-Umwandlung erhaltene Wert mit jedem der vorhergehenden 31 Umwandlungswerte multipliziert. Für den Fachmann ist ersichtlich, dass die dabei erzeugten Signale einer Multiplikation des Eingangssignals mit sich selbst entsprechen, wobei die Signale selbst

309845/0594

5.Juni 1978

um 32 verschiedene Zeitintervalle verzögert sind (wobei eines eine Nullverzögerung ist). Um eine Korrelation mit Nullverzögerung, d.h. ein der Energie des Nullsignals entsprechendes Signal, zu erzeugen,veranlasst ein Multiplexer 59 die Multiplikation des laufenden Wertes mit sich selbst, und zwar zu einem Zeitpunkt, an dem der neue Wert in das Schieberegister eingeführt wird. Diese Zeitfunktion ist bei 60 dargestellt.

Wie sich für den Fachmann auch ergibt, sind die Produkte einer einzigen Umwandlung mit ihren 31 Vorgängern nicht sonderlich .repräsentativ für die Energieverteilung oder das Spektrum des Signals über ein vernünftiges Probenintervall. Daher sieht die Vorrichtung der Fig. 2 eine Mittelung dieser Sätze von Produkten vor.

Ein diese Mittelung bewirkender Akkumulationsprozess erfolgt durch ein 32-Wort-Schieberegister 63, welches mit einer Addiereinheit 65 verbunden ist und so einen Satz von 32 "Akkumulatoren" bildet. Auf diese Weise kann jedes Wort zirkuliert werden, nachdem zu ihm das entsprechende Inkrement der digitalen Multipliziereinheit addiert worden ist. Die Zirkulierschleife läuft durch ein Tor 67, welches von einer mit der niederen Frequenz des Zeitgebers betriebenen Teilerschaltung 69 gesteuert wird. Der Teiler 69 teilt das niederfrequente Zeitgebersignal durch einen Faktor N, der die Zahl von .augenblicklichen Autokorrelationsfunktionen bestimmt, die akkumuliert und dadurch gemittelt werden sollen, bis das Schieberegister 63 ausgelesen wird.

In dem bevorzugten Beispiel werden vor der Auslesung 80 Werte

SD98AB/059A

u - 163

5.Juni 1978

akkumuliert. Mit anderen Worten, N für den durch N dividierender. Teiler ist achtzig. Wenn achtzig Werte auf diese Weise korreliert und akkumuliert worden sind, triggert die Teilerschaltung 69 eine Computerunterbrecherschaltung 71 über eine Leitung 72. Zu diesem Zeitpunkt wird der Inhalt des Schieberegisters 63 über eine geeignete Anpass- oder übertragungsschaltung 73 schrittweise in den Speicher des Computers eingelesen, wobei die zweiunddreissig Wörter des Registers über die Schaltung 73 in geordneter Folge dem Computer zugeführt werden. Wie für den Fachmann klar ist, kann die Übertragung der Daten von der peripheren Einheit, dem Autokorrelations-Vorprocessor, in den Computer typischerweise durch einen Prozess mit direktem Zugang zum Speicher erfolgen. Ausgehend von der Mittelung von achtzig Werten und einer anfänglichen Erzeugungsrate von 8000 Werten pro Sekunde ergibt sich, dass dem Computer in jeder Sekunde 100 gemittelte Autokorrelationsfunktionen zugeführt v/erden.

Während der Inhalt des Schieberegisters in den Computer eingelesen wird, ist das Tor 67 geschlossen, so dass jedes der Wörter in dem Schieberegister effektiv auf Null zurückgesetzt wird, so dass die Akkumulation von neuem beginnen kann.

Mathematisch kann die Operation der in Fig. 2 dargestellten Vorrichtung wie folgt beschrieben werden. Wenn man annimmt, dass der Analog-Digital-Converter eine Zeitserie S(t) erzeugt, wobei t = 0, T , 2T .... und T das Probenintervall (im beschriebenen Ausführungsbeispiel 1/8000 see) darstellt, dann kann man annehmen, dass die beschriebene, digitale Korrelationsschaltung der Fig. 2 die folgende Autokorrelationsfunktion erzeugt, wobei Ungenauigkeiten beim Beginn unberücksichtigt

9 0 9 η A ^r> / 0 B 9 k .

COPY

5.Juni 1978

bleiben:

(Jt) =

£ S(t-kT_o) S(t-(k + j) T₀) (Gleichung 1) k=1

wobei j=O, 1, 2 ..., 31; t = 80 T_Q, 160 T_Q, , 8On T_q/...

Diese Autokorrelationsfunktionen entsprechen dem korrelierten Ausgangssignal auf der Leitung 19 in Fig. 1.

Die bei 77 in Fig. 3 dargestellte Funktion bedeutet also, dass der Digitalkorrelator fortlaufend arbeitet und dem Computer eine Reihe von Datenblöcken übermittelt, wobei alle zehn Millisekunden eine vollständige Autokorrelationsfunktion geliefert wird. Jeder Datenblock stellt eine Autokorrelationsfunktion dar, die von dem entsprechenden Zeitunterintervall abgeleitet ist. Wie bereits angegeben, werden diese Autokorrelationsfunktionen dem Computer mit einer Rate von einhundert 32-Wort-Funktionen pro Sekunde übermittelt.

In der beschriebenen Ausführungsform wird die Weiterverarbeitung von diesem Punkt an durch einen geeigneten programmierten digitalen Mehrzweckcomputer übernommen. In Fig. 3 ist ein Flussdiagramm dargestellt, welches auch die Funktionen umfasst, die dieses Computerprogramm beisteuert. Es soll jedoch noch einmal darauf hingewiesen werden, dass verschiedene dieser Schritte ebensogut durch Hardware wie durch Software durchgeführt werden können, ebenso wie bestimmte von der Vorrichtung der Fig. 2 ausgeführte Funktionen zusätzlich in der Software enthalten sein können, wobei man dann das Flussdiagramm der Fig. 3 entsprechend abändern müsste.

90 9 845/0594

5.Juni 1978

Obwohl der Digitalkorrelator der Fig. 2 eine gewisse Zeitmittelung der jeweils augenblicklich erzeugten Autokorrelationsfunktionen durchführt, können die in den Computer eingelesenen Autokorrelationsfunktionen immer noch einige anomale ünstetigkeiten oder ungleiche Verläufe aufweisen, die einer ordnungsgemässen Weiterverarbeitung und Auswertung der Werte entgegenstehen. Aus diesem Grunde wird jeder Datenblock, d.h. jede Autokorrelationsfunktion τ (j ft), zuerst bezüglich der Zeit geglättet. Dies ist in dem Flussdiagramm der Fig. 3 bei 79 angedeutet. Der bevorzugte Glättungsprozess ist ein Verfahren, bei welchem das geglättete Ausgangssignal ^ (j/t) gegeben ist durch den Ausdruck

(Gleichung 2) V _s(j,t) = C₀V (j,t) + C₁? (j,t - T) + C₂ ψ (j,t + T)

wobei τ (j/t) die ungeglättete, in Gleichung 1 definierte Eingangsautokorrelation, ^„^,t) die geglättete Ausgangsautokorrelation, j die Zeitverzögerung, t die Realzeit und T das Zeitintervall zwischen aufeinanderfolgend erzeugten Autokorrelationsfunktionen (T = 0,01 Sekunden in dem bevorzugten Ausführungsbeispiel) darstellen. Die Gewichtsfunktionen C , C₁, C- werden in dem bevorzugten Ausführungsbeispiel vorzugsweise zu 1/2, 1/4 bzw. 1/4 gewählt, obwohl andere Werte gewählt werden können. Beispielsweise kann in die Computer-Software eine Glättungsfunktion eingearbeitet werden, die einen annähernd Gauss-förmigen Impuls mit einer Abschneidefrequenz von beispielsweise 20 Hertz ergibt. Versuche haben jedoch ergeben, dass die vorstehend angegebenen, leichter zu verarbeitenden Werte zu einer Glättungsfunktion führen, die zufriedenstellende Ergebnisse zeigt. Wie angegeben, wird diese Glättungsfunktion getrennt für jeden Verzögerungswert j angewendet. Wie bei 81

90984 5/0594

5.Juni 1978

angedeutet, wird jede Autokorrelationsfunktion ψ (j-t) einer Cosinus-Fourier-Transformation unterzogen, so dass sich ein 31-Punkte-Energiespektrum (power spectrum) ergibt. Das Spektrum ist durch den folgenden Ausdruck definiert

31
S(f,t) »Ψ (O, t) W (0) + 2 Σ V_(j,t) W (j) cos 2/ff j

-7 = 1

^J ' 8000

(Gleichung 3)

wobei S (f_ft) die spektrale Energie in einem Band angibt, dessen Zentrum bei f Hz liegt. Die Energie wird zur Zeit t bestimmt. W (j) = 1/2 (1 + cos 2/Tj) ist die Hamming-Abschneide- oder Fensterfunktion, mit welcher seitliche Bänder unterdrückt werden. V (j,t) ist die geglättete Autokorrelations- . funktion bei einer Verzögerung j und einer Realzeit t. Ausserdem gilt die Beziehung

1/0,063 f = 30 + 1000 (O,O552m + 0,438) Hz; m=1, 2, ... ,31

(Gleichung 4)

wobei diese Frequenzen in der "mel"-Skala der Tonhöhe (pitch) gleichen Abstand haben. Dies entspricht also einer subjektiven Tonhöhen-Frequenzachse (mel-Skala) für Frequenzen in der Bandbreite eines typischen Übertragungskanals zwischen etwa 300 und 3500 Hertz. Es ist auch klar, dass jeder Punkt oder Wert innerhalb jedes Spektrums ein entsprechendes Frequenzband darstellt. Man kann diese Fourier-Transformation vollständig innerhalb der konventionellen Computer-Hardware durchführen, das Verfahren kann jedoch wesentlich beschleunigt werden, wenn man eine externe Hardware-Multipliziereinheit oder eine Schnell-Fourier-Transformationsvorrichtung (FFT) benutzt. Aufbau und

909845/0594

5.Juni 1978

Betriebsweise derartiger Einheiten sind bekannt und werden daher in diesem Zusammenhang nicht ausführlich beschrieben. Vorzugsweise wird der Hardware-Schnell-Fourier-Transformationsvorrichtung (FFT) eine periphere Einheit mit einer Frequenzglättungsfunktion zugeordnet, worin jedes der Spektren entsprechend der bevorzugten Hamming-Abschneide-Wichtungsfunktion W (j), die oben definiert wurde, frequenzmässig geglättet wird. Dies wird innerhalb des Blockes 85 durch das Bezugszeichen angedeutet, wobei 85 die Hardware-Fourier-Transformationseinrichtung kennzeichnet.

In dem Maße, wie fortlaufend geglättete Energiespektren von der Schnell-Fourier-Transformationseinheit 85 erhalten werden, wird eine Übertragungskanal-Egalisierungsfunktion erhalten, indem man ein (im allgemeinen unterschiedliches) Energiespitzenspektrum (peak power spectrum) für jedes von der Einheit 85 ankommende, begrenzte oder abgeschnittene (windowed) Energiespektrum bestimmt/
/und die"Ausgangssignale der Schnell-Fourier-Transformationseinheit in der unten beschriebenen Weise entsprechend modifiziert. Jedes neu gebildete Spitzenamplitudenspektrum y (f_ft), welches den ankommenden abgeschnittenen Energiespektren S (f,t) entspricht, wobei f über die Frequenzbänder des Spektrums läuft, ist das Ergebnis einer schnell ansteigenden, langsam abfallenden Spitzenfeststellfunktion für jeden Kanal des Spektrums oder jedes Band des Spektrums. Die abgeschnittenen Energiespektren werden mit Hilfe der jeweiligen Terme des entsprechenden Spitzenamplitudenspektrum normalisiert. Dies wird durch das Bezugszeichen 87 gekennzeichnet.

Bei dem dargestellten Ausführungsbeispiel werden die Werte des "alten" Spitzenamplitudenspektrum γ (f,t-T), welches vor dem

909845/0 5

u - 163

5.Juni 1978 - 30 -

Empfang eines neuen, abgeschnittenen Spektrum bestimmt v/orden ist, Frequenzband für Frequenzband mit dem neu eingehenden Spektrum S(f,t) verglichen. Das neue Spitzenspektrum y (f,t) wird dann entsprechend der folgenden Regeln erhalten. Die Energieamplitude in jedem Band des "alten" Spitzenamplitudenspektrums wird mit einem festen Bruch multipliziert, beispielsweise im beschriebenen Ausführungsbeispiel 511. Das entspricht

5T2 dem langsam abfallenden Teil der Spitzenauffindfunktion. Wenn die Energieamplitude in einem Frequenzband f des ankommenden Spektrums S (f,t) grosser ist als die Energieamplitude im entsprechenden Frequenzband des verkleinerten Spitzenamplitudenspektrums, dann wird der Wert des verkleinerten Spitzenamplitudenspektrums für dieses Frequenzband oder für diese Frequenzbänder durch den jeweiligen Wert des Spektrums des eingehenden, abgeschnittenen Spektrums in dem entsprechenden Frequenzband ersetzt. Das gleiche gilt für den schnell ansteigenden Teil der Spitzenauffindfunktion. Mathematisch kann diese Spitzenauffindfunktion folgendermassen ausgedrückt werden

y(f,t) = max ί y (f ,t-T) · (1-E) , S(f,t)l (Gleichung 5)

wobei f über alle Frequenzbänder läuft, y (f,t) das sich ergebende Spitzenspektrum bezeichnet, y (f,t-T) das "alte" oder vorhergehende Spitzenspektrum darstellt, S(f,t) das neu ankommende Energiespektrum darstellt und E der Abfall- oder Verkleinerungsparameter ist. Nach der Erzeugung des Spitzenspektrums wird dieses bei 89 frequenzegalisiert, indem man den Spitzenwert jedes Frequenzbandes mit den Spitzenwerten der benachbarten Frequenzen des neu gebildeten Spitzenspektrums mittalt, wobei die Breite des Frequenzbandes, welches zu der

909845/0 59

5.Juni 1978

Mittelung beiträgt, etwa gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist. Für Fachleute der Spracherkennung ist ersichtlich, dass dieser Abstand in der Grössenordnung von 1000 Hz liegt. Wenn man in dieser speziellen Weise mittelt, dann wird die nutzbare Information in den Spektren, d.h. die lokalen Variationen, die die Formantresonanzen zeigen, aufrechterhalten, während eine Insgesamt- oder Bruttobetonung im FrequenzSpektrum unterdrückt wird. Das sich ergebende geglättete Spitzenamplitudenspektrum y(f,t) wird dann dazu verwendet, das gerade erhaltene Energiespektrum S(f,t) zu normalisieren und bezüglich der Frequenz zu egalisieren, indem man den Amplitudenwert jedes Frequenzbandes des eingehenden, geglätteten Spektrums S(f,t) durch den Wert des entsprechenden Frequenzbandes in dem geglätteten Spitzenspektrum y(f,t) dividiert. Mathematisch wird das durch die folgende Gleichung angegeben :

S_n (f,t) = S(f,t) / y(f,t) (Gleichung 6)

wobei S_n(f,t) das mit Hilfe des Spitzenspektrums normalisierte., geglättete Energiespektrum darstellt und f über alle Frequenzbänder läuft. Dieser Schritt ist mit dem Bezugszeichen 91 gekennzeichnet. Man erzeugt damit eine Folge von frequenzegalisierten, normalisierten, Kurzzeit-Energiespektren, die Änderungen im Frequenzinhalt des eingehenden Audio-Signals betonen, während sie allgemeine Frequenzbetonungen oder Verzerrungen unterdrücken. Es hat sich herausgestellt, dass dieses Verfahren zur Frequenzkompensation bei der Erkennung von über Telefonleitungen übermittelten Sprachsignalen äusserst vorteilhaft ist gegenüber den gebräuchlicheren Systemen der Frequenzkompensation, bei welcher als Basis der Kompensation der Durch-

£09845/059*

5.Juni 1978

schnittswert entweder des gesamten Signals oder des entsprechenden Frequenzbandes genommen wird.

An dieser Stelle soll darauf hingewiesen werden, dass die aufeinanderfolgenden Spektren zwar auf verschiedene Weise bearbeitet und egalisiert worden sind, dass aber die Daten, die das gesprochene Wort repräsentieren, immer noch Spektren umfassen, die mit einer Rate von 100 pro Sekunde angeliefert werden.

Die normalisierten und frequenzegalisierten Spektren, wie sie bei 91 erhalten werden, werden dann einer Amplitudentransformation unterworfen (Bezugszeichen 93). Dadurch erhält man eine nicht-lineare Skalierung der Amplitudenwerte des Spektrums. Wenn man die individuellen egalisierten und normalisierten Spektren mit S_n(f,t) (aus Gleichung 6) bezeichnet, wobei f über die verschiedenen Frequenzbänder des Spektrums läuft und t die Realzeit angibt, dann ergibt sich das nicht-linear-skalierte Spektrum x(f,t) aus der linearen Bruchfunktion

S_n(f,t) - A (Gleichung 7A)

^Xit'^t; ~ S_n(f,t) + A

wobei A der Durchschnittswert des Spektrums S (f,t) ist, der sich aus der folgenden Beziehung ergibt:

31
A = J^- ΣΓ₌₁ S_n(f_b,t) (Gleichung 7B)

wobei f, über die Frequenzbänder des Energiespektrums läuft.

909845/059A

5.Juni 1978

Diese Skalier funkt ion erzeugt einen sanften Schwell- und einen allmählichen Sättigungseffekt für die spektralen Intensitäten, die stark von dem Kurzzeitdurchschnitt A abweichen. Mathematisch ist diese Funktion für Intensitäten in der Nähe des Durchschnittswertes annähernd linear; für Intensitäten, die weiter von dem Durchschnittswert entfernt sind, ist sie annähernd logarithmisch; und für Extremwerte der Intensität ist sie im wesentlichen eine Konstante. In einer logarithmischen Darstellung ist die Funktion x(f,t) zum Nullpunkt symmetrisch und zeigt ein Schwell- oder Ansteigs- sowie ein Sättigungsverhalten, das in etwa dem Impulserzeugungsverhalten eines Gehörnerves entspricht. In der Praxis arbeitet das Spracherkennungssystem mit dieser speziellen nicht-linearen Skalierfunktion besser als mit einer linearen oder logarithmischen Skalierfunktion.

Auf diese Weise hat man eine Folge von amplitudentransformierten, frequenzegalisierten, normalisierten Kurzzeitenergiespektren x(f,t) erzeugt, wobei t die Werte 0,01, 0,02, 0,03, 0,04, ... Sekunden und f die Werte 1 .... 31 (entsprechend den Frequenzbändern der erzeugten Energiespektren) durchlaufen. Für jedes Spektrum werden zweiunddreissig Wörter erzeugt; und der Viert A (Gleichung 7B) , also der Durchschnittswert des Spektrumwertes, ist in dem zweiunddreissigsten Wort gespeichert. Das amplitudentransformierte Kurzzeit-Energiespektrum wird, wie durch das Bezugszeichen 95 gekennzeichnet, in einem sogenannten first-in-first-out-Zirkulierspeicher gespeichert, der in dem dargestellten Ausführungsbeispiel eine Speicherkapazität von 256 zweiunddreissig-Wort-Spektren aufweist. Für die Analyse stehen also 2,56 Sekunden des Audio-Eingangssignals zur Ver-

909845/0594

5.Juni 1978

fügung. Diese Speicherkapazität versieht das Spracherkennungssystem mit der Flexibilität, die zur Auswahl von Spektren zu verschiedenen Realzeiten notwendig ist, damit die Analyse und Auswertung durchgeführt v/erden kann. Es wird dadurch möglich, je nach den Erfordernissen der Analyse in der Zeit vorwärts und zurückzugehen.

Die amplitudentransformierten Energiespektren für die letzten 2,56 Sekunden sind also in dem Zirkulierspeicher enthalten und bei Bedarf zugänglich. Beim Betrieb des beschriebenen Ausführungsbeispiels wird jedes amplitudentransformierte Energiespektrum 2,56 Sekunden lang gespeichert. Ein Spektrum, welches zu einer Zeit t, in den Zirkulierspeicher eintritt, wird 2,56 Sekunden später gelöscht oder weitergeleitet, wenn ein neues, " der Zeit t, + 2,56 Sekunden entsprechendes transformiertes Amplitudenspektrum eingespeichert wird.

Die transformierten und egalisierten Kurzzeit-Energiespektren, die durch den Zirkulierspeicher laufen, werden, vorzugsweise im Echtzeitbetrieb, mit einem bekannten Vokabular von Schlüsselwörtern verglichen, um diese Schlüsselwörter in dem kontinuierlichen Audiodatenstrom zu entdecken oder herauszufinden.

Jedes Schlüsselwort des Vokabulars wird durch eine Schablone (template pattern) dargestellt, welche in statistischer Weise eine Vielzahl von verarbeiteten Energiespektren darstellt, die in der Form eines Mehrfachsatzes von nicht-überlappenden Spektren vorliegen; ein solcher Mehrfachsatz (vorzugsweise drei Spektren) wird im folgenden als "Muster(satz)" (design set pattern) bezeichnet. Diese Muster werden vorzugsweise so aus-

9 0 δ Λ 4 R / Π B 9 4

5.Juni 1978 ³⁵

gewählt, dass sie die bedeutsamen akustischen Ereignisse des Schlüsselwortes am besten darstellen.

Die Spektren, die die Muster bilden, v/erden für Schlüsselwörter erzeugt, die in verschiedenen Kontexten gesprochen werden, indem man dasselbe System zur Verarbeitung der kontinuierlichen, unbekannten Sprachsignale an der Leitung 10 benützt, welches oben beschrieben worden ist.

Jedem Schlüsselwort des Vokabulars ist also eine im allgemeinen

mehrfache Folge von Mustern P (i).., P (i) ₂ /· zugeordnet,

welche auf der Basis von Kurzzeit-Energiespektren eine Darstellung des i-ten Schlüsselwortes geben. Die Sammlung der Muster für jedes Schlüsselwort bilden die statistische Basis, aufgrund welcher die sogenannten "Zielmuster" oder "Zielmustersätze" (target patterns) gebildet werden.

In dem beschriebenen Ausführungsbeispiel der Erfindung können die Muster P(i). jedes als ein Array mit 96 Elementen aufgefasst werden/ welche drei ausgewählte Kurzzeit-Energiespektren enthalten, die in einer Reihe angeordnet sind. Die Energiespektren, welche die Muster aufbauen, sollten vorzugsweise mindestens 30 Millisekunden voneinander getrennt sein, um Kreuzkorrelationen infolge der Glättungsprozesse im Zeitbereich auszuschalten. Bei anderen Ausgestaltungen der Erfindung können auch andere Auswahlkriterien für die Auswahl der Spektren verwendet werden. Vorzugsweise werden jedoch die Spektren so ausgewählt, dass sie einen konstanten Zeitabstand aufweisen, vorzugsweise 30 Millisekunden, und dass sich die nicht-überlappenden Muster über das gesamte, das Schlüsselwort definierende Zeitintervall erstrecken. Ein erstes Muster P.. entspricht

909845/059*

5.Juni 1978

also einem Teil des Schlüsselwortes in der Nähe von dessen Anfang, ein zweites Muster P- entspricht einem in der Zeit später folgenden Teil des Schlüsselwortes etc. Die Muster P₁, T?2 · · · bilden die statistische Basis für eine Reihe oder Folge von Zielmustern, die ihrerseits wieder die Schlüsselwortschablone aufbauen, mit welcher die eingehenden Audiodaten verglichen werden. Die Zielmuster oder Zielmustersätze t.. , t₂ etc. umfassen jeweils die statistischen Daten, wobei man annimmt, dass P(i). aus unabhängigen Gauss'sehen Variablen bestehen, welche es ermöglichen, eine Wahrscheinlichkeitsstatistik 'zwischen ausgewählten Mustersätzen, die weiter unten definiert v/erden, und den Zielmustern zu erzeugen. Die Zielmuster bestehen also aus einem Array, deren Glieder auch die mittlere Standardabweichung und den Flächennormalisierungsfaktor für eine entsprechende Sammlung von Muster-Array-Gesamtheiten umfassen. Eine verfeinerte Wahrscheinlichkeitsstatistik ist weiter unten beschrieben.

Für den Fachmann ist es klar, dass praktisch alle Schlüsselwörter verschieden ausgesprochen werden können, je nach dem Kontext und/oder der Stelle, an welcher sie stehen. Es gibt daher mehr als eine "Schreibweise" der Muster. Ein Schlüsselwort mit dem Muster P₁, P_, von dem weiter oben gesprochen worden ist, kann also tatsächlich geschrieben werden als p(i)₂···· i -. 1/2 , .... M, wobei jedes der ρ (i) . mögliche alternative Schreibweisen der j-ten Klasse von Mustern darstellt, wobei insgesamt M verschiedene Schreibweisen des Schlüsselwortes möglich sind.

0038*5/069*

U-,S3 .3,

5.Juni 1978

Die Zielmuster t.. , t„, ..., t., .... stellen also im allgemeinsten Sinn jeweils mehrere statistische Aussprachealternativen für die i-te Gruppe oder Klasse der Muster dar'. In dem beschriebenen Ausführungsbeispiel wird also der Ausdruck "Zielmuster" im allgemeinsten Sinn verwendet, und jedes Zielmuster kann daher mehr als eine zulässige alternative "statistische Schreibweise" haben.

Verarbeitung der gespeicherten Spektren

Die bei 95 gespeicherten, die eingehenden, kontinuierlichen Audiodaten darstellenden Spektren werden mit den gespeicherten, aus einer Folge von Zielmustern bestehenden Schablonen (Bezugszeichen 96) verglichen, wobei die Schablonen Schlüsselwörter des Vokabulars darstellen. Dieser Vergleich wird in der im folgenden beschriebenen Weise vorgenommen. Jedes nacheinander ankommende, transformierte, frequenzegalisierte Spektrum wird als das erste Spektrum eines mehrere Spektren umfassenden Satzes aufgefasst, im vorliegenden Beispiel eines Satzes mit drei Spektren, der einem Vektor mit 9 6 Elementen entspricht. Das zweite und dritte Spektrum dieses Satzes entspricht in dem beschriebenen Ausführungsbeispiel Spektren, die (in Realzeit) 30 bzv/. 60 Millisekunden später auftreten. In dem sich ergebenden, mit 97 gekennzeichneten Muster bildet also das erste ausgewählte Spektrum die ersten 32 Elemente des Vektors, das zweite ausgewählte Spektrum die zweiten 32 Elemente des Vektors und das dritte ausgewählte Spektrum die dritten 32 Elemente des Vektors.

909845/059*

-33-

Vorzugsweise wird jeder auf diese Weise gebildete Mustersatz entsprechend den folgenden Methoden transformiert, um Kreuzkorrelationen herabzusetzen und um die Dimension zu verringern. Ausserdem soll dadurch die Trennung zwischen Zielmusterklassen vergrössert werden. Dies wird mit dem Bezugszeichen 99 gekennzeichnet. Die transformierten Muster werden in dem dargestellten Ausführungsbeispiel dann als Eingangssignale für eine statistische Wahrscheinlichkeitsberechnung verwendet, die mit dem Bezugszeichen 100 gekennzeichnet ist. Diese Wahrscheinlichkeitsberechnung ergibt ein Maß für die Wahrscheinlichkeit, dass das transformierte Muster einem Zielmuster entspricht.

JSustertr ans formation

Wenn man zuerst die Mustertransformation betrachtet und dazu eine Matrixschreibweise verwendet, dann kann jeder Mustersatz durch einen 96-spaltigen Vektor χ = (X₁, x_ .... Xq_fi) dargestellt werden, wobei X₁ , x~ ···, Xo₂ ^^^e Elemente x(f,t..) des ersten Spektrums des Musters, x-,τ/ x,,..., x_fi4 die Elemente x(f,t₂) des zweiten Spektrums des Musters und Xz-c/ ^χβρ;····'^χς6 die Elemente x(f,t-.) des dritten Spektrums des Musters darstellen. Experimentell stellt man fest, dass die meisten Elemente x. des Vektors χ Wahrscheinlichkeitsverteilungen aufweisen, so dass sie symmetrisch um ihren Mittelwert angeordnet sind. Eine Gauss'sehe Wahrscheinlichkeitsdichteverteilung passt sich daher gut der Verteilung jedes x. an, welches über eine Probe einer bestimmten Mustersammlung läuft, die einem bestimmten Zielmuster entspricht. Viele Paare von Elementen x., x. stellen sich als in erheblicher V/eise korreliert heraus, so dass die Annahme, die Elemente des Vektors χ seien gegenseitig unabhängig und unkorreliert, ungerechtfertigt ist. Die

909845/0 5

u - 163

5.Juni 1978

Korrelationen zwischen den Elementen der verschiedenen Spektren in dem Mustersatz ergeben weiterhin eine Information über die Richtung der Bewegung der Formantresonanzen in dem Eingangssprachsignal, und diese Information bleibt relativ konstant auch dann, wenn die Durchschnittsfrequenzen der Formantresonanzen sich verändern sollten, beispielsweise von einem Sprecher zum anderen. Wie dies wohl bekannt ist, stellen die Richtungen der Bewegung der Formantresonanzfrequenzen wichtige Schlüssel für die menschliche Spracherkennung dar. In bekannter Weise kann die Wirkung der Kreuzkorrelation zwischen den Elementen von χ durch die Verwendung der Gauss'sehen Multivariationslog-Wahrscheinlichkeitsstatistik (multivariate Gaussian log likelihood statistic) berücksichtigt werden.

-L = 1/2(x-x)K~¹(x-x)^t + 1/2 ln//K// (Gleichung 8A)

wobei χ der Summenmittelwert von χ ist und wobei K die Matrix der Kovarianzen zwischen allen Elementpaaren von χ ist. Die Elemente der Matrix K sind in der folgenden Weise definiert:

Kj. = (χ,^-χ.) (x.-x.), (Gleichung 8B)

//K// bezeichnet die Determinante der Matrix K. Die Kovarianzmatrix K kann mit bekannten Methoden in die folgende Eigenvektordarstellung zerlegt werden

K = EVE (Gleichung 8C)

wobei E die Eigenvektormatrix e. von K ist. V ist die Diagonalmatrix mit den Eigenwerten v. von K. Diese Grossen sind durch die folgende Beziehung definiert

309845/0594

5.Juni 1978

Ke^ = ν_±&^ (Gleichung 8D)

Die Multiplikation mit der Matrix E entspricht einer Drehung in dem 96-dimensionalen Raum, in dem die Vektoren χ dargestellt sind. Wenn man nun einen transformierten Vektor w definiert als

w = E(x-x)^t (Gleichung 8E)

dann kann die Wahrscheinlichkeitsstatistik in folgender Form neu geschrieben werden

-L = 1/2 WV^-1W*¹ + 1/2 In //K//

(Gleichung 8F)

Jeder Eigenwert v. ist die statistische Varianz des statistischen Vektors χ gemessen in der Richtung des Eigenvektors e..

Die Parameter K.. und x. werden in dem dargestellten Ausführungsbeispiel dadurch bestimmt, dass die gebildeten Mustersätze für jede der angegebenen statistischen Funktionen über eine Anzahl von beobachteten Musterbeispielen gemittelt werden. Dieser Vorgang umfasst statistische Annahmen über die erwarteten Werte von K.. und x.. Jedoch ist die Zahl der unabhängigen, anzunehmenden Parameter 9 6 Durchschnittswerte plus 9 6x97/2 = 4656 Kovarianzen. Da es unpraktisch ist, mehr als einige hundert Mustersatzbeispiele für ein Zielmuster zu verwenden, ist die erreichbare Zahl von Beispielbeobachtungen pro statistischem Parameter offensichtlich recht klein. Die Wirkung der

809845/0594

5.Juni 1978

ungenügenden Beispielgrösse liegt darin, dass die zufälligen Fluktuationen der Parameterannahmen vergleichbar sind mit den angenommenen Parametern. Diese relativ grossen Fluktuationen führen zu einer starken statistischen Abhängigkeit der ■Klassifizierungsgenauigkeit des auf Gleichung 8F gestützten Entscheidungsprocessors, so dass der Processor zwar die Wortbeispiele mit grosser Genauigkeit klassifizieren kann, die aus seinen eigenen Mustersätzen aufgebaut sind, dass aber der Erfolg mit unbekannten Datenbeispielen recht schlecht wird.

Es ist bekannt, dass man bei einer Reduzierung der Zahl der zu bestimmenden statistischen Parameter die Einwirkung der auf die kleine Beispielzahl zurückzuführenden Beschränkung reduzieren kann. Zu diesem Zweck ist die im folgenden beschrie¹ bene Methode allgemein verwendet worden, um die Dimension eines statistischen Random-Vektors zu reduzieren.

00984 5/0594

6.Juni 1978 - 42 -

Die oben definierten Eigenvektoren e. werden entsprechend der abnehmenden Reihenfolge ihrer entsprechenden Eigenwerte ν. umgeordnet, so dass sich eine umgeordnete Matrix E von umgeordneten Eigenvektoren e^r ergibt, wobei e^r, die Richtung der

r r <* r
maximalen Varianz ν , und ν . , - ν ,. Dann ist der Vektor x-x entsprechend der Gleichung 8E in einen Vektor w transformiert, wobei man die umgeordnete Matrix E^r verwendet. Jedoch werden nur die ersten ρ Elemente von w verwendet, um den Mustervektor χ darzustellen. In dieser Darstellung, die man manchmal die Hauptkomponentenanalyse (principal component analysis) nennt, liegt die effektive Zahl der zu bestimmenden statistischen Parameter in der Grössenordnung von 9 6p anstelle von 4656. Zur Klassifizierung der Muster wird die Wahrscheinlichkeitsstatistik L entsprechend der Beziehung 8F berechnet, · jedoch läuft die Summierung nun von 1 bis ρ anstelle von 1 bis 96. Wenn man die Hauptkomponentenanalyse auf praktische Daten anwendet, dann beobachtet man, dass die Klassifikationsgenauigkeit des Processors zunimmt, wenn ρ zunimmt, bis ein kritischer Wert von ρ erreicht wird, bei dem die Genauigkeit ein Maximum erreicht. Anschliessend nimmt die Genauigkeit wieder ab, wenn ρ weiter ansteigt, bis bei p=96 die oben beschriebenen, schlechten Ergebnisse erhalten werden (vgl. Fig. 4, Kurve a (bekannte Versuchswerte) und Kurve b (unbekannte Eingangsdaten)).

Die mit dieser Ilauptkomponentenmethode maximal erzielbare Klassifizierungsgenauigkeit wird immer noch durch die statistischen Schwankungen aufgrund der geringen Beisnielzahl beschränkt, und die Zahl der Komponenten oder Dimensionen, die man benötigt, ist viel grosser als die Zahl, die man zur Darstellung der Daten v/irklich als notwendig erwarten würde.

845/0594

6.Juni 1978

Man kann weiterhin aus der Darstellung der Fig. 4 entnehmen, dass das Ergebnis für vorgegebene, bekannte Muster tatsächlich schlechter ist als das Ergebnis für unbekannte Beispiele, und zwar gilt dies für einen weiten Bereich von p.

Der Grund der beschriebenen beiden Effekte liegt darin, dass der Probenraum mit ρ Komponenten des transformierten Vektors w dargestellt wird, wobei der Beitrag der übrigen 96-p Komponenten aus der Wahrscheinlichkeitsstatistik L entfällt. Ein Gebiet, in dem die meisten Muster zu finden sind, ist auf diese Weise beschrieben worden, aber das Gebiet, wo nur wenige Muster auftreten, ist nicht beschrieben worden. Diese letzteren Bereiche entsprechen den Ausläufern der Wahrscheinlichkeitsverteilung und damit den Bereichen, in denen eine Überlappung der verschiedenen Zielmusterklassen auftritt. Diese bekannten Methoden eliminieren also gerade die Information, die man benötigt, um die schwierigsten Klassifizierungsentscheidungen zu treffen. Unglücklicherweise sind diese Überlappungsbereiche von einer hohen Dimension, so dass es unpraktikabel wäre, das obige Argument umzukehren und beispielsweise eine kleine Anzahl von Komponenten von w zu benutzen, für welche die Varianz v. am kleinsten ist statt am grössten.

Gemäss der vorliegenden Erfindung wird der Effekt der nicht verwendeten Komponenten W₊₁, ··· ^wgg dadurch abgeschätzt, dass man eine Rekonstruktionsstatistik R in der folgenden Weise durchführt. Die aus dem Ausdruck für L (Gleichung 8F) herausfallenden Terme enthalten die Quadrate der Komponenten w., von denen jedes entsprechend seiner Varianz v. gewichtet ist. Alle diese Varianzen können durch einen konstanten Parameter c angenähert werden, der dann in der folgenden Weise

909845/0594

u - 163 6.Juni 197 8

- 44 -

herausgezogen werden kann

96 w. Γ

i=p+1 v_±

96

i=p+1

(Gleichung 8G)

Die Summierung auf der rechten Seite ist gerade das Quadrat der euklidischen Norm (Länge) des Vektors

,w_QJ . (Gleichung 8H)

Wenn man einen Vektor w^p definiert

w^p = (W₁,..., w_p),

dann erhält man

(Gleichung 81)

ZI 2 . -

^_ ^wi = Iv;¹ / ² = |w/ ² - |w^p/ ², (Gleichung 8J) i=p+1

da die Vektoren w, w¹ und w^p als ein rechtwinkliges Dreieck bildend angesehen werden können. Die Eigenvektormatrix E führt zu einer orthogonalen Transformation, so dass die Länge von w gleich ist wie die Länge von x-x. Es ist daher nicht 'mehr notwendig, alle Komponenten von w zu berechnen. Die gesuchte Statistik, die den Effekt der nicht berücksichtigten Komponenten auf die Log-Wahrscheinlichkeitsfunktion L abschätzt, ergibt sich daher aus der folgenden Beziehung

R =

fx-xi²

1/2

(Gleichung 8K)

909845/0594

6.Juni 1978

Das ist die Länge der Differenz zwischen dem beobachteten Vektor x-x und dem Vektor, den man erhalten würde, wenn man x-x als eine Linearkombination der ersten ρ Eigenvektoren e. von K aufbauen würde. R hat daher den Charakter einer Aufbaufehler-Statistik. Um R in der Wahrscheinlichkeitsfunktion zu benützen, kann diese Funktion einfach dem Satz der transformierten Vektorkomponenten hinzugefügt v/erden, so dass ein neuer Random-Vektor (w^, W₂-.../W ,R) erzeugt wird, von dem man annimmt, dass er unabhängige Gauss"sehe Komponenten hat. Unter dieser Annahme ergibt sich für die neue Wahrscheinlichkeitsstatistik

P (W₁-W.) £

-L¹ = 1/2 χ —-—-— + 1/2 <>. In var (W₁) + M (Gleichung 8L i=l var(w.) i=l

(Ό —12Λ

M = 1/2 _Tr=WT^ + 1/2 In var (R) (Gleichung 8M var \i\j

Die mit einem Querstrich versehenen Variablen sind Mittelwerte (sample means) und var () beschreibt die Varianz der unbeschränkten Beispiele. In Gleichung 8L sollte der Wert von wT Null sein und var (ν/_±) sollte gleich V₁ sein. Jedoch können die Eigenvektoren nicht mit unendlicher arithmetischer Präzision errechnet und angewendet werden, so dass es am besten ist, die Mittelwerte und Varianzen nach der Transformation noch einmal zu messen, um den systematischen statistischen Fehler zu berücksichtigen, der sich aufgrund von arithmetischen Abrundungsfehlern ergibt. Dies bezieht sich auch auf die Gleichung 8F.

9098AR/0

Die gemessene Leistung der Wahrscheinlichkeitsstatistik L¹ mit demselben Maximalwahrscheinlichkeits-Entscheidungsprocessor ist in den Kurven (c) und (d) von Fig. 4 dargestellt. Man erkennt, dass mit dem Anstieg von ρ die Klassifizierungsgenauigkeit wieder ein Maximum erreicht, dass dieses aber in diesem Falle bei einer wesentlich kleineren Dimensionszeit ρ liegt. Ausserdem ist die maximal erreichbare Genauigkeit deutlich höher als für die Statistik L, welche sich nur durch das Weglassen des Rekonstruktionsfehlers R unterscheidet.

Als weitere Tests der Wirksamkeit der Rekonstruktionsabweichungs-Statistik R v/urde dasselbe praktische Experiment noch einmal wiederholt, aber in diesem Falle v/urde als Wahrscheinlichkeitsfunktion einfach verwendet

L" = -M. (Gleichung 8N)

Mit anderen Worten heisst es, dass dieses Mal der Bereich, in dem die meisten Probendaten liegen, ignoriert wurde, während der Bereich, in dem relativ wenige Proben liegen, beschrieben wurde. Die damit erreichte Maximalgenauigkeit (Kurven (e) und

(f) in Fig. 4) ist fast so hoch wie bei Verwendung der Statistik L¹, und das Maximum ergibt sich für eine noch kleinere Dimensionszahl n=3. Dieses Ergebnis kann man in der Weise interpretieren, dass jedes Datenbeispiel oder jede Datenprobe (data sample), welches im Raum der ersten ρ Eigenvektoren von K liegt, so angesehen werden kann, als gehöre es zu der Zielmusterklasse und dass sich wenig oder gar kein Vorteil daraus ergibt, dass man innerhalb dieses Raumes detaillierte Wahrscheinlichkeitsabschätzungen durchführt.

909βΛ5/059Λ

6.Juni 1978

Statistische Wahrscheinlichkeitsberechnung

Die transformierten Daten w., die einem mehrere Spektren umfassenden Mustersatz χ entsprechen, werden als Eingangsdaten der statistischen Wahrscheinlichkeitsrechnung verwendet. Dieser Processor berechnet - wie oben beschrieben - eine Wahrscheinlichkeit dafür, dass die unbekannten Eingangsdaten, die durch die nacheinander angelieferten, transformierten, mehrere Spektren umfassenden Mustersätze dargestellt werden, mit jedem der Zielmuster der Schlüsselwortschablonen in dem Vokabular der Maschine übereinstimmen. Typischerweise weist jeder Satz von Zielmustern eine etwas unterschiedliche Wahrscheinlichkeitsdichte auf, jedoch ist diese statistisch durch eine Normalverteilung gut angenähert, welche einen Mittelwert w7 und · eine Varianz var (w^) hat, wobei i die fortlaufende Bezeichnung der Elemente des k-ten Zielmusters ist. Die einfachste Anwendung des Prozesses nimmt an, dass die verschiedenen Werten von i und k zugeordneten Daten unkorreliert sind, so dass die vereinigte Wahrscheinlichkeitsdichte (joint probability density) für den Satz x, der zum Zielmuster k gehört, durch die folgende Beziehung angegeben wird (logarithmisch)

L(t|k) = _p(x,k) = Γ

— 2

1/2 In 2/, (var (W₁)) -1/2 _(w _ _w<)

var

(Gleichung 9)

Da der Logarithmus eine monotone Funktion ist, reicht diese Statistik aus, um zu bestimmen, ob die Wahrscheinlichkeit

9D3845/059i

6.Juni 1978

einer Übereinstimmung eines Zielmusters einer Schlüsselwortschablone grosser ist als die Wahrscheinlichkeit der Übereinstimmung mit irgendeiner anderen Schablone des Vokabulars oder die>

ob alternativ/Wahrscheinlichkeit der Übereinstimmung mit einem bestimmten Muster ein vorgegebenes Minimalniveau überschreitet. Für jeden eingegebenen Mustersatz wird eine statistische Wahrscheinlichkeitsfunktion L (t|k) für alle Zielmuster der Schlüsselwortschablonendes Vokabulars berechnet. Die sich ergebenden Wahrscheinlichkeitsstatistiken L (ti k) sind als relative Wahrscheinlichkeit dafür zu interpretieren, dass ein -Zielmuster mit der Bezeichnung k zur Zeit t auftritt.

Wie sich für den'Fachmann ergibt, stellt diese Umordnung der Wahrscheinlichkeitsstatistik die Spracherkennung insoweit dar_Λ als sie ausgehend von einem einzigen Zielmuster durchgeführt werden kann. Diese Wahrscheinlichkeitsstatistiken können in einem Gesamtsystem in verschiedener Weise eingesetzt werden, dies hängt von der durchzuführenden Funktion ab.

Auswahl von "Kandidaten-Schlüsselwörtern"

Bei einem bevorzugten Ausführungsbeispiel der Erfindung ist vorgesehen, dass die Eingangsdaten weiter untersucht werden, wenn die Wahrscheinlichkeitsstatistik ergibt, dass der Mustersatz im Vergleich mit einem ersten Zielmuster eine vorgegebene Schwelle überschreitet. Dieser Vergleich wird bei 101 und 103 durchgeführt. Bei der weiteren Untersuchung v/ird zuerst ein lokales Maximum für die Wahrscheinlichkeitsstatistik bestimmt, welches dem bestimmten ersten Zielmuster entspricht und dann wird festgestellt, ob andere Mustersätze existieren, die zu anderen Zielmustern des ausgewählten, potentiellen "Kandidaten-

90984B/0594

Schlüsselwortes" passen. Das wird bei 105 angedeutet. Der Prozess des wiederholten Vergleichs von neu geformten Mustersätzen mit allen ersten Zielraustersätzen wird also unterbrochen; es setzt eine Suche ein nach einem Mustersatz, der auf den "ersten" Mustersatz folgt und der bezüglich seiner statistischen Wahrscheinlichkeit am besten dem nächsten (zweiten Zielmuster des potentiellen Kandidaten-Schlüsselwortes oder der potentiellen Kandidaten-Schlüsselwörter entspricht.

Wenn ein "zweiter" Mustersatz, der zweiten Zielmustern entsprechen würde, nicht innerhalb einer vorgegebenen Zeit aufgefunden wird, dann wird diese Untersuchungsfolge beendet und der Erkennungsprozess beginnt erneut zu einer Zeit unmittelbar nach dem Ende des "ersten" Mustersatzes, v/elcher ein potentielles Kandidaten-Wort identifiziert hat. Nachdem also der "erste·" Mustersatz eine Wahrscheinlichkeit hervorruft, die grosser ist als der erforderliche Schwellwert, wird eine feste Zeit vorgegeben, innerhalb welcher ein Mustersatz aufgefunden werden muss, der dem nächsten Zielmuster in der Folge der Zielmuster bei dem ausgewählten potentiellen Kandidaten-Schlüssewort entsprechen muss.

Die Länge des Zeitabschnittes kann variabel sein, beispielsweise kann sie von der Dauer des phonetischen Segmentes des speziellen potentiellen Kandidaten-Schlüsselwortes abhängen.

Dieser Vorgang setzt sich fort, bis entweder

(1) in den Eingangsdaten Mustersätze identifiziert worden sind, die allen Zielmustern der Schlüsselwortschnblone entsprechen oder

u - 163

6.Juni 1978

(2) kein Zielmuster innerhalb der erlaubten Zeit mit irgendeinem Mustersatz assoziiert v/erden kann.

Wenn die Suche entsprechend (2) beendet' wird, dann beginnt die Suche für ein neues "erstes" Spektrum von neuem, wie dies oben angegeben ist, und zwar bei dem Spektrum, das sich an das Ende des "ersten" vorher identifizierten Mustersatzes anschliesst.

In diesem Stadium des Prozesses müssen mögliche Mustersätze, die Zielmustern entsprechen, verkettet werden, um Kandidaten-Wörter zu bilden (dies ist bei 107 angedeutet). Die Nachweisschwelle wird daher niedrig angesetzt, so dass es sehr unwahrscheinlich ist, dass ein richtiger Mustersatz zurückgewiesen wird. Hier in diesem akustischen Stadium wird die Unterscheidung zwischen richtigem Nachweis und falscher Anzeige im wesentlichen durch das Erfordernis erreicht, dass eine Anzahl von Übereinstimmungen gleichzeitig nachgewiesen werden müssen.

Nachentscheidungsverarbeitung

Dieses Verfahren dauert an, bis die Audio-Eingangssignale zu Ende sind. Aber auch nach der Identifizierung eines Schlüsselwortes mit Hilfe des oben beschriebenen Wahrscheinlichkeitstests werden vorzugsweise noch weitere Nachentscheidungstests (Bezugszeichen 109) vorgenommen, um die Wahrscheinlichkeit herabzusetzen, ein unrichtiges Schlüsselwort herauszusuchen (d.h. um die Hange der Falschanzeigen herabzusetzen), während die Wahrscheinlichkeit eines richtigen Nachweises so hoch wie

9 0 9 Π 4 5 / Π 5 9 k

möglich gehalten werden soll. Aus diesem Grunde wird das Ergebnis des akustischen Processors, d.h., ein mit Hilfe des Verkettungsprozesses ausgewähltes Kandidaten-Wort, weiter durch eine Maske von der Betonung des Wortes entsprechenden Zeitfenstern (prosodic relative timing windows) und/oder einen Wahrscheinlichkeitsverhältnistest gefiltert, welcher Informationen des akustischen Niveauprocessors verwendet, die alle Zielmusterklassen betreffen.

Die Prosodie-Maske

Wie oben beschrieben erhält man bei der Bestimmung der Wahrscheinlichkeitsstatistik die Zeit, an welcher ein Mustersatz einen Spitzenwert der Wahrschexnlichkeitsfunktion im Vergleich mit einem Zielmuster eines Schlüsselwortes aufweist. Dieser Zeitpunkt wird in einem bevorzugten Ausführungsbeispiel der Erfindung für jedes der ausgewählten Mustersätze, die den verschiedenen aufeinanderfolgenden Zielmustern eines Kandidaten-Schlüsselwortes entsprechen, aufgenommen. Diese Zeiten pt.., pt„ / .... pt für jedes Kandidaten-Schlüsselwort werden entsprechend einer vorbestimmten Prosodie- oder Betonungsmaske für dieses Schlüsselwort analysiert und ausgewertet, um festzustellen, ob die Zeitintervalle zwischen aufeinanderfolgenden Wahrscheinlichkeitsspitzen vorbestimmten Kriterien entsprechen. Bei dieser Methode werden die Zeiten, die zwischen dem Auftreten von aufeinanderfolgenden Wahrscheinlichkeitsspitzen festgestellt werden, d.h. pt.-pt. _Λ für i = 2,3 ... η zunächst dadurch normalisiert, dass jedes Zeitintervall durch pt -Pt₁ dividiert wird. Die sich dabei ergebenden normalisierten Zeitintervalle werden dann mit einer Prosodie-Maske verglichen, d.h. mit einer Folge von möglichen Bereichen einer

$08845/0594

u - 163 _ 52 -

6.Juni 1978

normalisierten Intervallänge für das Kandidaten-Schlüsselwort. Wenn die festgestellten Intervallängen in die ausgewählten Bereiche hineinfallen, wird das Kandidatenwort akzeptiert.

Im dargestellten Ausführungsbeispiel werden die Zeitbereiche der Prosodie-Maske dadurch bestimmt, dass man die tatsächlich auftretenden Zeitintervalle von Probeschlüsselwörtern bestimmt, die von einer möglichst grossen Anzahl von verschiedenen Sprechern gesprochen worden sind. Das Prosodie-Muster wird dann mit den Zeiten eines statistischen Probeschlüsselworts verglichen, wobei eine statistische Berechnung verwendet wird. Darin wird die mittlere Standardabweichung für jede Prosodie-Maske (die jedem Schlüsselwort entspricht) von den Musterschlüsselwörtern abgeleitet. Anschliessend wird eine Wahrscheinlichkeitsstatistik berechnet, um entscheiden zu können, ob man ein bestimmtes Prosodie-Muster akzeptieren kann und damit eine endgültige Entscheidung zugunsten eines bestimmten Kandidaten-Schlüsselwortes treffen kann. Diese Wahrscheinlichkeitsstatistik bezieht sich auf den Zeitablauf der Ereignisse und darf nicht mit der Wahrscheinlichkeitsstatistik verwechselt werden, mit welcher die Hustersätze mit den Zielmustersätzen verglichen werden.

Bei einer anderen Ausgestaltung der Erfindung werden die Bereiche der normalisierten Zeitintervalle relativ breit, jedoch unveränderbar festgesetzt. Bei dieser Ausgestaltung wird ein Kandidaten-Schlüsselwort nur dann akzeptiert, wenn das normalisierte Zeitintervall in die Grenzen des feston Bereiches fällt. Ein Kandidaten-Wort wird also nur akzeptiert, wenn jede der normalisierten Zeiten innerhalb die vorgegebenen Grenzen fällt.

90984 5/0594

6.Juni 1978 - 53 -

Wortv/ahrscheinlichkeitstest

In dem bevorzugten Ausführungsbeispiel der Erfindung v/ird jedes Kandidaten-Wort auch mit einem Wahrscheinlichkeitsverhältnistest geprüft, ehe die endgültige Entscheidung zur Annahme des Schlüsselwortes getroffen wird. Dieser Wahrscheinlichkeitsverhältnistest besteht in der Aufsummierung sogenannter Güteziffern (figure of merit) über die Folge der ausgewählten
Mustersätze, die mit dem Kandidaten-Schlüsselwort als übereinstimmend herausgefunden worden sind. Die aufsummierte Güteziffer, welche die Summe der Güteziffern für jeden Mustersatz darstellt, v/ird dann mit einem Entscheidungsschwellwert verglichen.

Die Güteziffer eines untersuchten Mustersatzes ist die Differenz zwischen der besten logarithmischen Wahrscheinlichkeitsstatistik hinsichtlich eines Zielmusters im Schlüsselwortvokabular und dem besten Ergebnis relativ zu den Zielmustern, die als Alternativen des Zielmusters zugelassen v/erden. Wenn also das am besten abschneidende Zielmuster eine zugelassene Alternative des gesuchten Musters ist, dann ist die Güteziffer
Null. Wenn jedoch das beste Ergebnis einem Zielmuster entspricht, welches nicht in der Liste der zugelassenen Alternativen des ausgewählten Zielmusters des Kandidaten-Wortes ist
(ein gegebenes Zielmuster kann mehrere statistische Darstellungen haben, die vom Akzent etc. abhängen), dann ist die Güteziffer die Differenz zwischen dem besten Ergebnis und dem
besten Ergebnis, das in der Liste der zugelassenen Alternativen auftritt. Der Entscheidungsschwellwert v/ird optimal g^e~
wählt, so dass manden besten Ausgleich zwischen fehlender Erkennung und falscher Anzeige erhält.

4 5/0594

6.Juni 1978

Im folgenden wird der Wortwahrscheinlichkeitstest vom mathematischen Standpunkt aus betrachtet. Die Wahrscheinlichkeit, dass ein Random-Mustersatz χ auftritt, wenn man davon ausgeht, dass die Eingangssprachsignale einer Zielmusterklasse k entsprechen, ist gleich p(x\k), sprich "Wahrscheinlichkeit von χ bei gegebenem k". Die logarithmische Wahrscheinlichkeitsstatistik des Eingangs χ relativ zum k-ten Referenzmuster ist dann L(x|k) und ist gleich In p(x,k), wie dies in Gleichung 9 definiert ist. Wenn man annimmt, dass das untersuchte Muster von einem aus einer Gruppe von η vorbestimmten Zielmusterklassen verursacht werden muss und wenn man weiter annimmt, dass jede dieser Klassen mit gleicher Frequenz auftritt oder dass die η möglichen Auswahlen als gleichermassen gültig angesehen werden, dann ist die Wahrscheinlichkeit im Sinne einer relativen Frequenz des Auftretens der Beobachtung des Ereignis χ in jedem Fall die Summe der Wahrscheinlichkeitsdichten, welche durch die folgende Summation definiert ist:

— 1

P(x) = > P (xIk) · - (Gleichung 10)

k=1 ⁿ

Von diesem Auftreten ergibt sich der Teil, der einer bestimmten Klasse zugeordnet werden kann p(klx)) durch folgenden Ausdruck

P(xfk) . 1

p(k|x) = ⁿ

(Gleichung 11A) 2

2- t
/_ p(x i)

i1

9 0 9 8 U B / Π R 9

6.Juni 1978

oder logarithmisch

In p(k|x) = L(x]k) - 1n ]T p(x|i) (Gleichung 11b)

Wenn der Entscheidungsprocessor dann auf ein gegebenes χ angewendet wird und aus einem bestimmten Grund die Klasse k auswählt, dann ergibt die obige Gleichung 11A oder 11B die Wahrscheinlichkeit, dass die Auswahl richtig ist. Die obigen Gleichungen sind eine Folge der Bayes-Regel:

p(x,k) = p(x|k) p(k) = p(k]x) p(x), wobei p(k) als die Konstante — angenommen wird.

Wenn man annimmt, dass nur eine Klasse, beispielsweise die Klasse m, sehr wahrscheinlich ist, dann wird die Gleichung angenähert durch

ax\p(x]i) · M = ρ (x) m) .1 (Gleichung 12)

max

und es ergibt sich

(k,m,x) = L(x|k) -L(xjm) ^ ln.p(k'lx). (Gleichung 13).

Dabei ist zu bemerken, dass dann, wenn die k-te Klasse die

τ?
wahrscheinlichste ist, die Funktion " ihren Maximalwert Null annimmt. Wenn man über alle angenommenen, unabhängigen Mustersätze -summiert, dann gibt der aufsummierte Wert von r die Wahrscheinlichkeit an, dass das nachgewiesene Wort keine falsche

90984 5/0694

6.Juni 1978

Anzeige ist. Eine Entscheidungsschv/elle, die man auf diesen aufsummierten Wert von P anwendet, steht daher in direkter Beziehung zum Wechsel zwischen Nachweis- und Falschanzeigewahrscheinlichkeiten und ist die Basis des Wahrscheinlichkeits-Verhältnistests. Der aufsummierte Wert von f entspricht dann der Gütezahl des Kandidaten-Schlüsselworts.

90984 5/0594

. ⁵⁷

Leerseite

Claims

-JT-

DH.-ING. DlPI ING. M. SC. D'PL. ΡΗΥΓ. D.I. OIPL.-PHYS.

HÖGER - STELLRECHT - GRI-SSSACH - HAECKER

PATENTANWÄLTE IN STUTTGART

A 42 891 b Anmelder: DIALOG SYSTEMS, INC.

_u - 163 32 Locust Street,

6.Juni 1978 Belmont, Massachusetts 02178,

USA

Patentansprüche :

Verfahren zur Sprachenanalyse zum Erkennen wenigstens eines vorbestimmten Schlüsselwortes in einem Audio-Signal, welche Schlüsselwörter durch Schablonen mit mindestens einem Zielmuster charakterisiert werden, wobei die Zielmuster eine geordnete Folge aufweisen und mindestens ein Kurzzeit-Energiespektrum umfassen, gekennzeichnet durch folgende Schritte: man bestimmt wiederholt einen Parametersatz, welcher ein Kurzzeit-Energiespektrum des Audio-Signals innerhalb eines von mehreren, die gleiche Zeitdauer aufweisenden Messintervallen bestimmt, wodurch man eine kontinuierliche, zeitlich geordnete Folge von Kurzzeit-Audio-Energiespektrenabschnitten erzeugt,

man erzeugt mit einer schnell ansteigenden, langsam abfallenden Spitzendetektorfunktion ein den Kurzzeit-Energiespektrenabschnitten entsprechendes Spitzenspektrum,

man dividiert bei jedem Kurzzeit-Energiespektrenabschnitt die Amplitude jedes Frequenzbandes durch den korrespondierenden Intensitätswert des korrespondierenden Spitzenspektrums, wodurch man einen frequenzegalisierten Spektrenabschnitt erzeugt, welcher einem kompensierten Audio-Signal entspricht, welches denselben maximalen

309845/0594

A 42 891 b

Kurzzeit-Energieinhalt in jedem Frequenzband des Abschnittes aufweist, und

man identifiziert eine Kandidatenschlüsselwortschablone dann, wenn mehrere solche Spektrenabschnitte enthaltende Mustersätze mit den Zielmustern der Schlüsselwortschablone übereinstimmen.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass man bei der Erzeugung des Spitzenspektrums den Wert jedes Frequenzbandes des Spitzenspektrums aus dem grösseren Wert der folgenden Werte auswählt:

(a) der laufende Wert des Spitzenspektrums multipliziert mit einem konstanten Verkleinerungsfaktor, dessen Wert kleiner ist als eins oder

(b) der eingehende Wert eines neuen Spektrenabschnitts.

3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass man aus der Folge der egalisierten Spektrenabschnitte wiederholt einen ersten Abschnitt und

wenigstens einen später auftretenden Abschnitt auswählt und aus diesen Abschnitten einen Mustersatz aufbaut,

dass man jeden auf diese Weise gebildeten, mehrere Spektrenabschnitte umfassenden Mustersatz mit jedem ersten Zielmuster jeder Schlüsselwortschablone vergleicht,

dass man entscheidet, ob jeder dieser Mustersätze mit einem ersten Zielmuster einer Schlüsselwortschablone

909845/0594

A 42 891 b

übereinstimmt,

dass man für jeden Mustersatz, der entsprechend dieser Entscheidung einem ersten Zielmuster eines potentiellen Kandidaten-Schlüsselworts entspricht später auftretende, egalisierte Kurzzeit-Energiespektrenabschnitte auswählt und aus diesen später auftretende Mustersätze bildet,

dass man entscheidet, ob die später auftretenden Mustersätze späteren Zielmustern der Schablone des potentiellen Kandidaten-Schlüsselworts entsprechen und

dass man eine Kandidaten-Schlüsselwortschablone dann identifiziert, wenn die ausgewählten Mustersätze den Zielmustern der Schlüsselwortschablone entsprechen.

A 42 891 b

6. Juni 1978 - 4 - ^Z ° ^L ° ' ^IU

4. Verfahren zur Erkennung mindestens eines Zielmusters in einem Datenstrom, bei welchem das Zielmuster durch einen Vektor mit Erkennungselementen x. gekennzeichnet ist, welche eine statistische Verteilung aufweisen, dadurch gekennzeichnet, dass

man für mehrere vorgegebene Musterproben χ des Zielmusters eine Kovarianzmatrix K bestimmt,

dass man aus diesen mehreren vorgegebenen Mustern einen Erwartungsvektor χ bestimmt,

dass man aus der Kovarianzmatrix K eine Vielzahl von Eigenvektoren e. mit Eigenwerten v. bildet, wobei v.

_> 1 11

dass man aus dem Datenstrom unbekannte Muster y auswählt,

dass man jedes Muster y in einen neuen Vektor (W₁, W-W , R) transformiert, wobei W. = e. (y - x), wobei ρ eine positive ganze Zahl ist, die kleiner ist als die Zahl der Elemente des Musters y, und wobei R der statistische Rekonstruktionsfehler ist und durch die Beziehung

1/2

gegeben ist,

und dass man durch die Anwendung einer statistischen Wahrscheinlichkeitsfunktion auf den neuen Vektor (W.. , W-..., W , R) entscheidet, ob das Muster y mit dem Zielmuster übereinstimmt.

909845/0594

6.Juni 1978 - 5 -

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass man eine Wahrscheinlichkeitsstatistik I¹ entsprechend der Gleichung

I¹ = - 1/2 ΓΣ ) (^Wi A) +

m var (W.)(

var (W.)

(R - R ) + in var (R)

var (R)

berechnet, in welcher die quergestrichenen Variablen Probenmittelwerte sind und in welcher var () die Varianz der unbeschränkten Proben ist.

6. Verfahren nach Anspruch A₁ dadurch gekennzeichnet, dass man eine Wahrscheinlichkeitsstatistik 1" nach der folgenden Beziehung

r _ 2

1" = - 1/2 + m var (R)

L var (R)

berechnet, bei welcher die quergestrichenen Variablen Probenmittelwerte sind und bei welcher var () die Varianz der unbeschränkten Proben ist.

7. Verfahren zur Erkennung mindestens eines vorbestimmten Schlüsselwortes in einem kontinuierlichen Audio-Signal, bei welchem das Schlüsselwort durch eine Schablone charakterisiert ist, die mindestens ein Zielmuster aufweist, wobei die Zielmuster eine geordnete Folge haben

909845/0594

u - 163

6.Juni 1978 - 6 -

und jedes Zielmuster eine Vielzahl von Kurzzeit-Energiespektren umfasst, die in der Realzeit im Abstand zueinander auftreten, dadurch gekennzeichnet, dass man für jedes Zielmuster aus einer Anzahl von vorgegebenen Musterproben χ des Zielmusters mit den Elementen x. eine Kovarianzmatrix K bildet,

dass man aus dieser Anzahl von vorgegebenen Mustern einen Erwartungswertvektor χ bildet,

dass man aus der Kovarianzmatrix K eine Vielzahl von Eigenvektoren e. mit Eigenvektoren v. bildet, wobei

>
^vi = ^vi₊l

dass man wiederholt einen Satz von Parametern bestimmt, der innerhalb einer Anzahl von gleichlangen Probenintervallen Kurzzeit-Energiespektren des Audio-Signals bestimmt, so dass man eine kontinuierliche, zeitgeordnete Folge von Kurzzeit-Audio-Energiespektrenabschnitten erhält,

dass man wiederholt aus dieser Folge von Spektrenabschnitten einen ersten Abschnitt und mindestens einen später auftretenden Abschnitt auswählt und aus diesem einen Mustersatz y bildet,

dass man jeden Mustersatz y in neue Vektoren W, dargestellt als (W., W₂...., W , R) transformiert, wobei W. = e. (y - x), wobei ρ eine positive ganze Zahl ist,

909845/0 B 9 k

^{A 42 891 b}
u - 163

6.Juni 1978 - 7 -

die kleiner ist als die Zahl der Elemente im Mustersatz y, und wobei R die statistische Rekonstruktionsabweichung darstellt und durch die folgende Beziehung gegeben ist

1/2

[y - χ

dass man entscheidet, ob jeder transformierte Mustersatz einem ersten Zielmuster einer Schlüsselwortschablone entspricht,

dass man für jeden Mustersatz, der bei diesem Entscheidungsschritt als dem ersten Zielmuster eines potentiellen Kandidaten-Worts entsprechend erkannt wird, später auftretende Kurzzeit-Energiespektren auswählt, um mit diesen (später auftretende Mustersätze zu bilden,

dass man entscheidet, ob die später auftretenden Mustersätze später folgenden Zielmustern der Schablone des potentiellen Kandidaten-Wortes entsprechen und

dass man die Schablone eines Kandidaten-Schlüsselwortes dann identifiziert, wenn die ausgewählten Mustersätze den Zielmustern der Schlüsselwortschablone entsprechen.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass man eine Wahrscheinlichkeitsstatistik 1· entsprechend der Gleichung

809845/0594

A 42 891 b

u - 163 282511 O

6. Juni 1978 -8- ZOZO I I U

ρ 1< = -

' L var (R)

berechnet, in welcher die quergestrichenen Variablen Probenmittelwerte sind und in v/elcher var () die Varianz der unbeschränkten Proben ist.

5· Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass man eine Wahrscheinlichkeitsstatistik 1" nach der folgenden Beziehung

1" - - V2 ]__{var (R)} + Ir

berechnet, bei welcher die quergestrichenen Variablen Probenmittelwerte sind und bei welcher var () die Varianz der unbeschränkten.Proben ist.

ο. Verfahren nach einem der Ansprüche 7, 8 oder 9, dadurch gekennzeichnet, dass man wiederholt mittels einer schnell ansteigenden, langsam abfallenden Detektorfunktion ein Spitzenspektrum erzeugt, welches den Kurzzeit-Energiespektrenabschnitten entspricht und dass man bei jedem Kurzzeit-Energiespektrenabschnitt die Amplitude jedes Frequenzbandes durch die Intensität des korrespondierenden Spitzenspektrums dividiert, wodurch man einen frequenzegalisierten Spektrenabschnitt erhält, der einem kompensierten Audio-Signal entspricht, welches denselben

909845/0594

A 42 891 b

6.Jum 1978 - 9 -

maximalen Kurzzeit-Energieinhalt in jedem Frequenzband des Abschnittes aufweist.

11. Verfahren nach Anspruch 1Ω, dadurch gekennzeichnet, dass man bei der Erzeugung des Spitzenspektrums den Wert desselben in jedem Frequenzband aus dem Maximum eines der beiden Werte auswählt:

(a) der laufende Wert des Spitzenspektrums multipliziert mit einem konstanten Verkleinerungsfaktor, der kleiner ist als eins oder

(b) der eingehende Wert des neuen Spektrums.

90984 5/0594