DE2659096A1 - Verfahren und vorrichtung zur spracherkennung - Google Patents
Verfahren und vorrichtung zur spracherkennungInfo
- Publication number
- DE2659096A1 DE2659096A1 DE19762659096 DE2659096A DE2659096A1 DE 2659096 A1 DE2659096 A1 DE 2659096A1 DE 19762659096 DE19762659096 DE 19762659096 DE 2659096 A DE2659096 A DE 2659096A DE 2659096 A1 DE2659096 A1 DE 2659096A1
- Authority
- DE
- Germany
- Prior art keywords
- spectrum
- values
- value
- interval
- corresponds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000001228 spectrum Methods 0.000 claims description 92
- 239000013598 vector Substances 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000012935 Averaging Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 17
- 230000009466 transformation Effects 0.000 description 16
- 238000005311 autocorrelation function Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000009958 sewing Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Λ 42 145 b
ü - 1.63 ;
27. Dezember 1976
Dialog Systems, Inc.
Verfahren und Vorrichtung zur Spracherkennung
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Spracherkennung, bei denen das Spektrum eines Audio-Signales
analysiert wird, um das Verhalten der Formantresonanz während
eines Zeitintervalls zu bestimmen. Eine Vielzahl von Spracherkennungssystemen sind bisher vorgeschlagen worden, auch
solche, die versuchen, sogenannte Phoneme zu erkennen/und die die Erkennung und Bestimmung des Musters der Formantfrequenzen
in der Sprache zu erreichen suchen. Während diese bekannten
709827/0770
A 42 145 b
u - 163
27. Dezember 1976 - # - 2659096
Techniken bis zu einem gewissen Masse erfolgreich waren, bleiben doch erhebliche Probleme zu lösen. Beispielsweise ist das
erkennbare Vokabular begrenzt; die Genauigkeit der Spracherkennung hängt in starkem Masse von Unterschieden der Sprachcharakteristiken
verschiedener Sprecher ab; die Systeme sind ausserdem sehr empfindlich gegen Verzerrungen der zu analysierenden
Sprachsignale. Dieses letztere Problem verhindert den Einsatz automatischer Spracherkennungssysteme bei Sprachsignalen,
die über gewöhnliche Telefonleitungen übermittelt werden, obwohl diese Signale von einem menschlichen Hörer
ohne weiteres erkannt und verstanden v/erden können.
Es ist daher Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Sprachanalyse zu schaffen, die eine
verbesserte Spracherkennungsgenauigkeit aufweisen. Die Empfindlichkeit gegenüber Frequenzverzerrung der zu erkennenden
Sprachsignale soll relativ klein sein. Ferner soll auch die Empfindlichkeit gegenüber Sprechgeschwindigkeitsunterschieden
möglichst gering sein. Ein solches System soll verschiedene Stimmen erkennen können. Schliesslich soll eine entsprechende
Vorrichtung verlässlich arbeiten und relativ einfach und daher kostensparend aufgebaut sein.
Diese Aufgabe wird gemäss der Erfindung durch ein Verfahren
zur Sprachanalyse gelöst, wie es in den Ansprüchen beschrieben ist.
Das Spracherkennungssystem der vorliegenden Erfindung analysiert
ein Audio-Signal zur Bestimmung des Verhaltens der Formantfrequenzen in einem Zeitintervall, welches einem ge-
709827/0770
Λ 42 145 b
u - 163
27. Dezember 19 76 -JT-
sprochenen Wort oder einem Satz oder einer Phrase entspricht.
In diesem Intervall wird wiederholt ein das Amplituden- oder Energiespektrum des Audio-Signales in einem kurzen Teilintervall
darstellendes Spektrum erzeugt. In jedem Frequenzband eines Spektrums wird der über das Zeitintervall auftretende
Maximalwert bestimmt, so dass man für das Zeitintervall ein sogenanntes Spitzenspektrum erhält. Dieses Spitzenspektrum
wird durch einen Mittelungsprozess geglättet, bei welchem jeder Spitzenwert mit den Werten der benachbarten Frequenzbänder
gemittelt wird. Die Breite des gesamten zur Mittelung beitragenden Bandes entspricht etwa dem typischen Frequenzabstand
zwischen Formantfrequenzen (etwa 1000 Hz). In jedem
der Spektren der ursprünglich ermittelten Folge von Spektren werden die Amplitudenwerte jedes Frequenzbandes durch den
entsprechenden Wert des geglätteten Spitzenspektrum dividiert. Dadurch erhält man eine entsprechende Folge von frequenzegalisierten
Spektren. Ein Vergleich eines solchen egalisierten Spektrums mit Basisdaten, die ein bekanntes Vokabular beschreiben,
führt zu einer wesentlich verbesserten Erkennung des
Originalsprachsignals, auch wenn dieses einer Frequenzverzerrung unterworfen wurde, beispielsweise durch eine Telefonübertragungsleitung.
Bei einer Weiterbildung der Erfindung werden die Amplitudenänderungen
in jedem Frequenzband des egalisierten Spektrums gewichtet und addiert, um ein Mass für die Subjektivzeit zu
erhalten. Dann werden eine begrenzte Anzahl von Spektren ausgewählt,
die in Bezug auf die Subjektivzeit gleiche Intervalle repräsentieren sollen. Dadurch werden Unterschiede in der
Sprechgeschwindigkeit eliminiert. Die ausgewählten Spektren
709827/0770
Λ 42 145 b
u - 163
27. Dezember 19 76 - y-
werden dann norm±ert und transformiert, so dass die Unterschiede zwischen phonetisch unterschiedlichen Lauten besonders deutlich
v/erden. Mit Hilfe einer Maximalwahrscheinlichkeitsmethode werden die transformierten Werte dann mit Basisdaten verglichen,'
die das zu erkennende Vokabular repräsentieren.
Vorteilhafte Aus- und Weiterbildungen der Erfindung sind Gegenstand
der Neben- und Unteransprüche und in diesen niedergelegt. Die Erfindung betrifft neben dem Verfahren zur Spracherkennung
auch eine Vorrichtung zur Durchführung dieses Verfahrens.
Die nachfolgende Beschreibung bevorzugter Ausführungsformen
der Erfindung dient im Zusammenhang mit der Zeichnung der näherei
Erläuterung. Es zeigen:
Fig. 1 ein Flussdiagramm der v/esentlichen Verfahrensschritte
des erfindungsgemässen Verfahrens;
Fig. 2 ein schematisches Blockdiagramm einer elektronischen
Vorrichtung zur Durchführung einiger Anfangsoperationen in dem in dem Flussdiagramm der Fig. 1 dargestellten
Verfahren und
Fig. 3 ein Flussdiagramm eines digitalen Computerprogramms zur Durchführung einiger weiterer Verfahrensschritte
des in Fig. 1 dargestellten Verfahrens.
Entsprechende Bezugszeichen bezeichnen in sämtlichen Zeichnungen entsprechende Teile.
709827/0770
Λ 42 145 b
In dem besonderen bevorzugten Ausführungsbeispiel, welches hier beschrieben wird, wird die Spracherkennung durch eine
Vorrichtung erreicht, die sowohl speziell konstruierte elektronische Systeme zur Durchführung bestimmter analoger und digitaler
Prozeduren an den eingehenden Sprachsignalen als auch einen digitalen Mehrzweckcomputer umfasst, der gemäss der vorliegenden
Erfindung programmiert ist, um bestimmte Datenreduktionsschritte und numerische Auswertungen durchzuführen. Die
Aufteilung der Aufgaben zwischen dem hardware-Teil und dem software-Teil des Systems ist so durchgeführt, dass man ein
Gesamtsystem erhält, welches Spracherkennung im Echtzeitbetrieb zu geringen Kosten durchführen kann. Es wird jedoch darauf
hingewiesen, dass einige der von den hardware-Teilen des besonderen Systems durchgeführten Aufgaben ebenso auch in software
vorliegen können, während einige der durch die Software-Programmierung durchgeführten Aufgaben dieses Beispiels in
einem anderen Ausführungsbeispiel ebenso mittels einer Vielzweckschaltungsanordnung
durchgeführt werden können.
Die durch das vorliegende System bei der Erkennung von Sprachsignalen
aufeinanderfolgenden Operationen sind in Fig. 1 allgemein dargestellt. Es ist nützlich, diese anfängliche übersichtsbeschreibung
auch bei der folgenden detailierten Beschreibung der verschiedenen Datenverarbeitungen im Auge zu
behalten, um das Verständnis des detailiert beschriebenen Verfahrens zu erleichtern. Wie bereits ausgeführt, liegt ein
Merkmal der vorliegenden Erfindung in der Schaffung einer Vorrichtung, die Sprachsignale auch dann erkennen kann, wenn
diese Signale frequenzverzerrt sind, z.B. durch eine Telefonübertragungsleitung.
In Fig. 1 kann man daher annehmen, dass
70 9 8 27/0770
A 42 145 b
u - 163
27. Dezember 1976 -JT- 2659096
das Spracheingangssignal 11 ein Sprachsignal ist, das von
einer Telefonleitung empfangen wird und über eine beliebige Entfernung und über eine Anzahl von Schaltzwischenstationen
gelaufen ist.
Wie sich im Verlaufe der folgenden Beschreibung verdeutlichen wird, betreffen das beschriebene Verfahren und die entsprechende
Vorrichtung die Erkennung von Sprachsegmenten, die eine Folge von Tönen, Lauten oder "Phonemen" enthalten. In der
folgenden Beschreibung und in den Ansprüchen wird auf ein "einem gesprochenen Wort entsprechendes Intervall" Bezug
genommen, da dies eine einfache Möglichkeit darstellt, eine Minimalzeitdauer zu formulieren, welche ausreicht, eine erkennbare
Ton- oder Lautfolge zu enthalten. Dieser Ausdruck sollte jedoch weit und allgemein so verstanden werden, dass er auch
eine Anzahl von Wörtern im grammatikalischen Sinn oder nur ein einziges Wort enthalten kann.
In der dargestellten Ausführungsform wird das einem gesprochenen
Wort entsprechende Intervall etwas willkürlich als ein Ein-Sekunden-Intervall angenommen. Es sind eine Anzahl von
Techniken bekannt, wie ein solches Intervall zu beginnen ist. Die spezielle Technik, die dafür angewandt wird, ist im wesentlichen
nicht Teil der vorliegenden Erfindung. Vorzugsweise wird das Intervall jedoch dann begonnen, wenn die in der im
folgenden beschriebenen Weise berechnete Grosse eines Eingangssignales
in einem Gleitfenster von etwa dreissig aufeinanderfolgend erzeugten Spektren des Sprachsignales, die in der im
folgenden beschriebenen Weise digitalisiert sind, einen vorgegebenen Schwellwert um mehr als die Hälfte übersteigt.
— 7 —
709827/0770
A 42 145 b
u- 163
27. Dezember 19 76 -)7 -
Nachdem die Amplitude mit einer automatischen Verstärkungsregelungsschaltung
(AVR-Schaltung) normalisiert ist, wird das Sprachsignal digitalisiert, d.h., die Signalamplitude wird in
digitale Form umgewandelt. Im folgenden Beispiel wird eine binäre 8-bit-Darstellung der Signalamplitude mit einer Geschwindigkeit
von 10 000 Umwandlungen pro Sekunde erzeugt. Ein Autokorrelator 17 verarbeitet dieses Eingangssignal und
erzeugt 100-mal pro Sekunde eine Autokorrelationsfunktion, wie dies bei 19 angedeutet ist. Jede Autokorrelationsfunktion
umfasst 32 Werte oder Kanäle, wobei jeder Wert auf eine 24-bit-Auflösung berechnet wird. Der Autokorrelator wird weiter
unten unter Bezugnahme auf Fig. 2 näher beschrieben.
Die Autokorrelationsfunktionen 19 werden einer Fourier-Transformation
unterzogen, wie dies bei 21 angedeutet ist, so dass man die entsprechenden Energiespektren 23 erhält. Diese Spektren
werden mit derselben Wiederholungsrate berechnet wie die Autokorrelationsfunktion, d.h. mit 32 Kanälen, von denen jeder
eine Auflösung von 16 bits hat. Jeder der 32 Kanäle in jedem Spektrum stellt ein Frequenzband dar. In der vorliegenden
Ausführungsform werden die Fourier-Transformation sowie die weiteren Verarbeitungsschritte mit Hilfe eines digitalen
Vielzweckcomputers durchgeführt, der entsprechend programmiert ist und zur Beschleunigung der bei der vorliegenden Methode
wiederholt erforderlichen arithmetischen Operationen periphere Array-Prozessoren verwendet. Der speziell eingesetzte Computer
ist ein Modell PDP11, der von der Digital Equipment Corporation of Maynard, Massachusetts, USA, hergestellt worden ist.
Die im folgenden unter Bezugnahme auf Fig. 3 beschriebene Programmierung ist im wesentlichen auf die Möglichkeiten und
709827/0770
Λ 42 145 b
u - 163
27. Dezember 1976 -18 -
Eigenschaften dieses im Handel erhältlichen Computers abgestellt.
Jedes der aufeinanderfolgenden Spektren v/ird frequenzegalisiert,
wie dies bei 25 angedeutet ist. Diese Egalisierung wird als Funktion der in jedem Frequenzband innerhalb des Intervalls
auftretenden Spitzenamplitude durchgeführt, wie dies weiter unten ausführlich beschrieben wird.
Die egalisierten Spektren 26 werden wiederum mit einer Rate von 100 pro Sekunde erzeugt, jedes Spektrum hat 32 Kanäle,
die mit einer Genauigkeit von 16 Binärbit ausgewertet werden.
Um Unterschiede in der Sprechgeschwindigkeit auszugleichen, führt das System dann eine Neuverteilung oder Kompensation
durch, die auf dem Ablauf der subjektiven Zeit beruht. Diese Kompensation wird v/eiter unten noch genauer beschrieben, im
Augenblick sei aber darauf hingewiesen, dass diese Auswertung im wesentlichen in der Addition der Grossen aller Amplitudenänderungen
besteht, die in all den verschiedenen Frequenzkanälen im interessierenden Intervall auftreten. Diese Addition
wird bei 29 durchgeführt. Da die Spracherkennung in gewissem Ilasse auf der Verschiebung der Formantfrequenzen beruht,
ist die Verschiebungsgeschwindigkeit ein Hinweis auf die Sprachgeschwindigkeit. Diese Verschiebungen lassen sich auch
an Änderungen der Amplituden in den beteiligten Frequenzkanälen erkennen.
Diese subjektive Zeitauswertung bildet eine Grundlage für die Auswahl einer begrenzten Anzahl von Spektren innerhalb des
709827/0770
Λ 42 145 b
u - 163
27. Dezember 19 76 -*9 - 2659096
Intervalls, wobei diese ausgewählten Proben das gesprochene Wort recht gut repräsentieren. Wie bereits ausgeführt, werden
die Spektren selbst 100-mal pro Sekunde erzeugt. Jedoch ist verständlich, dass viele der Daten redundant sind. Bei der
praktischen Durchführung der Erfindung hat es sich herausgestellt, dass 12 Spektren eine adäquate Darstellung eines
kurzen Wortes oder einer Phonemfolge bilden, die für die Erkennung
geeignet sind. Die subjektive Zeitauswertung wird daher verwendet, um das Gesamtintervall (annähernd eine Sekunde
lang) in 12 Perioden von gleichen subjektiven Zeitwerten einzuteilen
und ein entsprechendes Spektrum für jede dieser Perioden auszuwählen. Diese Auswahl wird bei 31 durchgeführt. Zur
Erleichterung der Endauswertung des gesprochenen Wortes werden die Spektren bei 35 einer Amplitudentransformation unterzogen,
die auch eine nichtlineare Amplitudentransformation umfasst. Diese Transformationen werden weiter unten ausführlicher beschrieben,
aber es sei bereits jetzt darauf hingewiesen, dass diese Transformation die Genauigkeit verbessert, mit welcher
ein unbekanntes Sprachsignal mit einem Referenzvokabular verglichen
werden kann. In dem dargestellten Ausführungsbeispiel wird diese Transformation bei allen Spektren durchgeführt, und
zwar parallel zu der Addition oder Akkumulation, welche die subjektive Zeit auswertet und vor der Auswahl der repräsentativen
Proben. Der tatsächliche Vergleich der ausgewählten Spektren mit den Grunddaten wird nach einer Vektor-Transformation
durchgeführt, die bei 37 erfolgt. Dazu wird das Produkt der Vektor-Transformation einem mit 41 bezeichneten Wahrscheinlichkeitsauswerter
zugeführt.
- 10 -
709 8 27/0770
Λ 42 145 b
u - 163
27. Dezember 1976 -^
In der in Fig. 2 dargestellten Vorrichtung werden aus einem durch den Analog-Digital-Konverter 13, der das Analog-Sprachsignal
11 digitalisiert, hergestellten Datenstrom auf digitalem Wege eine Autokorrelationsfunktion und eine Mittelungsfunktion erzeugt. Die digitalen Verarbeitungsfunktionen und
die eingangs erfolgende Analog-Digital-Umwandlung werden mittels eines Zeitgeberoszillators 51 gesteuert. Dieser Zeitgeberoszillator
51 liefert ein Basiszeitsignal mit 320 000 Impulsen pro Sekunde, und dieses Signal wird einem Frequenzteiler
52 zugeführt, so dass man ein zweites Zeitsignal mit 10 000 Impulsen pro Sekunde erhält. Das langsamere Zeitsignal
steuert den Analog-Digital-Konverter 13 und eine Halteschaltung 53, die die 8-bit-Ergebnisse der letzten Umwandlung festhält,
bis die nächste Umwandlung vollendet ist. Bevor der Digitalwert der Halteschaltung zugeführt wird, wird er bei 54 von
der Darstellung, die ein konventioneller Analog-Digital-Wandler, wie der bei 13, liefert, in eine Vorzeichen-Grössen-Darstellung
umgewandelt.
Die gewünschten Autokorrelationsprodukte werden von einer digitalen Multipliziereinheit 56 und einem 32 Wort-Schieberegister
58 und der dazugehörigen Steuerschaltung erzeugt. Das Schieberegister 58 wird im Zirkuliermode betrieben und
von der schnelleren Zeitgeberfrequenz gesteuert, so dass ein vollständiger Datenumlauf während jeder Analog-Digital-Umwandlung
vollendet wird. Ein Eingangssignal für die digitale Multipliziereinheit 56 kommt von der Halteschaltung 53, während
das andere Eingangssignal für die Multipliziereinheit von dem laufenden Ausgängssignal des Schieberegisters stammt. Die
- 11 -
70982 7/0770
A 42 145 b
u - 163
27. Dezember 1976 -Vf- 2659096
Multiplikationen werden mit einer höheren Zeitgeberfrequenz
durchgeführt. Auf diese Weise wird jeder bei der Umwandlung erhaltene Wert mit jedem der vorhergehenden 31 Umwandlungswerte multipliziert. Für den Fachmann ist ersichtlich, dass
die dabei erzeugten Signale einer Multiplikation des Eingangssignales mit sich selbst entsprechen, wobei die Signale selbst
um 32 verschiedene Zeitintervalle verzögert sind. Um eine Korrelation mit Null-Verzögerung (d.h. die Energie) zu erzeugen,
veranlasst ein Multiplexer 59 die Multiplikation des laufenden Wertes mit sich selbst, und zwar zu einem Zeitpunkt, wenn der
neue Wert in das Schieberegister eingeführt wird, welche Zeitfunktion bei 60 dargestellt ist.
Wie sich für den Fachmann auch ergibt, sind die Produkte einer einzigen Umwandlung mit ihren 31 Vorgängern nicht sonderlich
repräsentativ für die Energieverteilung oder das Spektrum des Signals über ein vernünftiges Probenintervall. Daher sieht die
Vorrichtung der Fig. 2 eine Mittelung dieser Sätze von Produkten vor.
Um den additiven Prozess der Mittelung zu erleichtern, werden die binären Vorzeichen-Grössendarstellungen der einzelnen durch
die Multipliziereinheit 56 erzeugten Autokorrelationsprodukte bei 61 in einen Zweier-Komplement-Code umgewandelt. Der die
Mittelung bewirkende Akkumulationsprozess erfolgt durch ein 32-Wort-Schieberegister 63, welches mit einer Addiereinheit
65 verbunden ist und so einen Satz von 32 "Akkumulatoren" bildet. Auf diese Weise kann jedes Wort zirkuliert werden,
nachdem zu ihm das entsprechende Inkrement der digitalen Multipliziereinheit addiert worden ist. Die Zirkulierschleife
- 12 -
709827/0770
Λ 42 145 b
»Τ £«*« ,»τ* « 2659Π96
läuft durch ein Tor 67, welches von einer mit der niederen Frequenz des Zeitgebers betriebenen Teilerschaltung 69 gesteuert
v/ird. Der Teiler 69 teilt das niederfrequente Zeitgebersignal durch einen Faktor, der die Zahl von augenblicklichen
Autokorrelationsfunktionen bestimmt, die akkumuliert oder gemittelt werden sollen, bis das Schieberegister 6 3 ausgelesen
wird.
In dem bevorzugten Beispiel werden vor der Ablesung 1OO Werte akkumuliert. Mit anderen Worten, N für den durch N dividierenden
Teiler ist 100. Wenn 100 Werte auf diese Weise transformiert und akkumuliert worden sind, dann triggert die Zeitschaltung
69 eine Computerunterbrecherschaltung 71. In diesem Zeitpunkt wird der Inhalt des Schieberegisters 6 3 über eine
geeignete Anpass- oder Übertragungsschaltung 73 in den Speicher des Computers eingelesen, wobei die 32 Wörter des Registers
nacheinander der übertragungsschaltung zugeführt werden. Wie für den Fachmann klar ist, kann das Einlesen der Daten
typischerweise durch einen Prozess mit direktem Zugang zum Speicher erfolgen. Ausgehend von der Mittelung von 100 Werten
und einer anfänglichen Erzeugungsrate von 10 000 Werten pro Sekunde ergibt sich, dass dem Computer in jeder Sekunde 100
gemittelte Autokorrelationsfunktionen zugeführt werden. Während der Inhalt des Schieberegisters in den Computer ausgelesen
wird, ist das Tor 67 geschlossen, so dass jedes der Wörter in dem Schieberegister effektiv auf Null zurückgesetzt wird, so
dass die Akkumulation von neuem beginnen kann.
Mathematisch kann die Operation der in Fig. 2 dargestellten Vorrichtung wie folgt beschrieben werden. Wenn man annimmt,
- 13 -
7098 27/0770
Λ 42 145 b u - 163
27, Dezember 1976 - 3Λ -
2ο 59096
dass der Analog-Digital-Konverter eine Zeitserie S(t), S(t-T),
S(t-2T), ... erzeugt, dann kann man annehmen, dass die Korrelator schaltung der Fig. 2 die Autokorrelationsfunktion
berechnet.
Nach einem dem gesprochenen Wort entsprechenden Zeitintervall
hat der Digitalkorrelator dem Computer eine Reihe von Datenblöcken übermittelt, die das gesprochene Wort darstellen. Wenn
man annimmt, dass das interessierende Intervall in der Grössenordnung
von einer Sekunde liegt, dann handelt es sich dabei um 100 Datcnblöckc, von denen jeder 32 Wörter mit je 24 bits
aufweist. Jeder Datenblock stellt weiterhin eine aus einem entsprechenden Teilintervall des gesamten betrachteten Intervalls
abgeleitete Autokorrelationsfunktion dar. In der beschriebenen Ausführungsform wird die Vieiterverarbeitung von
diesem Punkt an durch einen geeignet programmierten digitalen Mehrzweckcomputer übernommen. Das die vom Computer durchgeführten
Schritte beschreibende Flussdiagramm ist in Fig. 3 dargestellt. Es soll jedoch noch einmal darauf hingewiesen
werden, dass verschiedene dieser Schritte ebensogut durch hardware wie durch software durchgeführt werden können, ebenso
wie bestimmte von der Vorrichtung der Fig. 2 ausgeführte Funktionen zusätzlich in der software enthalten sein können,
indem man das Flussdiagramm der Fig. 3 entsprechend abändert.
Obwohl der Digitalkorrelator der Fig. 2 eine gewisse Zeitmittelung
der jeweils augenblicklich erzeugten Autokorrelations-
- 14 -
709827/0770
Λ | 42 145 b | 1976 | - ΛΛ |
U | - 163 | 21 | |
27 | . Dezember | ||
funktionen durchführt, können die in den Computer eingelesenen Autokorrelationsfunktionen immer noch einige anomale Unstetigkeiten
aufweisen, die einer ordnungsgemässen Weiterverarbeitung und Auswertung der Werte entgegenstehen. Aus diesem Grunde
wird jeder Datenblock zuerst bezüglich der Zeit geglättet, d.h. bezüglich benachbarter die Funktion definierender Kanäle,
welche später folgenden Zeitintervallen entsprechen. Das wird in dem Flussdiagramm der Fig. 3 bei 79 angedeutet. Der bevorzugte
Glättungsprozess ist ein Zweipol-Faltungsverfahren bei welchem das geglättete Ausgangssignal τ*** (j ,t) gegeben
ist durch den Ausdruck
Y5[j i)*GΎ(j,V + C1Y1US-">°V-QXCj11-sooτ)
wobei j (j,t) die ungeglättete Eingangsautokorrelation und
^Y (j/t) die geglättete Ausgangsautokorrelation für
den j-ten Zeitverzögerungswert darstellen; t bezeichnet die Echtzeit; T bezeichnet das Zeitintervall zwischen aufeinanderfolgend
erzeugten Autokorrelationsfunktionen (T = 0,01 Sekunden in dem bevorzugten Ausführungsbeispiel).
Die Konstanten CQ, C1, C sind derart gewählt, dass die
Glättungsfunktion einen annähernd Gauss-förmigen Impuls mit einer Abschneidefrequenz von etwa 20 Hz ergibt. Wie angedeutet,
wird diese Glättungsfunktion getrennt für jede Verzögerung j angewendet. Wie bei 81 angedeutet, wird dann jede Autokorrelationsfunktion
einer Kosinus-Fourier-Transformation unterzogen, so dass sich ein 32-Punkte-Energiespektrum ergibt.
Das Spektrum ist durch den folgenden Ausdruck definiert:
- 15 -
709827/0770
A 42 145 b
u - 163
27. Dezember 1976 -
2659Q96 JtS
Jeder Punkt oder Wert innerhalb dieses Spektrums stellt ein entsprechendes Frequenzband dar. Man kann diese Fourier-Transformation
vollständig innerhalb der konventionellen Computer-hardware durchführen, das Verfahren wird jedoch
wesentlich beschleunigt, wenn man eine externe hardware-Multipliziereinheit oder eine periphere Sehne11-Fourier-Transformationsvorrichtung
benutzt. Aufbau und Betriebsweise derartiger Einheiten sind bekannt und werden daher in diesem
Zusammenhang nicht ausführlich beschrieben. Nach der Durchführung der Kosinus-Fourier-Transformation wird jedes der
sich ergebenden Energiespektren bei 83 mittels eines Hamming-Fensters geglättet. Wie dargestellt, werden diese Funktionen
bei jedem Datenblock durchgeführt, und das Programm führt
Schleifen aus, wie dies bei 85 dargestellt ist, bis das gesamte Wortintervall, etwa eine Sekunde, vollendet ist.
Während die nacheinanderfolgenden, das Wortintervall darstellenden
Energiespektren durch die Schritte 79 bis 85 umfassende Schleife verarbeitet werden, wird die innerhalb
jedes Frequenzbandes auftretende höchste Amplitude festgehalten. Zunächst wird bei 87 die Spitzenamplitude, die innerhalb
des gesamten Wortes auftritt, herausgesucht oder aufgefunden. Beginnend am Wortanfang (Schritt 88) wird dann eine
Schleife durchlaufen, welche die Schritte 89 bis 91 umfasst und die Spitzenwerte innerhalb jedes Frequenzbandes feststellt
und die entsprechenden Werte festhält. Am Ende eines Wortintervalles bilden die Spitzenwerte ein Spitzenspektrum.
Das Spitzenspektrum wird dann dadurch geglättet, dass man jeden Spitzenwert mit den Werten mittelt, die den benachbarten
Frequenzen entsprechen, wobei die Breite des Frequenz-
- 16 -
709827/0770
A 42 14b t»
u - 163
27. Dezember 1976
•ep
bandes, welches zu der Mittelung beiträgt, etwa gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist.
Dieser Schritt ist bei 9 3 angedeutet. Für Fachleute der Spracherkennung ist ersichtlich, dass dieser Abstand in der
Grössenordnung von 1000 Hz liegt. Wenn man in dieser speziellen Weise mittelt, dann wird die nutzbare Information in den
Spektren, d.h. die lokalen Variationen der Formantfreauenzen,
unterdrückt, während eine Insgesamt- oder Bruttobetonung im Frequenzspektrum erhalten bleibt. Die im Schritt 87 bestimmte
Spitzenamplitude wird dann dazu verwendet, um die Spitzenamplitude des geglätteten Spitzenspektrums auf den gleichen
Wert wie im Originalspitzenspektrum zu bringen. Dieser Schritt ist mit 9 4 bezeichnet und wird durchgeführt, um eine maximale
Ausnützung des dynamischen Bereichs des Systems zu ermöglichen.
Nach der Bestimmung des geglätteten Spitzenamplitudenspektrums werden die aufeinanderfolgenden individuellen, das eingehende
Audio-Signal darstellenden Spektren frequenzkompensiert, indem man den Amplitudenwert für jedes Frequenzband innerhalb
jedes Spektrums durch den entsprechenden Wert des geglätteten Spitzenspektrums dividiert. Dieser Schritt ist bei 99 angedeutet
und bildet einen Teil einer Schleife, die das gesamte Wort verarbeitet und die Schritte 98 bis 102 umfasst. Man
erzeugt damit eine Folge von frequenzegalisierten Spektren, die Änderungen im Frequenzinhalt des eingehenden Audio-Signales
betonen, während sie allgemeine Frequenzbetonungen oder Verzerrungen unterdrücken. Es hat sich herausgestellt, dass
dieses Verfahren zur Frequenzkompensation bei der Erkennung von über Telefonleitungen übermittelten Sprachsignalen
äusserst vorteilhaft ist gegenüber den gebräuchlicheren
- 17 -
709827/0770
Λ 42 145 b
u - 163
27. Dezember 1976 Jft
Systemen der Frequenzkompensation, bei welcher als Bas. '°r
Kompensation der Dutchschnittswert entweder des gesamten
Signals oder des entsprechenden Frequenzbandes genommen wird.
An dieser Stelle soll darauf hingewiesen werden, dass die
aufeinanderfolgenden Spektren zwar auf verschiedene Weise bearbeitet und egalisiert worden sind, dass aber die Daten,
die das gesprochene Wort repräsentieren, immer noch etwa 100 Spektren umfassen, wobei jedes Spektrum in einer Weise
normalisiert und frequenzkompensiert ist, dass Verschiebungen
der individuellen Formantfrequenzen von einem Spektrum zum anderen betont werden.
Wie bei verschiedenen bekannten Systemen verwendet das erfindungsgemässe
Spracherkennungsverfahren die Muster und die Änderungen der Muster der Formantfrequenzen, um Wörter in
seinem Vokabular zu erkennen. Um die Erkennung der Verschiebungen der Formantfrequenzmuster auch dann zu erkennen, wenn
die Sprachgeschwindigkeit verändert wi bildet das erfindungsgemässe
Verfahren einen Paramter, den man als Mass für die subjektive Zeit ansehen kann. In dem vorliegenden
System wird ein diesem rarameter entsprechender Wert auf
relativ einfache Weise dadurch erzeugt, dass man die Absolutwerte der Amplitudenänderung jedes Frequenzbandes von einem
aufeinanderfolgenden Spektrum zum nächsten sammelt oder addiert und daß man weiterhin über alle Frequenzbänder
summiert. Wenn man das Spektrum, das aus Werten für 32 Frequenzbänder besteht, als einen Vektor mit 32 Dimensionen auffasst
, dann kann man die Bewegung der Spitze dieses Vektors
einen. von einem Spektrum zum nächsten als / Teil einer Bogenlänge
- 18 -
709827/077 0
A 42 145 b
u - 163
27. Dezember 1976
betrachten. Die Summe der Änderungen in den verschiedenen Dimensionen ist fernerhin eine für diesen Zweck ausreichend
genaue Darstellung der Bogenlänge. Indem man die Boaenlängenteilstücke
über das gesamte Wortintervall addiert, erhält man eine Summenbogenlänge. Wenn der Sprecher ein Phonem bei
seiner Aussprache dehnt, dann wird der Zuwachs der Bogenlänge nur sehr langsam Erfolgen, während er schnell erfolgen wird,
wenn die Sprechgeschwindigkeit beschleunigt wird. Der Akkumulationsprozess ist in Fig. 3 bei 101 dargestellt.
Vor dieser letzten Summierung werden die Beiträge der verschiedenen
Frequenzbänder vorzugsweise gewichtet, so dass die phonetisch wichtigeren Frequenzen eine grössere Wirkung entfalten.
Mit anderen Worten wird die Grosse der Amplitudenänderung in jedem Frequenzband zwischen zwei aufeinanderfolgenden
ausgewerteten Spektren mit einem konstanten Gewichtsfaktor multipliziert, der diesem Frequenzband zugeordnet ist.
Die gewichteten Grossen der Amplitudenänderungen werden dann über alle Frequenzbänder aufsummiert und ergeben den Zuwachs
an subjektiver Zeit, die zwischen den beiden Spektren vergangen
ist.
Änderungen im Frequenzbereich, der üblicherweise von den drei untersten Formantresonanzen des Wortzuges eingenommen wird,
haben sich für die Korrektur der Sprachgeschwindigkeit als wesentlich wertvoller herausgestellt als Änderungen bei
höheren Frequenzen. Tatsächlich sind die relativen Beiträge bei Frequenzen oberhalb von 2500 Hz so gering, dass die Gewichtsfaktoren
in diesen Frequenzbändern zu Null gemacht werden können, ohne dass man statistisch bedeutsame Auswirkkungen
auf die.Ergebnisse findet.
- 19 -
709827/0770
A 42 145 b
u - 163
27. Dezember 1976 -
Eine Tabelle von Gewichtsfaktoren ist unten angegeben, wobei
die Gewichtsfaktoren für das bevorzugte Ausführungsbeispiel
bei einer speziellen praktischen Anwendung der Methode optiraalisiert sind. Die angegebenen Werte sollen nicht beschränkend wirken, optimale Werte können von den Besonderheiten der verwendeten Spektrum-Analysenmethode, von dem zu erkennenden Vokabular sowie vom Geschlecht und Alter des Sprechers abhängen. Diese Werte stellen jedoch einen Versuch dar, einen
besten Kompromiss für eine sprecher-unabhängige Erkennung
eines üblichen englischen Vokabulars zu finden.
bei einer speziellen praktischen Anwendung der Methode optiraalisiert sind. Die angegebenen Werte sollen nicht beschränkend wirken, optimale Werte können von den Besonderheiten der verwendeten Spektrum-Analysenmethode, von dem zu erkennenden Vokabular sowie vom Geschlecht und Alter des Sprechers abhängen. Diese Werte stellen jedoch einen Versuch dar, einen
besten Kompromiss für eine sprecher-unabhängige Erkennung
eines üblichen englischen Vokabulars zu finden.
Tabelle von Gewichtsfaktoren für die Subjektivzeitberechnung
Frequenzbandmxtte, Hz |
Relativer Wichtungs faktor |
O | 0,254 |
159 | 0,261 |
317 | 0,736 |
476 | 1,000 |
635 | 0,637 |
79 4 | 0,377 |
952 | 0,240 |
1111 | 0,264 |
1270 | 0,377 |
1429 | 0,470 |
1587 | 0,381 |
1746 | 0,254 |
1905 | 0,181 |
206 3 | 0,079 |
2222 | 0,025 |
2381 | 0,002 |
- 20 -
709827/0770
A 42 145 b
u - 163
27. Dezember 1976 - 3€Γ -
Sobald man den Wert oder Paramter für die gesamte Bogenlänge
erhalten hat, wird dieser in 12 gleiche Teile eingeteilt. Für jeden dieser Teile wird ein ein repräsentatives Spektrum
darstellender Datenblock ausgewählt, wie dies bei 105 dargestellt ist. Auf diese Weise wird die Zahl der Spektren, die
zur Darstellung des Probenintervalls benötigt werden, um einen Faktor von etwa 8 reduziert. Es ist jedoch darauf hinzuweisen,
dass infolge der sogenannten Subjektivzeitbestimmung dies nicht der Auswahl einer Probe oder eines Beispiels aus 8
berechneten Spektren äquivalent ist. Die ursprüngliche Probenrate oder Aufnahmegeschwindigkeit ist bezüglich der absoluten
Zeit konstant, während die ausgewählten Proben bezüglich der Subjektivzeit einen gleichen Abstand aufweisen, d.h. bezüglich
der entsprechend der oben beschriebenen Methode bestimmten Zeit.
Entweder direkt vor oder direkt nach diesem Auswahlprozess werden die Spektren einer Amplitudentransformation unterzogen,
die bei 107 dargestellt ist und die eine nicht-lineare Anpassung und Veränderung bewirkt. Nimmt man an, die individuellen
Spektren seien mit S(f,t) bezeichnet, wobei f die verschiedenen Frequenzbänder und t die Echtzeit beschreiben,
dann wird das nicht-linear angepasste Spektrum S (f,t) durch
die lineare Bruchfunktion
angegeben, wobei A der Durchschnittswert des wie folgt bestimmten Spektrums ist:
- 21 -
709827/0770
A 42 145 b
u - 163 Si
27. Dezember 1976 - 2Ί"-
A-
JL
Diese Anpassung erzeugt einen weichen Schwelleneffekt oder
einen allmählichen Sättiguny-seffekt für Spektralintensitäten,
die stark von dem Kurzzeitdurchschnitt A abweichen. Für Intensitäten,
die dem Durchschnittswert näherliegen, ist die Funktion annähernd linear. Vom Durchschnittswert entfernt
ist sie annähernd logarithmisch und bei Extremwerten ist sie nahezu konstant. In einem logarithmischen Maßstab ist die
Funktion S (f,t) symmetrisch zum Nullpunkt und zeigt ein
Schwellen- und Sättigungsverhalten, welches an die Impulsabgabefunktion
eines Gehörnervs erinnert. In der Praxis arbeitet das Erkennungssystem mit dieser besonderen nicht-linearen
Anpassungsfunktion wesentlich besser als mit einer linearen oder logarithmischen Anpassung der Spektralamplituden.
Eine lineare Matrixoperation wandelt daraufhin das egalisierte Spektrum in einen Satz von Koeffizie .ten um, wobei phonetische
Eigenheiten der bearbeiteten Sprache vergrössert werden, Symbolisch lässt sich das durch Koeffizienten p.. darstellen,
die auf das Spektrum wirken, so dass sich numerische Werte
für einen Satz von Eigenschaftsdaten x., ergeben:
32
x.(t)". = >- Pn SCj.t). (1)
x.(t)". = >- Pn SCj.t). (1)
1 j=i J
Die Koeffizienten werden aus einer Mustersammlung von eingegebenen,
zu erkennenden Wortsignalen bestimmt, so dass der Durchschnittswert von x. ein Minimum ergibt, wenn das Eingangs-
- 22 -
709827/0770
A 42 145 b
J«
signal in der i-ten phonetischen Klasse liegt, während x. so
gross wie möglich ist, wenn das Eingangssignal zu einer anderen als der i-ten Klasse gehört. Die Koeffizienten ρ.., die das
eine oder das andere dieser beiden Kriterien am besten erfüllen, kann man durch Analyse von Beispielen bekannter Spracheingangswellenformen
bestimmen, indem man bekannte statistische Techniken der linearen Systemtheorie, der multidimensionalen
Transformationstheorie oder die Faktoranalyse einsetzt.
Zum Zwecke der Bestimmung der Transformationskoeffizienten p.. wird eine "phonetische Klasse" derart definiert, dass sie
jeden Ton oder Laut enthält, der in einer der durchnumerierten, ausgewählten Proben eines bestimmten Wortes des zu erkennenden
Vokabulars auftritt. Obwohl nominell das gleiche Phonem in verschiedenen Worten oder in verschiedenen Silben desselben
Wortes auftreten kann, können die akustischen Eigenschaften des Lautes oder Tones oft sogar wesentlich verändert werden
durch die benachbarten phonetischen Teile; die hier verwendeten phonetischen Klassen sind daher umgebungsspezifisch.
Man kann diese auf der phonetischen Nachbarschaft beruhenden Abweichungen nutzbar machen, indem man eine erhöhte Anzahl
von Lineartransformations-Koeffizienten p.. gleichzeitig auf
zwei oder mehr nacheinander ausgewählte Spektren wirken lässt. Dieses abwechselnde Verfahren ist zwar komplizierter, es unterscheidet
aber Silben wesentlich verlässlicher als die phonetische Transformation Phoneme differenzieren kann.
Die ausgewählten, transformierten Daten
χ = [ X1(C1^, i = 1.....32; k = I1 ... ,12 ] (2)
- 23 -
7098 2 7/0770
A 42 145 b
»:£.*„ »76 -*r- 2659Π96
werden schliesslich als Eingangssignale für eine statistische
Wahrscheinlichkeitsrechnung verwendet, die bei 131 angedeutet ist. Diese Einheit berechnet ein Mass für die Wahrscheinlichkeit,
dass das unbekannte Eingangssprachsignal einem der Referenzwörter im Vokabular des Rechners entspricht. Typischerweise
hat jeder Wert ^ (t, ) eine leicht schiefe Wahrscheinlichkeitsdichte,
wird aber trotzdem statistisch durch eine Normalverteilung mit einem mittleren Wert M!(i,k) und einer
Abweichung [s(i,k)J gut angenähert. Die einfachste Ausführungsform
des Verfahrens nimmt an, dass die verschiedenen Werten von i und k zugeordneten Werte unkorreliert sind, so
dass die kombinierte Wahrscheinlichkeitsdichte für alle Daten x, die das einem gesprochenen Wort entsprechende Eingangssignal
enthalten sich folgendermassen darstellt (logarithmisch)
In p(x) = -]>
In
k)
(3
Da der Logarithmus eine monotone Funktion ist, ist diese Statistik zur Bestimmung, ob die Wahrscheinlichkeit einer
Übereinstimmung mit einem Wort des Vokabulars grosser oder kleiner ist als die Wahrscheinlichkeit der Übereinstimmung
mit einem anderen Wort des Vokabulars, ausreichend. Jedes Wort im Vokabular hat seinen eigenen Satz statistischer Bezugsparameter
m(i,k), s(i,k). Jeder dieser Parametersätze wird mit dem Datensatz verglichen, bis das Eingganssprachsignal
mit allen Wörtern des Vokabulars verglichen ist. Die
- 24 -
709827/0770
A 42 145 b
;: iL3 1976
sich ergebende statistische Aufstellung reiht die verschiedenen Wörter des Vokabulars entsprechend der relativen Wahrscheinlichkeit
ihrer Übereinstimmung auf.
Wie für den Fachmann ersichtlich, bildet dieses Aufreihen die Spracherkennung insoweit, als sie an einzelnen Wortproben
durchgeführt werden kann. Dieses Aufreihen kann auf verschiedene Weise entsprechend der letztlich durchzuführenden Funktion
in Gesamtsystemen verwendet werden. Bei bestimmten Systemen, z.B. bei Systemen, bei denen die Daten telefonisch
eingegeben werden, kann eine erste Auswahl nach dem Versuchssystem (trial and error system) vollkommen ausreichend sein.
Bei anderen kann es erwünscht sein, Kenntnisse über Textzusammenhänge oder Regeln zu verwenden, um die Genauigkeit
zur Erkennung ganzer Sätze zu verbessern. Derartige Modifikationen gehen jedoch über den Rahmen der vorliegenden Erfindung
hinaus und werden daher nicht eingehend behandelt.
Wie bereits ausgeführt, ist ein bevorzugtes Ausführungsbeispiel
der Erfindung gebaut worden. Die Bearbeitung der Signale und Daten erfolgte dabei, soweit dies nicht in dem in
Fig. 2 dargestellten Vorprozessor durchgeführt wurde, auf einem Computer der Firma Digital Equipment Corporation mit
der Bezeichnung PDP 11.
Es wird noch darauf hingewiesen, dass die Beschreibung bevorzugter
Ausfuhrungsformen der Erfindung den Rahmen der Erfindung
nicht beschränken soll, diese Beschreibung ist nur zur Erläuterung gedacht.
- 25 -
709827/0770
Claims (10)
- Patentansprüche:Verfahren zur Sprachanalyse, bei dem das Spektrum eines Audio-Signales analysiert wird, um das Verhalten der Formantresonanzen während eines Zeitintervalls zu bestimmen, gekennzeichnet durch eine Frequenzkompensation, welche die folgenden Schritte umfasst:man bestimmt in dem Zeitintervall wiederholt einen Satz von Parametern, die das Spektrum des Audio-Signales in einem Teilintervall des Zeitintervalls bestimmen, und erzeugt dadurch eine Folge von Spektren,man bestimmt für jeden Parameter in dem Satz den im Intervall auftretenden Maximalwert, wobei der Satz der dadurch bestimmten Maximalwerte einem Spitzenspektrum des Intervalls entspricht,man glättet das Spitzenspektrum, indem man einen Mittelwert eines Spitzenwertes mit den Spitzenwerten anderer Frequenzen bildet, wobei die Breite des bei der Mittelung mitwirkenden Frequenzbandes annähernd gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist,man dividiert in jedem Spektrum der Folge von Spektren den Wert jedes Paramters des Satzes durch den entsprechenden Wert des geglätteten Spitzenspektrums und26 -ORIGINAL INSPECTED709827/0770man erzeugt dadurch in dem Zeitintervall eine Folge von egalisierten Spektren, die dem egalisierten Energieinhalt des Audio-Signals in allen im Spektrum enthaltenen Frequenzbändern entspricht.
- 2. Verfahren zur Sprachanalyse, bei dem ein Audio-Signal in einem einem gesprochenen Wort entsprechenden Intervall analysiert wird, um das Verhalten der Formantresonanzen in Bezug auf eine Folge von ein vorgewähltes Wort darstellenden Bezugsvektoren zu bestimmen, gekennzeichnet durch eine Methode zur Auswahl von Mess- oder Vergleichspunkten innerhalb des Intervalles, welches die folgenden Schritte umfasst:man bestimmt in diesem Intervall einen Satz von Parametern, der dem Energiespektrum des Signales zu der bestimmten Zeit entspricht, wobei jeder Satz von Werten als Vektor mit Koordinaten darstellbar ist, die den Parametern entsprechen,man summiert über den ganzen Satz von Parametern die Grosse der Änderung, die sich zwischen aufeinanderfolgenden Bestimmungen jedes Parameters ergeben und erhält damit einen Wert, der dem Bogenlängenteilschritt entspricht, den der vielkoordinatige Vektor in einem Teilintervall zwischen aufeinanderfolgenden Bestimmungen durchläuft,man summiert die Bogenlängenteilschritte über aufeinanderfolgende Teilintervalle und erhält dabei- 27 -709827/07 7 0eine Folge von Summenbogenlängen in dem gesamten Intervall sowie eine Gesamtbogenlänge für das Intervall,man teilt die Gesamtbogenlänge in gleichlange Teilstücke, deren Zahl der Anzahl der Folge von Referenzvektoren entspricht, undman wählt für jedes Teilstück einen Satz von Parameterwerten aus, die innerhalb des Teilstückes einen repräsentativen Vektor beschreiben und vergleicht diesen Satz von Parameterwerten mit dem ausgewählten Satz von Parameterwerten, die den entsprechenden Referenz- und Erkennungsvektor bestimmen, wobei die derart durchgeführten Vergleiche die Übereinstimmung des Audio-Signals mit dem dem Referenz- oder Erkennungsvektor entsprechenden Wort ergeben.
- 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Grossen der zwischen aufeinanderfolgenden Bestimmungen des Parameters sich ergebenden Änderungen vor der Aufsummierung mit einem jeweils vorbestimmten Gewichtsfaktor multipliziert werden, um dadurch die Bedeutung bestimmter Parameteränderungen hervorzuheben und die Bedeutung bestimmter anderer Parameter abzuschwächen.
- 4. Verfahren nach einem der Ansprüche 2 oder 3, dadurch gekennzeichnet, dass man zur Erzeugung eines Satzes von Parametern, die dem Energiespektrum des Frequenzsignals- 28 -709827/0770zu einer bestimmten Zeit entsprechen, wie folgt vorgeht:man bestimmt in dem Gesamtintervall wiederholt einen Satz von Parametern, die das Spektrum des Audio-Signals in einem Teilintervall des Zeitintervalls bestimmen, und erzeugt dadurch eine Folge von Spektren,man bestimmt für jeden Parameter in dem Satz den im Intervall auftretenden Maximalwert, wobei der Satz der dadurch bestimmten Maximalwerte einem Spitzenspektrum des Intervalls entspricht,man glättet das Spitzenspektrum, indem man einen Mittelwert eines Spitzenwertes mit den Spitzenwerten anderer Frequenzen bildet, wobei die Breite des bei der Mittelung mitwirkenden Frequenzbandes annähernd gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist,man dividiert in jedem Spektrum der Folge von Spektren den Wert jedes Parameters des Satzes durch den entsprechenden Wert des geglätteten Spitzenspektrums und man erzeugt dadurch in dem Zeitintervall eine Folge von egalisierten Spektren, die dem egalisierten Energieinhalt des Audio-Signals in allen im Spektrum enthaltenen Frequenzbändern entspricht, wobei jeder Satz von egalisierten Parametern als Vektor darstellbar ist, dessen Koordinaten den Parametern entsprechen.- 29 -709827/0770
- 5. Verfahren zur Sprachanalyse, gekennzeichnet durch eine Methode zur Erhöhung des Informationsgehaltes eines Spektrums eines Sprache darstellenden Audio-Signales, welches die folgenden Schritte umfasst:man erzeugt einen Satz von Werten S(f), die dem Energiespektrum des Signals entsprechen, wobei jeder Wert die Energie in einem korrespondierenden Frequenzband f darstellt,man erzeugt einen Wert A, der dem Durchschnitt dieses Satzes von N Werten entspricht, wobeiN
A - fi ^T^ S(JFo)und F die Breite jedes Frequenzbandes darstellt,und man erzeugt für jeden Wert dieses Satzes mit Hilfe der EntlinearisierungsbeziehungS (f) - AS S (f) +A
entsprechende Werte S (f). - 6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass man aus dem Satz von egalisierten Parametern S(f), die das egalisierte Spektrum darstellen, einen Wert A bildet, der dem Durchschnitt dieses Satzes von N Werten entspricht wobei- 30 -709827/0770und F die Breite jedes Frequenzbandes darstellt,und daß man für jeden Wert dieses Satzes mit Hilfe der EntlinearisierungsbeziehungS (f) - Λ
S3 (f) - ——S (f) + A
einen entsprechenden Wert S (f) erzeugt. - 7. Verfahren zur Sprachanalyse, gekennzeichnet durch ein Verfahren zum Vergleich des Spektrums eines die Sprache darstellenden Audio-Signales mit einem Vektor von Erkennungskoeffizienten la., b., c J , das folgende Schritte umfasst:man bildet einen Satz von Werten S(f), die dem Energiespektrum des Signales entsprechen, wobei jeder Wert die Energie in dem korrespondierenden Frequenzband f beschreibt;man bildet aus diesen Werten einen Satz lineartransformierter Werte L,, wobeiPjk S (jFo); k=l, . . . , M;und wobei die konstanten Koeffizienten pjk nicht vom Sprachmuster abhängen, das von den Koeffizien-- 31 -709827/0770ten f a., b., c j dargestellt wird, und man bildet einen numerischen Vergleichswert K, wobeiX = C+ ^ bL (L1 -. a±)welcher Wert X die Übereinstimmung zwischen dem Audio-Signal und dem durch die Erkennungs- oder Bezugskoeffizienten dargestellten Wort angibt.
- 8. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass man aus den Werten S (f) einen Satz linear transformierter Werte L, bildet, wobei(JFo); k=l,..., M;und daß man einen numerischen Vergleichswert X bildet, wobei · Mwelcher Wert X die Übereinstimmung zwischen dem Audio-Signal und dem durch die Erkennungs- oder Referenzkoeffizienten dargestellten Wort angibt.
- 9. Verfahren nach Anspruch 8, gekennzeichnet durch die folgenden Schritte:- 32 -709827/077man bestimmt in dem wenigstens einem gesprochenen Wort entsprechenden Zeitintervall einen Satz von Parametern S(f) , wobei jeder Satz von Werten als Vektor mit Komponenten darstellbar ist, die den Parametern entsprechen,man summiert über den gesamten Satz von Parametern die Grosse der Änderung, die sich zwischen aufeinanderfolgenden Bestimmungen jedes Parameters ergeben, und erhält damit einen Wert, der dem Bogenlängenteils tück entspricht, das der vielkomponentige Vektor in diesem Teilstück zwischen aufeinanderfolgenden Bestimmungen durchläuft,man summiert die Bogenlängenteilstücke über aufeinanderfolgende Teilintervalle und erhält dabei eine Folge von Summenbogenlängen in dem gesamten Intervall sowie eine Gesamtbogenlänge für das Intervall,man teilt die Gesamtbogenlänge in gleichlange Teilstücke, deren Zahl der Anzahl der Folgen von Referenzvektoren entspricht,und man wählt für jedes Teilstück einen Satz von Parameterwerten S(f) aus, die innerhalb des Teilstückes einen repräsentativen Vektor beschreiben und vergleicht diesen Satz von Parameterwerten mit dem ausgewählten Satz von Parameterwerten, die den entsprechenden Referenz- oder Erkennungsvektor be-- 33 -709827/0770stimmen, wobei die Summe der Vergleichswerte X ein Mass für die Übereinstimmung zwischen dem Audio-Signal und den dem Wort entsprechenden Erkennungsoder Referenzvektoren angeben.
- 10. Verfahren nach einem der Ansprüche 8 oder 9, gekennzeichnet durch die Schritte:man bestimmt in einem mindestens einem gesprochenen Wort entsprechenden Zeitintervall wiederholt einen Satz von Werten S„(f) ,man bestimmt für jeden Parameter in dem Satz den im Intervall auftretenden Maximalwert, wobei der Satz der dadurch bestimmten Maximalwerte einem Spitzenspektrum des Intervalls entspricht,man glättet das Spitzenspektrum, indem man einen Mittelwert eines Spitzenwertes mit den Spitzenwerten anderer Frequenzen bildet, wobei die Breite des bei der Mittelung mitwirkenden Frequenzbandes annähernd gleich dem typischen Frequenzabstand zwischen Formantfrequenzen ist,man dividiert in jedem Satz SJf) den Wert jedes Parameters des Satzes durch den entsprechenden Wert des geglätteten Spitzenspektrums undman erzeugt dadurch in dem Zeitintervall einen Satz S(f) bzw. S1 (f)- 34 -709827/0770von egalisierten Spektren, die dem egalisierten Energieinhalt des Audio-Signales in dem genannten Zeitintervall entspricht.709827/07 7 0
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/644,722 US4038503A (en) | 1975-12-29 | 1975-12-29 | Speech recognition apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2659096A1 true DE2659096A1 (de) | 1977-07-07 |
DE2659096C2 DE2659096C2 (de) | 1987-09-17 |
Family
ID=24586084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19762659096 Granted DE2659096A1 (de) | 1975-12-29 | 1976-12-27 | Verfahren und vorrichtung zur spracherkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US4038503A (de) |
JP (1) | JPS52107707A (de) |
DE (1) | DE2659096A1 (de) |
FR (1) | FR2337393A1 (de) |
GB (2) | GB1569990A (de) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3236832A1 (de) * | 1981-10-05 | 1983-09-01 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236885A1 (de) * | 1981-10-05 | 1983-09-22 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236834A1 (de) * | 1981-10-05 | 1983-10-06 | Exxon Corp | Verfahren und geraet zur sprachanalyse |
DE19640587A1 (de) * | 1996-10-01 | 1998-04-02 | Siemens Ag | Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
GB1603927A (en) * | 1978-04-27 | 1981-12-02 | Dialog Syst | Continuous speech recognition method |
US4241329A (en) * | 1978-04-27 | 1980-12-23 | Dialog Systems, Inc. | Continuous speech recognition method for improving false alarm rates |
JPS56158386A (en) * | 1980-05-10 | 1981-12-07 | Fujitsu Ltd | Voice recognizing system |
JPS5710199A (en) * | 1980-06-21 | 1982-01-19 | Tokyo Shibaura Electric Co | Voice information extractor |
JPS5844500A (ja) * | 1981-09-11 | 1983-03-15 | シャープ株式会社 | 音声認識方式 |
JPS5997200A (ja) * | 1982-11-26 | 1984-06-04 | 株式会社日立製作所 | 音声認識方式 |
US4790017A (en) * | 1983-03-10 | 1988-12-06 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech processing feature generation arrangement |
US4764963A (en) * | 1983-04-12 | 1988-08-16 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech pattern compression arrangement utilizing speech event identification |
AU2944684A (en) * | 1983-06-17 | 1984-12-20 | University Of Melbourne, The | Speech recognition |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4868879A (en) * | 1984-03-27 | 1989-09-19 | Oki Electric Industry Co., Ltd. | Apparatus and method for recognizing speech |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4817158A (en) * | 1984-10-19 | 1989-03-28 | International Business Machines Corporation | Normalization of speech signals |
US4833716A (en) * | 1984-10-26 | 1989-05-23 | The John Hopkins University | Speech waveform analyzer and a method to display phoneme information |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
DE3514286A1 (de) * | 1985-04-19 | 1986-10-23 | Siemens AG, 1000 Berlin und 8000 München | System zur erkennung einzeln gesprochener woerter |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
EP0212323A3 (de) * | 1985-08-29 | 1988-03-16 | Scott Instruments Corporation | Verfahren und Einrichtung von Signalumwandlung und ihre Anwendung zur Signalverarbeitung |
US4817176A (en) * | 1986-02-14 | 1989-03-28 | William F. McWhortor | Method and apparatus for pattern recognition |
US4831550A (en) * | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
GB2297465B (en) * | 1995-01-25 | 1999-04-28 | Dragon Syst Uk Ltd | Methods and apparatus for detecting harmonic structure in a waveform |
US5946656A (en) * | 1997-11-17 | 1999-08-31 | At & T Corp. | Speech and speaker recognition using factor analysis to model covariance structure of mixture components |
WO2001030049A1 (fr) * | 1999-10-19 | 2001-04-26 | Fujitsu Limited | Unite de traitement et de reproduction de son vocaux reçus |
US20070163425A1 (en) * | 2000-03-13 | 2007-07-19 | Tsui Chi-Ying | Melody retrieval system |
WO2007057879A1 (en) * | 2005-11-17 | 2007-05-24 | Shaul Simhi | Personalized voice activity detection |
JP2010092057A (ja) * | 2009-10-29 | 2010-04-22 | Fujitsu Ltd | 受話音声処理装置及び受話音声再生装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2363590A1 (de) * | 1973-01-05 | 1974-07-11 | Xerox Corp | Spracherkennungssystem mit merkmalsfolgekodierung |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2903515A (en) * | 1956-10-31 | 1959-09-08 | Caldwell P Smith | Device for selective compression and automatic segmentation of a speech signal |
US3091665A (en) * | 1960-06-03 | 1963-05-28 | Bell Telephone Labor Inc | Autocorrelation vocoder equalizer |
US3069507A (en) * | 1960-08-09 | 1962-12-18 | Bell Telephone Labor Inc | Autocorrelation vocoder |
US3553372A (en) * | 1965-11-05 | 1971-01-05 | Int Standard Electric Corp | Speech recognition apparatus |
DE1572520A1 (de) * | 1967-06-08 | 1970-02-19 | Telefunken Patent | Verfahren zur Erkennung von Sprachlauten |
US3499990A (en) * | 1967-09-07 | 1970-03-10 | Ibm | Speech analyzing system |
US3582559A (en) * | 1969-04-21 | 1971-06-01 | Scope Inc | Method and apparatus for interpretation of time-varying signals |
US3588363A (en) * | 1969-07-30 | 1971-06-28 | Rca Corp | Word recognition system for voice controller |
US3816722A (en) * | 1970-09-29 | 1974-06-11 | Nippon Electric Co | Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer |
US3812291A (en) * | 1972-06-19 | 1974-05-21 | Scope Inc | Signal pattern encoder and classifier |
US3925761A (en) * | 1974-08-02 | 1975-12-09 | Ibm | Binary reference matrix for a character recognition machine |
US3919481A (en) * | 1975-01-03 | 1975-11-11 | Meguer V Kalfaian | Phonetic sound recognizer |
-
1975
- 1975-12-29 US US05/644,722 patent/US4038503A/en not_active Expired - Lifetime
-
1976
- 1976-12-24 GB GB7428/79A patent/GB1569990A/en not_active Expired
- 1976-12-24 GB GB54047/76A patent/GB1569989A/en not_active Expired
- 1976-12-27 DE DE19762659096 patent/DE2659096A1/de active Granted
- 1976-12-29 FR FR7639436A patent/FR2337393A1/fr active Granted
- 1976-12-29 JP JP16089976A patent/JPS52107707A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2363590A1 (de) * | 1973-01-05 | 1974-07-11 | Xerox Corp | Spracherkennungssystem mit merkmalsfolgekodierung |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3236832A1 (de) * | 1981-10-05 | 1983-09-01 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236885A1 (de) * | 1981-10-05 | 1983-09-22 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236834A1 (de) * | 1981-10-05 | 1983-10-06 | Exxon Corp | Verfahren und geraet zur sprachanalyse |
DE19640587A1 (de) * | 1996-10-01 | 1998-04-02 | Siemens Ag | Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes |
Also Published As
Publication number | Publication date |
---|---|
JPS52107707A (en) | 1977-09-09 |
US4038503A (en) | 1977-07-26 |
FR2337393B1 (de) | 1982-11-12 |
GB1569990A (en) | 1980-06-25 |
FR2337393A1 (fr) | 1977-07-29 |
GB1569989A (en) | 1980-06-25 |
DE2659096C2 (de) | 1987-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2659096A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE3306730C2 (de) | ||
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE69009545T2 (de) | Verfahren zur Sprachanalyse und -synthese. | |
DE2659083C2 (de) | Verfahren und Vorrichtung zur Sprechererkennung | |
DE3687815T2 (de) | Verfahren und vorrichtung zur sprachanalyse. | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE10123281C1 (de) | Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69725670T2 (de) | Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme | |
DE3236834A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE2362050A1 (de) | Elektronisches musikinstrument | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2622423A1 (de) | Vocodersystem | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE3019823C2 (de) | ||
EP0285222A2 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |