DE2659083A1 - Verfahren und vorrichtung zur sprechererkennung - Google Patents

Verfahren und vorrichtung zur sprechererkennung

Info

Publication number
DE2659083A1
DE2659083A1 DE19762659083 DE2659083A DE2659083A1 DE 2659083 A1 DE2659083 A1 DE 2659083A1 DE 19762659083 DE19762659083 DE 19762659083 DE 2659083 A DE2659083 A DE 2659083A DE 2659083 A1 DE2659083 A1 DE 2659083A1
Authority
DE
Germany
Prior art keywords
signals
speaker
group
orthogonal
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19762659083
Other languages
English (en)
Other versions
DE2659083C2 (de
Inventor
Marvin Robert Sambur
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of DE2659083A1 publication Critical patent/DE2659083A1/de
Application granted granted Critical
Publication of DE2659083C2 publication Critical patent/DE2659083C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

BLUMBACM · WESER . BERGEN · KRÄMER
PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN
Postadresse München: Patentconsult 8 München 60 RadeckestraSe 43 Telefon (039) 363603/683604 Telex 05-212313 Posladresse Wiesbaden: Patentconsult 62 Wiesbaden Sonnenberger SlralSe « Telefon (05121)562943/561998 Telex 04-186237
Western Electric Company, Incorporated Sambur 1 New York, N.Y., USA
Verfahren und Vorrichtung zur Sprechererkennung
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Sprechererkennung gemäß Oberbegriff des Anspruchs 1 bzw. des Anspruchs 7.
Es ist oft wichtig, die Identität einer Person aus den physikalischen Merkmalen ihrer Sprache zu identifizieren oder nachzuweisen. Ein solcher Vorgang ist erwünscht für über Telefon durchgeführte Transaktionen, für eine rasche Kreditbestätigung oder für Sicherheitsanordnungen, wie der kontrollierte Zulaß zu gesicherten Bereichen. Bisher beruhten automatische Spreehererkennungssysteme auf dem Vergleich einer vorbestimmten gesprochenen Nachricht mit einem zuvor gespeicherten Bezugswert der selben oder einer ähnlichen Nachricht, oder auf einem Vergleich zwischen ausgewählten Parametern spezieller
709828/0880
Münc: :·.ι: Kramer · Dr. Weser · Hirsch — Wiesbaden: Rlurpüsch · Dr. Berge ο · Zwirner
Äußerungen . der Person mit zuvor gespeicherten Parametern einer entsprechenden Äußerung . Solche Parameter können abgeleitet werden von Sprachcharakteristika, wie Tonhöhendauer, Intensität, eine bestimmte Frequenzformante oder deren Bandbreite, oder irgendeine Eigenheit der Stimmritzenwelle.
Bei einem in der US-PS 3 466 394 beschriebenen System werden ausgewählte Spitzen und Täler einer jeden Höhenperiode verwendet, um charakteristische Koordinaten eines gesprochenen Eingangssignals eines unbekannten Sprechers zu erhalten, welche Koordinaten selektiv mit einer oder mehreren zuvor gespeicherten Bezugskoordinaten verglichen werden. Als Ergebnis des Vergleichs wird eine Entscheidung hinsichtlich der Identität des unbekannten Sprechers getroffen. Diese Anordnung macht es jedoch erforderlich, daß die charakteristischen Koordinaten bezüglich der Intensität normiert werden, um Fehler zu verhindern, die dadurch auftreten können, daß die Person eine andere Intensität benutzt als zu dem Zeitpunkt, zu dem die Bezugskoordinaten erhalten worden sind.
Bei einer anderen Anordnung, wie sie in der US-PS 3 700 815 beschrieben ist, wird die charakteristische Weise, in der eine Person einen Testsatz ausspricht, mit einer zuvor gespeicherten Sprachweise des selben Satzes verglichen. Für diesen Vergleich ist ..jedoch eine zeitliche Ausrichtung der
709828/0880
Test- und der Bezugssprechprobe erförderlich.- Dementsprechend wird die Zeitskala, der Testsprechprobe verschoben, um sie in zeitliche Übereinstimmung mit dem Bezugssatz zu bringen, bevor der Vergleich durchgeführt wird.
Diese und weitere bisher benutzte Methoden basieren auf Sprachcharakteristika, die vom Inhalt der Sprachprobe abhängen. Eine wirksamere Methode kann auf einem Sprechererkennungsmerkmal beruhen, das auf die einzigartigen Eigenschaften des Sprachapparates des Sprechers anspricht und nicht auf den Inhalt der Sprachprobe. Eine Sprachanalyse, die auf einer linearen Voraussagbarkeit der Sprachwellenform beruht, erzeugt eine Gruppe von Charakteristika, die für eine automatische Sprechererkennung erwünscht sind. Diese Charakteristika repräsentieren eine kombinierte Information über die Formantenfrequenzen, deren Bandbreite und die Stimmritzenwelle, und sie sind im wesentlichen unabhängig von der Tonhöhe- und Intensitätsinformation,
Eine Sprechererkennungsanordnung, die auf einem Vergleich linearer Voraussage-charakteristika eines nichtidentifizierten Sprechers mit zuvor gespeicherten linearen Voraussagecharakteristika bekannter Sprecher beruht, ist nicht auf ausgewählte Sprachmerkmale, wie Formantenfrequenzen und Stimmritzenwelle, beschränkt. Folglich können die linearen Voraus-
7098-28/0880
sagecharakteristika eine vollständigere Grundlage für eine Sprechererkennung bilden. Die Verwendung linearer Voraussagecharakteri.stika für eine Sprechererkennung erfordern jedoch generell eine Segmentierung oder Zeitnormierung, da die Charakteristika sowohl linguistische als auch sprecherabhängige Information umfassen.
Es ist daher Aufgabe der vorliegenden Erfindung, eine Sprechererkennung vorzusehen, die im wesentlichen unabhängig vom linguistischen Inhalt des Sprachsignals ist und eine Ausrichtung der Signalcharakteristika vermeidet.
Erfindungsgemäß wird diese Aufgabe gelöst mit einer Methode und einer Vorrichtung, wie sie im Anspruch 1 bzw. Anspruch 7 gekennzeichnet sind. Ausgestaltungen und Weiterbildungen sind in den Unteransprüchen gekennzeichnet.
Erfindungsgemäß ist eine Vorrichtung zur Erkennung der Identität eines unbekannten Sprechers vorgesehen, bei der eine Gruppe von Bezugsvoraussageparametersignalen aus einer Voraussageanalyse der Sprechprobe eines identifizierten Sprechers gebildet, eine Gruppe von Bezugskoeffizientensignalen in Abhängigkeit von den Bezugsvoraussageparametersignalen erzeugt wird, welche die Bezugsvoraussageparametersignale in eine Gruppe von Signalen, die für die Identität des identifizierten Sprechers repräsentativ sind, umzusetzen vermögen, eine Gruppe
709828/0880
für die Identität des identifizierten Spreches repräsentativer erster Signale in Abhängigkeit von den Bezugsvoraussageparameter signal en und den Bezugskoeffizientensignalen erzeugt, eine Gruppe von Testvoraussageparametersignalen aus einer Voraussageanalyse einer Sprechprobe des unbekannten Sprechers gebildet, eine Gruppe zweiter Signale aus den Testvoraussageparametersignalen und den Bezugskoeffizientensignalen des identifizierten Sprechers erzeugt wird, die für eine vorausgesetzte Identität des unbekannten Sprechers repräsentativ ist, und die ersten Signale mit den zweiten Signalen verglichen werden, um die vorausgesetzte Identität nachzuweisen.
Im folgenden wird die Erfindung anhand von Ausführungsformen näher erläutert. In der zugehörigen Zeichnung zeigen:
Fig.' 1 ein Blockschaltbild eines erfindungsgemäßen Sprecherkontrollsystems ;
Fig. 2 ein Blockschaltbild eines erfindungsgemäßen Sprecheridentifizierungssystems;
Fig. 3 ein ausführliches Blockschaltbild der Taktschaltungen in den Fig. 1 und 2;
Fig. 4 ein ausführliches Blockschaltbild des Kovarianzcomputers der Fig. 1 und 2;
709328/0880
Fig. 5 ein ausführliches Blockschaltbild des Bezugsparametermittelwertgenerators dor Fig. 1 und 2;
Fig. 6 ein ausführliches Blockschaltbild des Testorthogonalparametergenerators der Fig. 1 und 2;
Fig. 7 ein ausführliches Blockschaltbild des Testmittelwert- und-Varianzgenerators der Fig. 1 und 2;
Fig. 8 ein ausführliches Blockschaltbild des Abweichsignalgenerators der Fig. 1 und 2; und
Fig. 9 ein ausführliches Blockschaltbild des Minimalabweichsignaldetektors der Fig. 2.
Eine Sprecherkontrollanordnung gemäß Erfindung ist in Fig. 1 gezeigt, in der eine Sprecheridentifikationskodelogik 132 ein Kodesignal IDC entsprechend der behaupteten Identität des Sprechers erzeugt wird. Ein Signal wird einem Moduswähler 133 zugeführt, um zu bestimmen, ob Bezugsinformation für den identifizierten Sprecher gespeichert oder die Identität des Sprechers kontrolliert werden soll. Der Moduswähler 133 gibt ein Signal an eine Steuerlogik 13A-, um das System gemäß Fig. 1 in einen Bezugsmodus oder einen Testmodus zu versetzen. Im Bezugsmodus werden die Sprechproben des Sprechers, die durch den IDC-Kode von Logik 132 identifiziert worden sind, analysiert, und Bezugssignale, Mittelwertsignale und Varianzsignale entsprechend einer Voraussageanalyse der Sprechprobe auf
709828/0880
Leitung 101 werden erzeugt und gespeichert. Im Testmodus werden Orthogonalparametersignale von den gespeicherten Bezugssignalen der behaupteten Identität erzeugt sowie die Voraussageparameter des unbekannten Sprechers. Die Bezugs-, Mittelwert- und Varianzsignale entsprechend der behaupteten Identität des Testsprechers werden erzeugt, und die Testmittelwert- und -varianzsignale werden mit den gespeicherten Bezugsmittelwert- und -varianzsignalen der behaupteten Identifikation verglichen.
Zu Erläuterungszwecken sei angenommen, daß die Steuerlogik 134 das Kontrollsystem der Fig. 1 durch Erzeugen von Ausgangssignalen REF und S und G in den Bezugsmodus versetzt. Das Sprachsignal des Bezugssprechers wird einer Filter- und -abtasterschaltung 102 von Leitung 101 zugeführt. Leitung 101 kann beispielsweise eine Telefonleitung sein. Das Durchlaßband des Eingangssprachsignals wird auf den Bereich zwischen 100 Hz und 4 kHz begrenzt, und das bandbegrenzte Signal wird unter der Steuerung eines Taktgebers 103 mit einer Folgefrequenz von 10 kHz abgetastet. Es können natürlich andere Frequenzbereiche und andere Abtastfrequenzen verwendet werden. Ein Endpunktdetektor 109 empfängt das Ausgangssignal der Schaltung 102. Auf der Basis des Energiegehaltes des Sprachsignals, der von einer Summierung der absoluten Werte der abgetasteten Ausgangs· .signale erhalten worden ist, wird das Ende des Sprachausdrucks festgestellt, so daß der Taktgeber 103 über ein Gatter 140 ab-
700828/0880
geschaltet werden kann. Beim Beginn eines jeden neuen Sprachausdrucks schaltet ein Signal vom Detektor 109 den Taktgeber 103 ein. Eine zur Verwendung in Fig. 1 geeignete Endpunktdetektoranordnung ist in der US-PS 3 909 532 (L. R. Rabiner) beschrieben.
Der in Fig. 3 gezeigte Taktgeber 103 umfaßt einen Abtastim-r pulsgenerator 301, von dem gleichen Abstand aufweisende Impulse SP bei der Abtastfrequenz von 10 kHz erhalten werden. Die SP-Impulse werden der Abtastschaltung 102 zugeführt, in der kodierte Abtastwerte des Sprachsignals erhalten werden. Das Ausgangssignal des Generators 301 wird außerdem einem Impulsgenerator 303 zugeführt. Die SP-Impulse vom Generator 301 synchronisieren den Betrieb des Generators 303» der während eines jedem Rahmens aus 200 SP-Abtastimpulsen vom Generator 301 gleichen Abstand aufweisende AS-Impulse erzeugt. Die AS-Impulse werden einem Zähler 305 zugeführt, der einen Ausgangsimpuls BS erzeugt, der mit jedem zwölften AS-Impuls zusammenfällt. Folglich werden während eines jeden Rahmens von 144 AS-Impulsen gleichen Abstand aufweisende BS-Impulse erzeugt. Der Zustand des Zählers A erscheint auf Leitung 330. Ein Zähler 307 spricht auf die BS-Impulse an, die am Ausgang des Zählers 305 erscheinen, und der Zustand des Zählers B erscheint auf Leitung 331. Der Zähler A wird bei jedem zwölften AS-Impuls und der Zähler B wird bei jedem zwölften BS-Impuls zurückgesetzt. Die AS- und BS-Impulse und die anderen Taktsignale werden über Leitung A
709828/0880
-sr-
W 26S9083
auf die anderen Abschnitte der Fig« 1 verteilt, um die Zeitsteuerung der Operationen dieser anderen Abschnitte zu steuern.
Die Ausgangssignale der Zähler 305 und 307 auf Leitungen 330 und 331 werden außerdem einem Rahmenanfangsdetektor 309 zugeführt, der in gemeinschaftlicher Abhängigkeit Von den Nullzuständen der Zähler A und B einen Impuls erzeugt. Dieser Impuls definiert den Beginn eines jeden Rahmens von 200 SP-Abtastimpulsen, während welchem 144 AS-Impulse und 12 BS-Irapulse auftreten. Das Ausgangssignal des Detektors 309 wird einem Rahmenzähler 317 zugeführt, der die Rahmenzahl in einem jeden Sprachausdruck der Sprechprobe, die dem Filter- und -abtaster 102 zugeführt wird, zählt. Ein Sprachausdruck-Ende-Detektor 313 spricht auf den Fall an, daß sich beide Zähler A und B in ihrem zwwölften Zustand befinden, und auf ein Signal vom Ausgang des Endpunktdetektors 109, um Sprachausdruck-Ende-Signale EU und EU zu erzeugen. Das Signal EU wird über eine Verzögerungseinrichtung 335 dem Zähler .317 zugeführt, um diesen am Ende eines jeden Sprachausdrucks zurückzusetzen, und es wird direkt einem Sprachausdruckzähler 319 zugeführt, der die Anzahl der Sprachausdrücke in der Sprachprobe zählt.
Ein Probe-Ende-Detektor 315 spricht gemeinschaftlich auf die Zustände der Zähler 305 und 307, auf den Endpunktdetektor 109 und einen Schweigen-Detektor 107 an, um ES-und ES-(Probenende-) Signale am Ende der Sprachprobe zu erzeugen. Das Signal ES
709828/0880
stellt über eine Verzögerungseinrichtung 333 am Ende der Sprachprobe den Sprachausdruckzähler 319 zurück. Die Feststellung einer Endp'unktübereinstimmung mit einem Schweigen-Intervall am Ende.eines Rahmens erzeugt die ES- und ES-Signale.
Zum Zweck der Berechnung der Mittelwerte und Varianten der Orthogonalparameter im System der Fig. 1 ist es erforderlich, die Anzahl der Rahmen verfügbar zu haben, die in jedem Sprachausdruck auftreten, und die Anzahl der Sprachausdrücke in der Sprachprobe. Die Anzahl der Rahmen N, die sich von Sprachausdruck zu Sprachausdruck ändert, ist am Ausgang des Rahmenzählers 317 verfügbar. Dieses Ausgangssignal wird in G-attern 321 und 323 beim Auftreten des EU-Signals am Ende eines jeden Sprachausdrucks abgetastet. Der Ausgang des Gatters 323 erzeugt ein kodiertes Signal N, das der Rahmenzahl im gerade beendeten Sprachausdruck entspricht. Ein Gatter 325 tastet den Zustand des Sprachausdruckzählers 319 am Ende der im Detektor 315 festgestellten Sprachprobe ab, so daß ein L-kodiertes Signal entsprechend der Anzahl der Sprachausdrücke oder Wörter in der Sprachprobe am Ende einer jeden Sprachprobe verfügbar ist.
Die Abtastsignalfolge bei der Folgefrequenz von 10 kHz wird vom Ausgang der Filter- und -abtastschaltung 102 auf einen Lineai^yoraussagekoeffizientencomputer 105 gegeben, in dem die Abtastwerte sm in Blöcken oder Rahmen- aus 200 kodierten Signalen
703828/0880
S^ bis SpQo gespeichert werden. Es können natürlich andere Rahmenanordnimgen verwendet werden. Eine Linearvoraussageanalyse des abgetasteten Sprachsignals wird durchgeführt in Übereinstimmung mit
B ■ Σ a^s_ ·
i=1
mit m = 1,2 .... 200 i = 1, 2, ..., p.
ρ ist die Anzahl der Pole des Voraussageanalysemodells. Die Linearvoraussageanalyse basiert auf einem Voraussagefiltermodell, bei dem alle Pole linear sind, wie es bekannt und beschrieben ist in "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave" von B. S. At al und S. L. Hanauer, Journal of Acoustic Society of America, Vol. 50, S. 6^7 - 655, 1951. Zum Zweck der Sprechererkennung hat sich ein 12-Pol-Filtefmodell,als angemessen herausgestellt. Es können jedoch selbstverständlich Anordnungen mit anderen Polen verwendet werden. ,.
Die linearen Voraussagekoeffizienten a.^ sind die Koeffizienten der abgetasteten Sprachsignale sm entsprechend der Darstellung der Gleichung (1). Für das in Fig. 1 verwendete 12-Pol-Filtermodell werden die Koeffizienten a>, bis a12 im Koeffizientencomputer 105 in jedem Rahmen der 200 Abtastwerte durch die Korrelation der abgetasteten Sprachsignale sm entsprechend Gleichungen (2) und (3) erzeugt.
709828/0880
8m-k8m» k»1,2...p (2)
$ a.YLU, k-1,2...p (3)
Dabei ist M die Anzahl der Abtastwerte in jedem Rahmen (M=200) und p=12.
Bekanntlich werden die linearen Voraussagekoeffizienten a^ der Gleichung (1) so gewählt, daß der mittlere quadratische Voraussagefehler entsprechend Gleichungen (2) und (3) minimiert wird. Gemäß Gleichung (2) wird dies durchgeführt durch eine Korrelationsanalyse des Blocks der Probensignale sm bis S+1^. Die resultierenden linearen Voraussagekoeffizienten a«j bis a^2 werden für jeden Rahmen aus M Sprachabtastungen (M=200) erhalten.
Beim Linearvoraussagekoeffizientencomputer 105 kann es sich um den Voraussageparametercomputer handeln, der in der US-PS 3 631 520 (B. S, Atal) gezeigt und beschrieben ist„* Diese Computeranordnung erzeugt lineare Voraussageparameter entsprechend der bekannten Kovarianzmethode. Alternativ dazu kann jeglicher Computer verwendet werden, wie der PDP11 oder Nova 800,bei welchem das Fortransprachprogramm des Anhangs A des "Format Trajectory Estimation from a Linear Least-Squares
709828/0880
inverse Filter Formulation" von John D. Markel, Speech Communications Research Laboratory, Inc., Monographie Nr. 7, Oktober 1971, benutzt werden kann. Dieses Fortranprogramm basiert auf der bekannten Korrelationsinethode. Jeder Rahmen hat eine Dauer von 20 ms und, wie man leicht erkennt, die Koeffizienten a^ bis a^p des Rahmens sind am Ende des den Abtastwerten S1 bis Sp0O entsprechenden Rahmens auf der Ausgangsleitung 136 verfügbar. Bei der Anordnung der Fig. 1 können die Koeffizienten a^ bis a^2 entweder mit der Kovarianz- oder der Korrelationsmethode abgeleitet werden.
Wenn auch die linearen Voraussagekoeffizienten a· direkt zur Erzeugung einer Gruppe von orthogonalen Parametern verwendet werden können, hat es sich als vorteilhaft erwiesen, statt dessen andere bekannte Voraussagekoeffizienten zu verwenden, wie Parcor- -oder logarithmische Bereichskoeffizienten. Die Parcor-Koeffizienten sind direkt von den linearen Voraussagekoeffizienten/iOi:·· ableitbar. Die Parcor-Koeffizienten stehen in Beziehung mit der Kennzeichnung des Allpolfilters in Form einer nichtgleichförmigen akustischen Röhre, die durch Kaskadieren ρ gleichförmiger zylindrischer Abschnitte gleicher Länge gebildet ist. Die Parcor-Koeffizienten entsprechen den Reflexionseigenschaften der Abschnitte der akustischen Röhre und stehen zu den linearen Voraussagekoeffizienten entsprechend Gleichung (4a) in Beziehung:
K1 = H1^ (4a)
709828/0880
Dabei ist K. der i-te Parcor-Koeffizient, mit i = 1, 2, ... p, und a.^' ist der i-te lineare Voraussagekoeffizient für ein ö-Pol-Linearvoraussagemodell (j = 1, 2, ..., p). Die logarithmischen Bereichskoeffizienten stehen gleichermaßen in Beziehung' zum Modell einer nichtgleichförmigen akustischen Röhre und sind eindeutig ableitbar vom linearen Voraussagekoeffizien ten, der vom Computer 105 entsprechend Gleichung (4b) erhalten worden ist:
1 + K.
A1 = 1Og(JTT^ (4t))
Ein Koeffizientenumsetzcomputer 117 erzeugt eine Gruppe von Voraussageparametern, wie die Parcor-Parameter, von den linearen Voraussagekoeffizienten a. und umfaßt eine arithmetische Schaltungsanordnung, die entsprechend Gleichungen (4a) oder (4b) arbeitet oder ein Computer sein kann, wie der PDP11 oder Nova 800, bei dem das in Fortransprache gemäß Seite 128 von "Linear Prediction of Speech-Theory and Practice" von J. D. Markel, A. H. Greag, Jr. und H. Wakita, Speech Communications Research Laboratory, Inc., Monograph Nr. 10, September 1973, aufgestellte Programm verwendet werden kann.
Die vom Umsetzcomputer 117 erhaltenen Voraussagekoeffizienten χ. werden einem Gatter 148 zugeführt. Das Gatter 148 leitet während eines jeden Rahmens des Bezugsmodus unter der Steuerung eines Signals BS4 vom Steuergenerator 450 die Voraussagekoeffi-
70982 8/0880
zientensignale χ.,, ... χ,.-« des Rahmens in einen Kovarianzgenerator 111, und zwar während dos selben Rahmens mit der BS-Folgefrequenz (12 pro Rahmen). Der Schweigen-Detektor spricht auf die erzeugten Sprachabtastwerte sm im Computer 105 an und schaltet den Takt 103 während der Rahmen, während welcher Schweigen herrscht, über Gatter 350 sowie am Ende eines Rahmens ab. Beim Schweigen-Detektor 107 kann es sich um irgendeinen der bekannten Schweigen-Detektoren handeln, die auf die Energie oder spektrale Charakteristika des Sprachsignals ansprechen» wie sie in der US-Patentanm. 627,865 (J.J. Dubnowski) beschrieben sind, um über Leitung 198 ein Signal auf das Gatter 350 des Taktgebers 103 zu geben, das die Erzeugung von Voraussageparametersignalen während der als Schweigen gekennzeichneten Rahmen verhindert.
Der ICovarianzgenerator 111 erzeugt mehrere Signale, die der Mittelwertkovarianzmatrix Pt entsprechen, die von den Voraussageparametersignalen erhalten worden sind, die diesem Generator während der Sprachprobe zugeführt worden sind..Bekanntlichwird die Kovarianzmatrix von einer statistischen Analyse der Abweichung der Voraussageparameter von ausgewählten Mittelwerten der Parameter abgeleitet. Der Kovarianzgenerator erzeugt ausgewählte Mittelwerte der Voraussagekoeffizienten X^ entsprechend Gleichung (5):
4 Σ xin
n=1
Dabei ist N die Anzahl der Rahmen im Sprachausdruck; und x. ist der i-te Voraussageparameter des η-ten Rahmens. Bekanntlich umfaßt die Kovarianzmatrix R Elemente r,.v, die in Gleichung (6) definiert sind.
ί J1 f xinxkn] ~ xi xk
(6a) (6b)
Die Kovarianzmatrix R ist eine p-mal-p-Matrix, die für ρ = 12
Λ/
144 Elemente aufweist. Die Kovarianzmatrix R* bezeichnet die-(Jenige Kovarianzmatrix, die für den £-ten Sprachausdruck eines gegebenen Sprechers berechnet v/orden ist. Die Mittelwert-Kovarianzmatrix für K für alle Sprachausdrücke des identifizierten Sprechers erha"' b man durch Mitteln entsprechend Gleichung (7):
* Λ L ** Ju # j, ~·ν
Dabei ist L die Anzahl der Sprachausdrücke in einer Sprechprobe eines gegebenen Sprechers. Gleichung (7) ist beispielsweise gegeben» Für·, die Berechnung von JrL können andere bekannte
benutzt werden. Somit repräsentiert die Mittel-709828/0880
wertkovarianzmatrix R die statistische Analyse der Sprachausdrücke oder Wörter der Sprechprobe des identifizierten Sprechers, von welcher im Orthogonalparametergenerator 112 während des Bezugsmodus .Bezugsorthogonalparameter erzeugt werden sollen.
Der Kovarianzgenerator 111 umfaßt mehrere arithmetische Einheiten, die Signale entsprechend den spezifizierten Mittelwerten der Voraussageparameter x. und kodierte Signale entsprechend den Elementen der Mittelwertkovarianzmatrix R zu erzeugen vermögen. Eine Anordnung zur Erzeugung kodierter Signale entsprechend den Elementen der Mittelwertkovarianzmatrix R ist in Fig. 4 gezeigt. Gemäß Fig. 4 erzeugen ein Schieberegister 401, ein Addierer 410 und ein Schieberegister 421 zusammenwirkend Signale entsprechend den Mittelwerten x^ der Gleichung (5). Das Schieberegister 401 weist 24 Stufen auf und vermag die Voraussagekoeffizienten x^, ..., x^p während eines jeden Rahmens von 200 Sprachabtastwerten über das Gatter 148 vom Umsetzcomputer 117 zu empfangen. Der Steuergenerator 450 reagiert auf Signale vom Taktgeber 103 und auf Signale von der Logik 134 und erzeugt eine Gruppe von Steuersignalen zum Betreiben der Schaltung gemäß Fig. 4, einschließlich eines Freigabeimpulses BS4 für jeden Rahmen, in dem x.-Signale über Gatter 148 der Fig. 1 in das Register 401 zu übertragen sind. Die 12 BS4-Impulse werden während dieses Intervalls ebenfalls dem Register 401 zugeführt, um dessen Verschiebungsfolgefre-
709828/0880
quenz zu steuern. Die BS4A-Impulse, die nach dem Füllen des
Registers 401 vom Generator 450 erhalten worden sind, bewirken, daß die 12 niedrigstwertigen x^-Signale im Register 401 auf einen Eingang eines Addierers 410 gegeben werden.
Entsprechend Gleichung (5) werden die x.-Ausgangssignale des Schieberegisters 401 über ein Gatter 411 der Reihe nach auf
einen Addierer 410 gegeben. Im Addierer 410 wird jeder Voraussageparameter x. zum entsprechenden Voraussageparameter x·
des vom Schieberegister 412 erhaltenen vorausgehenden Rahmens addiert. Der Inhalt des Registers 412 wird unter Steuerung
der Schiebeimpulse BS4A vom Generator 450 verschoben. Das Ausgangssignal des Addierers 410 wird unter Steuerung der BS4A-Impulse sukzessiv in das Register 412 geschoben. Am Ende eines Ausspruchs enthält das Schieberegister 412 die akkumulierten Summen der Voraussageparameter der Aussprüche oder Wörter
Xt x-i» »·· Sx^p* Jed® Summe ist proportional zum Mittelwert
des vorausgehenden der zwölf Voraussageparameter.
Zu Beginn eines jeden Rahmens werden die im Register 401 gespeicherten niedrigstwertigen 12 Parameter in Parallelform
über Gatter 407 und 409 zu Schieberegistern 403 bzw. 405
übertragen. Dies wird durchgeführt unter Steuerung des BF4-Signals vom Generator 450, das beim Beginn eines jeden Rahmens, für den Voraussageparameter x^ verfügbar sind, auftritt. Das Schieberegister 405 gibt die Voraussageparameter des Rahmens
709828/0880
X1, ... x^2 über ein Gatter 404 der Reihe nach auf einen Eingang eines Multiplizierers 420, und zwar mit der Folgefrequenz von 12 Verschiebungen pro Rahmen unter Steuerung der BS4A-Impulse vom Generator450.
Beim Schieberegister 403 handelt es sich um ein Umlaufschieberegister, das die gespeicherten Voraussageparameter der Reihe nach an den anderen Eingang des Multiplizierers 420 gibt und außerdem den Ausgangsparameter wieder zum Eingang des Schieberegisters zurückführt. Der Inhalt des Registers 403 wird unter Steuerung der AS4A-Impulse mit einer Folgefrequenz von 144 Verschiebungen pro Rahmen verschoben, während der Inhalt des Registers 405 unter Steuerung der BS4A-Impulse vom Generator 450 mit einer Folgefrequenz von 12 Verschiebungen pro Rahmen verschoben wird. Während des Intervalls zweier aufeinanderfolgender BS4A-Impulse treten 12 einen Abstand aufweisende Verschiebungssteuerimpulse AS^A auf, ivodurch pro Verschiebung des Inhalts des Registers 405 12 aufeinanderfolgende Verschiebungen des Inhalts des Registers 403 auftreten. Auf diese Weise erzeugt der Multiplizierer 420 12 aufeinanderfolgende Produkte für ^edes xk-Ausgangssignal des Schieberegisters 405, um 12 Produkte 3^j1Xkn zu erhalten? für jede Verschiebung des Inhalts des Registers 405 entsprechend den Anforderungen der Gleichung (6a).
Das Ausgangssignal des Multiplizierers 420 wird einem Addierer 421 zugeführt 0 in dem das laufend erzeugte Produkt zur
'η]
is
IS
des entsprechenden Produkts der vorausgehenden Rahmen addiert wird. Das resultierende Ausgangssignal des Addierers 421 wird unter Steuerung der Verschiebeimpulse AS4A einem Schieberegister 423 zugeführt. Das Schieberegister 423, das unter Steuerung der AS4A-Impulse mit einer Folgefrequenz von 144 Verschiebungen pro Rahmen arbeitet,- speichert die laufend akkumulierte Summe eines jeden der 144 Produktausgangssignale des Multiplizierers 420 am Ende eines $den Rahmens.
Am Ende eines jeden Wortes enthält das Schieberegister 412 12 kodierte Signale entsprechend den Mittelwerten x^ (i =
1, 2, ...., 12) der Gleichung (5), und das Schieberegister
N 423 speichert die summierten 144 Produkte £, x,-MXi,„ entspre-
n=1 in Kn chend Gleichung (6a). Am Ende eines jeden Wortes ist Gatter 413 unter der Steuerung eines Signals EU geöffnet, das im Impulsgenerator 450 in Abhängigkeit von dem über Leitung A kommenden Wortendesignal EU von Fig. 3 erzeugt worden ist. Das Signal EU4 weist die Dauer eines Rahmens auf. Die kodierten Signale für x^, ...,X^2 Werden unter Steuerung des vom Generator 450 erzeugten Verschiebungssignals AS4B (144 Impulse pro Rahmen) der Reihe nach in das Schieberegister 430 geschoben.
Wenn das Schieberegister 430 gefüllt ist, wird ein Gatter 431 durch das Signal BF4A vom Generator 450 geöffnet und die zwölf
709828/0880
Signale im Register 430 werden in Parallelform in das Schieberegister 432 übertragen. Der Inhalt des Registers 430 wird
nun unter Steuerung des Signals BS4B verschoben. Beim Register 432 handelt es sich um ein Umlaufregister, das unter Steuerung des Schiebesignals AS4B vom Generator 450 betrieben wird,
wodurch die 12 Signale im Register 432 der Reihe nach an einem Eingang eines Multipliziereres 434 erscheinen, während ein
Signal vom Register 430 am anderen Eingang des Multiplizierers 434 erscheint. Auf diese Weise erhält man vom Ausgang des
Multiplizierers 434 sequentiell 144 Produkte.
Am Ende eines jeden der aufeinanderfolgenden Wörter v/erden die Inhalte des Schieberegisters 423 unter Steuerung des Verschiebungssignals AS4A (mit einer Folgefrequenz von 144 Kodes pro
Rahmen) seriell in ein Verzögerungsschieberegister 435 verschoben, und zwar über ein Gatter 427, das auf das Signal EU4
anspricht. Während dieser Übertragung wird ein Gatter 425 mit
eineffi=Signal EU4 betrieben* um das Schieberegister 423 freizumachen. Das Schieberegister 435 verzögert das Erscheinen der
^x^x^-kodierten Signale während des Intervalls, in dem die
Schieberegister 430 und 431 gefüllt sind. Auf diese Weise werden die über Gatter 460 und 461 kommenden Eingangssignale für
einen Subtrahierer 437 entsprechend Gleichung (6a) ausgerichtet, so daß das Ausgangssignal des Subtrahierers 437 der Gleichung (6a) entspricht. Das Ausgangssignal des Subtrahierers wird durch ein vom Gatter 323 in Fig. 3 erhaltenes Signal N in
709828/0880
einer Teile-durch-N-Schaltung 450 geteilt, um die r ^-Elemente der Matrix R zu erzeugen.
Am Ende einer jeden Äußerung erzeugt der Impulsgenerator 450 ein Signal EU4A, in Abhängigkeit von dem der Inhalt eines Schieberegisters 441 mit der AS-Folgefrequenz (144 Verschiebungen pro Rahmen) nach rechts verschoben wird. Das Schieberegister 441 speichert die aufeinanderfolgenden r^-Summenelemente von den Äußerungen der Sprachprobe, so daß die gespeicherten r.^-Summenelemente zu den r ^-Elementen von einem Teiler 450f im Addierer 439 addiert werden. Die resultierende akkumulierte Summe wird dann im Schieberegister 441 gespeichert.
Am Ende der gesamten Sprachprobe enthält das Schieberegister 441 die r.,-Summenelemente für die Mittelwertkovarianzmatrix R entsprechend Gleichung (6b). Die Elemente der ^-Matrix werden unter Steuerung des Verschiebungssignals Es4 vom Generator 450 aus dem Register 441 geschoben. Während dieses Verschiebevorgangs spricht ein Gatter 443 auf ein Signal ES4 vom Generator 450 an, um zu verhindern, daß das Ausgangssignal des Registers 441 dem Addierer 439 zugeführt wird, wodurch das Register 441 freigemacht wird. Das Ausgangssignal des Registers 441 wird unter Steuerung des am Ende der Sprachprobe auftretenden Signals ES4 einem Teiler oder Dividierer 445 zugeführt, wodurch jedes £rik-Element durch L geteilt wird, das
709828/0880
vom Zähler 319 über das Gatter 325 in Fig. 3 erhalten worden ist. Das Ausgangssignal des Teilers 445 gelangt unter Steuerung des Signals ES4 durch das Gatter 16O in Fig. 1 und wird im Orthogonalparametergenerator 112 benutzt.
Alternativ dazu kann ein Allgemeinzweckcomputer, wie der PDF11 oder Nova 800, zur Erzeugung von R verwendet werden, v/elcher Computer so programmiert ist, daß er die Elemente der Mittelwertkovarianzmatrix JF^ erzeugt. Ein Programm für diesen Zweck in Fortransprache ist beschrieben auf den Seiten 32 und 33 von "system/360 Scientific Subroutine Package Version III Programmer's Manual", Program Number 36OA-CM-O3X, 5. Ausgabe (August 1970), Copyright International Business Machines Corporation 1966, 1967, 1968. Das Ausgangssignal j? des Kovarianzgenerators 111 wird unter Steuerung des Signals ES4 vom Steuerimpulsgenerator 450 während des Bezugsmodusbetriebs über Gatter 16O einem Orthogonalparametercomputer 112 zugeführt.:
Der Computer 112 erzeugt kodierte Signale entsprechend einem vorgeschriebenen Satz orthogonaler Parameter auf der Grundlage der Statistik der Sprächprobe des identifizierten Sprechers. Die orthogonalen Parameter sind statistisch unabhängig, und jederorthogonale Parameter repräsentiert eine Drehung der Koordinaten der Voraussageparameter, die man vom Umsetzcomputer 117 erhalten hat. Durch diese Methode erhält man eine Gruppe sprecherabhängiger, jedoch linguistisch unabhängiger Charakter!·
70-9828/0880
SZ
stika, die die Basis des Sprecherkontrollsystems der Fig. 1 bilden.
Die Orthogonalparametersignale/tf erden erzeugt durch eine Eigen vektoranalyse der Voraussageparanieter Xj in Abhängigkeit von den vom Computer 111 erhaltenen Mittelwertkovarianzmatrix-Jl-Signalen. Die Eigenwerte V1 (i = 1, ..., p), welche die Varianz der Orthogonalparameter über die Äußerung des identifizierten Sprechers repräsentieren, werden entsprechend Gleichung (8) erhalten:
-vll =0 . (8)
Dabei repräsentiert ν die Eigenwerte (Varianz) der Orthogonalparameter und ^ ist die Indentitätsmatrix. Auf der Grundlage der Gleichung (8) wird eine Gruppe von Bezugsvektorsignalen U1 mit je ρ (12) Elementen aus Gleichung (9) erhalten:
V1 U1 "Su1 i - 1,2,... ,p (9)
p»12.
V1 ist der Eigenwert des i-ten Orthogonalparameters. Jeder Orthogonalparameter weist eine eindeutig Beziehung zu den Voraussagekoeffizienten X1 entsprechend Gleichung (10) auf.
P
wk * Σ uki *i t * - 1»2,...p (10)
709828/0880
Dabei repräsentiert Uj. das i-te Element des k-ten Bezugsvektorsignals. Somit erhält man vom Orthogonalcomput.er 112 eine Gruppe von 12 Varianzgrößen (Eigenwerten) ν,,, ..., ν,,ρ» und eine Gruppe von 144 Bezugs Signalen u,, ^, ... U12 -12* Die Bezugssignale |u^Λ entsprechen Umsetzkoeffizienten, welche die Voraussageparameter x. in die Orthogonalparameterkoordinaten transformieren. Die Gruppe der den u, . entsprechenden Bezugssignale kann dann verwendet werden, um eine Gruppe von Orthogonalparametern für einen Testsprecher von Voraussageparametern des Testsprechers zu erzeugen. Die Koeffizientengruppe {uvA wird in einem Speicher 115b gespeichert, der während des Bezugsmodusbetrieb durch ein Identifikationskodesignal IDC von der Sprecheridentifikationslogik 132 addressiert ist. Auf diese Weise ist für jeden identifizierten Sprecher in einem vorbestimmten Platz des Speichers 115 eine Gruppe von Bezugssignalen verfügbar. Die Varianz-(Eigenwerte)Signale. V^, ... V^2 werden ähnlich im Speicher 115a gespeichert, der durch ein Sprecheridentifikationskodesignal ID addressiert ist, wenn das System der Fig. 1 im Bezugsmodus arbeitet.
Beim Orthonalparametercomputer 112 kann es sich um einen Allgemeinzweckcomputer, wie den PDP11 oder den Nova 800 handeln, der durch ein oder mehrere bekannte Programme die Eigenwerte und die entsprechenden Eigenvektoren der Gleichungen (8) und (9) zu berechnen vermag. Ein Programm in Fortransprache für die Er-
709828/0880
zeugung det1 Eigenwerte v^ und die Umsetzkoeffizienten (u, ■], das für diesen Zweck geeignet ist, kann man im zuvor erwähnten IBM Programmers Manual auf Seite 164 finden.
Die Signale wi (i = 1, 2, ..t, 12) entsprechend den im Computer 112 erzeugten Orthogonalparametern werden über ein Gatter 156 einem Bezugsmittelwertgenerator 113 zugeführt. Der Generator 113 umfaßt arithmetische Schaltimgen, die den Mittelwert für jedes Orthogonalparametersignal w^ zu erzeugen vermögen, das vom Computer 112 entsprechend Gleichung (11) erhalten worden ist:
nf-,
Dabei ist w. das i-te Orthogonalparametersignal, das im Rahmen η auftritt; N^ die Anzahl der Rahmen in der i-ten Sprachäusserung des identifizierten Sprechers; und L die Gesamtzahl der Äußerungen in der Sprachprobe des identifizierten Sprechers. Gleichung (11) ist beispielsweise gegeben. Es versteht sich, daß andere Formulierungen für w. ebenfalls verwendet werden können. Entsprechend Gleichung (11) kann der Generator 113 eine summierende Logikschaltungsanordnung aufweisen, die unter einer Zählersteuerung kodierte Signale verarbeitet.
Fig. 5 zeigt eine Anordnung zur Erzeugung der Gruppe von Orthogonalparametermittelwerten w^ , ...., w.2 entsprechend Glei-
709828/0880
chung (11). Die Signale λ^ , ..., w,j2 werden während eines jeden Rahmens des Bezugsmodus,'wenn Computer 112 Orthogonalvoraussageparametersignale liefert, unter Steuerung des Signals ES4der Reihe nach vom Gatter 156 einem Eingang eines Addierers 502 in Fig. 5 zugeführt. Während des ersten Rahmenausgangssignals des Generators 112 gelangen die 12 w.-Signale des ersten Rahmens durch den Addierer 502 und werden der Reihe nach in einem Schieberegister 504 gespeichert, und zwar unter Steuerung von BS5-Verschiebesignalen von einem Steuergenerator 540. Das Auftreten der BS5-Verschiebungsimpulse sowie der anderen Steuersignale für den Betrieb der Schaltung nach Fig. 5 wird durch den Generator 540 in Abhängigkeit von Signalen auf Leitungen A und G vom Taktgeber 103 bzw. der Logiksteuerung 134 gesteuert. Während eines jeden nachfolgenden Rahmens einer Äußerung werden die w^-Signalausgänge dieses.Rahmens vom Generator 112 zu den entsprechenden zuvor gespeicherten Vierten in einem Register 504 addiert, wie in Gleichung (11) indiziert ist, und die resultierende Summe wird im Register 504 gespeichert. BS5-Schiebesignale steuern den Betrieb des Registers 504 während der Summierung.
Am Ende der Äußerung wird ein Gatter 508 unter Steuerung von EU5-Impulsen vom Generator 540 geöffnet, wodurch die Signale vom Register 504 der Reihe nach auf den Eingang einer durch •N teilenden Schaltung 510 gegeben werden. Ein Signal, das der Anzahl der Rahmen ii/der Äußerung entspricht, wird vom Gatter
709828/0880
der Fig. 3 dem anderen Eingang der durch N teilenden Schaltung 510 zugeführt. Demzufolge sind die Ausgangssignale der Schaltung 510 die Mittelwerte der Orthogonalparameter w^ über die Äußerung.
N '
in
W1 - ti _Σ
Das Schieberegister 514 enthält die Orthogonalparameter, die über die vorausgehenden Äußerungen in der Sprechprobe gemittelt sind. Ein Addierer 512 addiert sukzessiv die Mittelwerte der Orthogonalparameter von der durch N teilenden Schaltung 510 zu der entsprechenden zuvor gespeicherten Summe der Mittelwerte in einem Schieberegister 514. Am Ende der Sprachprobe wird ein Gatter 517 unter der Steuerung eines ES5-Signals vom Generator 540 geöffnet und die Ausgangssignale des Registers 514 werden der Reihe nach einer durch L teilenden Schaltung 521 mit der BS-Folgefrequenz (12 Verschiebungen pro Rahmen)._._._ zugeführt. Das andere Eingangssignal für die Schaltung 521 erhält man über Gatter 325 in Fig. 3 vom Äußerungszähler 319, so daß die Ausgangssignale der Schaltung 521 die Mittelwerte für die 12 Orthogonalparameter über die Sprechprobe sind. Diese entsprechend Gleichung (11) erzeugten Mittelwertsignale w^ werden der Reihe nach in ein Schieberegister 523 eingegeben, aus dem Register 523 in Parallelform ausgelesen und über ein Gatter 175 in einen Speicher 115c eingegeben. Das Gatter 175 wird von einem Signal ES5A vom Generator 540 gesteuert.
709828/0880
Eine dem Speicher 115c zugeordnete Addressenlogik 115d plaziert die Mittelwerte der Orthogonalparametersignale der Sprechprobe während des durch die Steuerlogik 134 bestimmten Bezugsmodusbetriebs unter Steuerung des Addressenkodes IDC von der Sprecheridentifikationslogik 132 in einer ausgewählten Stelle.
Am Ende des Bezugsbetriebs enthalten die Speicher 115a, 115b und 115c für einen gegebenen identifizierten Sprecher eine Gruppe von Signalen entsprechend den Varianten v^ der 12 Orthogonalparameter, eine Gruppe von Signalen entsprechend den Bezugskoeffizienten Uj., welche später erhaltene Testvoraussageparametersignale in die vorgeschriebene Gruppe von Testorthogonalparametersignalen umzusetzen vermögen, und eine Gruppe von Signalen entsprechend den Mittelwerten W1 der 12 Orthogonalparameter. Jede Gruppe ist entsprechend dem Sprecheridentifikationskode IDC addressierbar. Der Bezugsbetrieb der Fig. 1 -ist -nun-für den identifizierten Sprecher komplett. Nachdem der Speicher 115 durch wMerholte Bezugsoperationen mit Bezugssignalen entsprechend einer Vielzahl identifizierter Sprecher gefüllt ist, kann das Kontrollsystem gemäß Fig. 1 verwendet werden, um die behauptete Identität eines unbekannten Testsprechers zu überprüfen.
Es sei zu Erläuterungszwecken angenommen, daß der Filter-und
709828/0880
-abtastschaltung 102 von Leitung 101 ein Sprachsignal von einem unbekannten Testsprecher zugeführt wird, nachdem die Bezugssignale entsprechend einer Vielzahl identifizierter Sprecher gespeichert sind. Der Sprecheridentifikationskode- · generator 132 wird auf einen Kode entsprechend der behaupteten Identifikation des Testsprechers eingestellt. Der Moduswähler 133 wird auf den Testmodus eingestellt und von der Logik werden die Signale TEST und S aktiviert.
Unter Steuerung der Signale TEST und S v/ird das Testsprachsignal in der Filter- und -abtastschaltung 102 abgetastet, und die kodierten Abtastwerte des Testsprechsignals werden der Reihe nach dem Linearvoraussagekoeffizientencomputer 105 zugeführt. Vie zuvor erwähnt, erzeugt der Computer 105 während eines jeden Rahmens eine Gruppe von 12 linearen Voraussagekoeffizienten a.*, ... a,j2 bei äer BS-Signalfolgefrequenz, die durch den Zähler 305 in Fig. 3 bestimmt ist. Jeder Rahmen weist 200 Sprachabtastwerte s^, ..., S200 aui# ^e Koeffizienten a^, ... a^2 werden durch den Koeffizientenumsetzcomputer 117 in eine andere Darstellung, beispielsweise die Parcor-Darstellung, transformiert, wodurch eine Gruppe von Voraussageparametern X^ entsprechend dem Testsprecher erzeugt und verfügbar gemacht v/ird.
Die Voraussageparametersignale x^ werden über Gatter I63 einem Testsprecher-Orthogonalparametergenerator 119 zugeführt. Gleich-
709828/0880
laufend wird der Speicher 115b unter der Adresse der behaupteten Identifikation abgefragt, so daß die Bezugskoeffizientensignale u^ j., .-.., U12 λ2 entsprechend ^er behaupteten Identifikation über Gatter 165 in den Testsprecher-Orthogonalparametergenerator ausgelesen werden. In Abhängigkeit von den Voraussageparametern des Testsprechers vom Umsetzcomputer 117 und den Bezugskoeffizientensignalen der behaupteten Identifikation vom Speicher 115 erzeugt der Generator 119 für jeden Rahmen entsprechend Gleichung (12) eine Gruppe von Testorthogonalvoraussageparametern Z^, ... z^2·
χ. sind die Testvoraussageparameter des unbekannten Sprechers. Der Generator 119 umfaßt eine Produktbildungsvorrichtung und Schaltungen zum Summieren der Produkte entsprechend den Indices der Gleichung (12).
Fig. 6 zeigt eine Anordnung, die eine Gruppe von Testorthogonalparametern für jeden Rahme:a von den gespeicherten Bezugssignalen, die man von der Sprachprobe der behaupteten Identität erhalten hat, und die Voraussageparameter, die man für den Testsprecher vom Koeffizientenumsetzcomputer 117 während' des Testmodus erhalten hatf zu erzeugen vermag. Beim Beginn des Testmodus wird der Speicher 115b abgefragt, wozu er durch den IDC-Kode der behaupteten Identität addressiert wird.
709828/0880
Die Bezugsignale für die behauptete Identität vom Speicher 115b werden über Gatter 165 in Parallelform auf ein Schieberegister 601 gegeben. Am Ende der Übertragung sind -144 Koeffizienten Uy. im Register 601 untergebracht. Während eines jeden Rahmens des Testmodus werden die 12 Voraussageparameter vom Gatter 163 der Reihe nach in ein Schieberegister 602 gegeben. Nachdem 12 Parameter x^, ... X^2 entsprechend einem Rahmen in die 12 niedrigstwertigen Positionen des Registers
602 geschoben worden sind, werden diese Parameter in Parallelforra aus dem Register 602 ausgelesen und unter Steuerung eines Signals BF6 von einem Steuerimpulsgenerator 620 vom Register über ein Gatter 609 einem Schieberegister 607 zugeführt.
Die Schieberegister 601 und 607 sind Umlaufschieberegister. Das Schieberegister 601 arbeitet unter Steuerung eines Signals AS6 vom Generator 620 mit der schnellen AS-Folgefrequenz (144 Verschiebungen pro Rahmen). Der Inhalt des Schieberegisters 607 läuft inter Steuerung des Signals AS6 bei jedem Umlauf des Inhalts des Schieberegisters 601 12 mal um. Die Ausgangssignale der Register 601 und 607 werden über Gatter
603 und 605 auf einen Multiplizierer 611 geführt, in dem die Produkte u,. x. gebildet werden. Somit werden für jede Gruppe aus 12 Voraussageparametern 144 Produkte vom Multiplizierer 611 erhalten. Die Summe einer jeden nachfolgenden Gruppe aus 12 Produkten wird in einem Addierer 610 gebildet, dessen Ausgangssignal über einen um eine Ziffer verzögernden Speicher
709828/0880
2G50083
und ein Gatter 613 zurückgeführt wird. Der Multiplizierer 611 und der Addierer 610 arbeiten bei der AS-(144 Parameter pro Rahmen)Folgefrequenz. Am Ende von 12 AS-Signalen öffnet das BS6-Signal vom Generator 620 ein Gatter 185 und die orthogonalen Parameter
= ^1 ukixi
entsprechend Gleichung (12) v/erden über Gatter 185 auf einen Testmittelwert" und -varianzgenerator 123 übertragen. Während der Übertragung eines Orthogonalparametersignals ist das Gatter 613 durch ein Signal BSS vom Generator 620 gesperrt, so daß die Bildung des nächsten Orthogonalpararneters begonnen wird. Am Ende des Rahmens, während welchem 12 Orthogonalparameter in der Schaltung der Fig. 6 erzeugt worden sind, wird die nächste Gruppe aus Voraussageparametern entsprechend dem nachfolgenden Rahmen vom Register 602 zum Register 607 übertragen, um die Orthogonalparameter entsprechend dieses nachfolgenden Rahmens zu bilden.
Die vom Generator 119 erhaltenen Rahmenorthogonalparameter z^, ... z^2 fur ^en Testsprecher v/erden während des Testmodusbetriebs unter Steuerung des Signals BS6 vom Generator 62Q dem Testmittelwertvarianzgenerator 123 zugeführt. Der Generator 123 erzeugt ein Signal entsprechend dem Mittelwert "Z^ eines
7*09828/0880
jeden Orthogonalparameters des Testsprechers und ein Signal entsprechend der Varianz- V. eines jeden Testsprecherorthogonalparameters entsprechend Gleichungen (13) und (14).
J1
Der Generator 123 umfaßt arithmetische Schaltungen, welche die geforderte Suminierung und Mittelvrertbildung zu erzeugen ver~ mögen. Fig* 7 zeigt eine Anordnung arithmetischer Einheitons die Signale entsprechend den Hittelwerten Z. der Orthogonalparametersignale über die Sprachprobe des Testsprechers, man sie aus Fig. 6 erhalten hat, und ein Varianzsignal V^ für jeden Orthogonalparameter entsprechend Gleichung (i4a) erzeugt. Die Orthogonalparametersignale z.,, .... z^p vom Gatter 185 v/erden sukzessiv einem Addierer 702 in Schaltung 123 zugeführt, und zwar mit der BS-Folgefrequenz (12 Parameter pro Rahmen). Ein Schieberegister 704 speichert die Summe der Orthogonalparameter ξ,ζ-, ...ίζ^2» Während eines jeden BS6-Impulses vom Steuergenerator 620 wird ein Orthogonalparameterausgangssignal des Registers 704 zum entsprechenden Orthogonalparameter vom Gatter 185 addiert, und das Resultat wird in das Re-
709828/0880
gister 704 eingegeben. Am Ende einer Äußerung wird der Inhalt des Registers 704 unter Steuerung (des Ende-Äußerung) Signals EU7 von.einem Generator 720 über ein Gatter 705 der Reihe nach einer durch N teilenden Schaltung 709 zugeführt. Zur selben Zeit wird das Ausgangssignal des Registers 704 zur Vorbereitung für die nächste Äußerung durch ein auf ein Signal EU? ansprechendes Gatter 706 gelöscht. Das andere Eingangssignal erhält die durch N teilende Schaltung 709 vom Rahmenzähler 317 des Taktgebers 103 in Fig. 3 über das Gatter 323, und die Ausgangssignale der Schaltung 709 sind die Mittelwerttestorthogonalparametersignale Z^ der Äußerung entsprechend der Gleichung (13).
Die Mittelwerte der Orthogonalsignale werden einer Quadrier-
schaltung 711 zugeführt, um kodierte Signale (Z.) zu bilden, die einem Eingang eines Subtrahierers 715 zugeführt werden. Die aufeinanderfolgenden Ausgangssignale des Schieberegisters 704 werden zu dieser Zeit über das Gatter 705 auch einer Quadrierschaltung 712 zugeführt. Die Quadrierschaltung 712 erzeugt (Z^) -Signale. Diese Signale werden einem Eingang einer durch N^ teilenden Schaltung 714 zugeführt, so daß die
Mittelwerte der (Z^) -Signale von der Quadrierschaltung 714 dem anderen Eingang des Subtrahierers 715 zugeführt werden. Die Ausgangssignale des Subtrahierers 715 werden entsprechend (14a) auf eine durch N teilende Schaltung 717 gegeben, so daß Varianzsignale V^ gebildet werden. Auf diese v/eise
70982870880
HH
herden die Mittelwert signale "Z^ und die Varianzsignale V.^
der Testorthogonalparameter entsprechend dem unbekannten
Testsprecher zur Verwendung im Abweichsignalgenerätor 127 gebildet. Die Z.- und V--Signale v/erden nicht von einer unabhängigen Eigenvektoranalyse der Voraussageparameter des Testsprechers erzeugt, sondern von den gespeicherten BezugsSignalen {uv-A der behaupteten Identität und den Voraussageparaiaetern für den Testsprecher.
Die Ausgangssignale des Generators 123, der Mittelwert Z^ und das Varianzsignal V^ für jeden der Testorthogonalparameter
werden unter Steuerung von Signalen BS8A von einem Generator 870 (Fig. 8) über Gatter 187 bzw. 189 dem Abweichsignalgenerator 127 zugeführt. Gleichermaßen werden die Mittelwert w. der Bezugsorthogonalparameter der behaupteten Identität und die
Varianz v. eines jeden der BezugsOrthogonalparameter dem Abweichsignalgenerator 127 von den Speichern 115a bzw. 115c
über Gatter 179 bzw. 181 zugeführt. Das Abweichsignal entsprechend der charakteristischen Differenz zwischen den Orthogonalparametern des Testsprechers und den gespeicherten Bezugsorthogonalparametern der behaupteten Identität wird entsprechend Gleichung (15) entwickelt.
vi
709828/0880
Ein Abweichsignal kann man auch aus den Differenzen der Mittelwerte lediglich entsprechend dem ersten Term der Gleichung (15) erhalten. Wie man leicht aus Gleichung (15) ersieht, erhält man die Ataweichsignalkompoiiente für jeden Orthogonalparameter aus der Differenz zwischen dem Bezugsorthogonalparametermittelwert w^, der abgeleitet worden ist von der Voraussageanalyse des Bezugssprechers, dessen Identität behauptet worden ist, und dem Testorthogonalparametermittelwert Z^, der aus der Kombination der Voraussageparanieter des Testsprechers und der Bszugskoeffizientensignale der behaupteten Identität erzeugt worden ist. Das Quadrat der Differenz der
Mittelwerte (w. - Z-) ' wird durch die Varianz v· des Bezugs-•j. -*- -i-
o ο
Orthogonalparameters und (V^-v^) wird durch ν ^" geteilt, so daß den Orthogonalparametern, die über die Sprachproben relativ konstant sind (kleine Varianz), ein größeres Gewicht gegeben wird und ein beträchtlich kleineres Gewicht den Orthogonalparametern mit großer Änderung. Somit ist das Abweich-· signal effektiv eine Funktion jener Orthogonalparameter, die über die Sprechproben betrachtet relativ konstant sind. Auf diese Weise entspricht das Abweichsignal den Differenzen zwischen jenen Orthogonalparametern, welche linguistisch unabhängig sind, und jenen, die stark vom Sprecher abhängig sind.
Der Abweichsignalgenerator 127 umfaßt arithmetische Einheiten, welche die erforderlichen Quotienten und die Summierung der
70 9 82 8/0880
Quotienten über die Indices der Gleichung (15) zu bilden vermögen. Fig. 8 zeigt eine Anordnung zur Erzeugung des Abweichsignals d entsprechend Gleichung (15). Bei Beginn des Testmoduc werden die gespeicherten Mittelwerte der Bezugsorthogonalpararaeter w. bis vL2 der behaupteten Identität vom Speicher 115c über Gatter 181 in ein Schieberegister 801 übertragen. Gleichermafien vrercLcri die gespeicherten Bezugsvarianzsignale v^ bis ν,, ρ der behaupteten Identität vom Speicher 115a über Gatter 179 in ein Schieberegister 805 übertragen. Am Ende der ßprachprobe des Testsprechers werden die Signale entsprechend den Mittelwerten der Testorthogonalparameter 2L bis 2L0 unter Steuerung des Signals BS8A vom Steuergenerator 870 vom Generator 123 über Gatter 187 in ein Schieberegister 803 übertragen, und die Varianzsignale V^ bis V^0 des Testsprechers werden unter Steuerung des Signals BS8A vom Generator 123 über Gatter 189 in ein Schieberegister 807 übertragen. Wach Vollendung der Übertragungen in die Register 805 und 809 v/erden Gatter 810, 812, 814 und 816 durch ein Signal BS8B vom Generator 870 geöffnet, so daß die gespeicherten kodierten Signale in den Registern 801, 803, 805 und 807 unter Steuerung des BS8B-Signals sequentiell mit der BS-Folgefrequenz (12 Signale pro Rahmen) ausgelesen werden.
Ein Subtrahierer 820 subtrahiert die der Reihe nach erscheinenden Z'.-Signale von den entsprechenden w.-Signalen, um
709828/0880
(wV - Z.)-Signale zu bilden. Das Ausgangssignal des Subtrahierers 820 gelangt auf einen Eingang eines Teilers 822, nachdem es in einer Quadrierschaltung 823 verarbeitet worden ist, und das Ausgangssignal des Schieberegisters 805 wird auf den anderen Eingang des Teilers 822 gegeben, wodurch der Teiler 822 Signale
W1 - Z1)*
erzeugt. Das Ausgangssignal der Teilerschaltung 822 gelangt auf einen Eingang eines Addierers 825, dem ein zweites Eingangssignal zugeführt wird, das von einer Rückkopplungsschleife stammt, die eine Verzögerungseinrichtung 827 und ein Gatter 829 umfaßt. Der Addierer 825 summiert die zwölf aufeinanderfolgenden Ausgangssignale der Quadrierschaltung 823 und das^daraus resultierende Signal ist
am Ende der Periode, in welcher die Summierung geschieht. Nach der Summierung wird das Gatter 829 durch ein Signal EF8 gesperrt, und das Summierungssignal gelangt unter Steuerung eines Signals EF8 durch ein Gatter 851.
Ein Subtrahierer 831 subtiäiiert die vom Register 805 erhaltenen Bezugsvarianzsignale v^ von den entsprechenden Testspre-
■709828/0880
Hi
chervarian^signalen V^ des Registers 807. Das Ausgangs signal des Subtiäiierers 831 wird einem Teiler 835 zugeführt, der einen zweiten Eingang aufweist, der vom Register 805 über einen Zweimal-Multiplizierer 833 gespeist wird. Auf diese Weise wird ein Signal entsprechend
IiJLZl
erzeugt. Eine Quadrlersclialtung 837 multipliziert das Ausgangssignal des Teilers 835 mit sich selbst und gibt das resultierende Signal auf einen Addierer 839. Der Addierer 839 erzeugt ein Signal entsprechend
12 5=1
und v/eist ein Eingangssignal auf, das von einer Rückkopplungsschleife mit einer Verzögerungseinrichtung 840 und einem Gatter 842 stammt. Nach der Summierung der zwölf Signale im Addierer 839 wird das Gatter 842 durch ein Signal EF8 gesperrt und Gatter 850 wird durch ein Signal EF8 vom Generator geöffnet. Die Ausgangssignale der Addierer 825 und 840 v/erden dann über Gatter 850 und 851 auf einen Addierer 843 geführt, in dem das kodierte Abweichsignal entsprechend Gleichung (15) erzeugt wird.
709828/0880
Das Ausgangs signal des Abweichgenerators 127 ist ein einziges Signal d, das die Differenz zwischen den Testsprechercharakteristika und den Charakteristika des behaupteten, zuvor identifizierten Sprechers angibt. Dieses Signal wird über ein Gatter 190 unter Steuerung des Signals EF8 vom Generator 870 einem Eingang eines Kornparators 129 zugeführt. Dem anderen Eingang des !Comparators 129 wird ein kodiertes Schwellenwerts ignal vorbestimmter Größe zugeleitet, das der maximal akzeptablen Abweichung für eine Bestätigung des Testsprechers entspricht. Wenn das Abweichsignal vom Generator 127 grosser als dieser Schwellenwert ist, wird ein erster Ausgang des Kornparators 129 aktiviert, um die Zurückweisung der behaupteten Identität des Testsprechers anzuzeigen. Wenn das Abweichsigna? d vom Generator 127 gleich oder kleiner als der dem Komparator 129 zugeführte Schwellenwertkode ist, sind die Unterschiede zwischen den Testsprechercharakteristika und den im Speicher 115 gespeicherten Bezugscharakteristika derart, daß die behauptete Identität des Sprechers akzeptiert wird.
Vorteilhafterweise erzeugt der Vergleich der Orthogonalpara™ metercharakteristika einen Vergleich von Charakteristika, die stark sprecherabhängig und im wesentlichen unabhängig von der Linguistik sind. Die Anordnung des Systems gemäß Fig. 1 erfordert lediglich, daß die Bezugskoeffizientensignale und die
709828/0380
Orthogonalparameter·,:? ignale zur Speicherung während des Bäu^'gmodusbetriebs erzeugt werden. Da die Orthogonalparaineter des Testsprechers nicht unabhängig erzeugt v/erden, sondern von den Bezugskoeffizientensignalen und den Voraussage-Parametern des Testsprechers, ist das-während des Testmodusbetriebr; erhaltene Abweichsignal viel empfindlicher gegenüber Unterschieden zwischen den Bezugscharakteristika und den Testcharakterist ika, wie man sie vom System nach Fig. 1 erhalten hat. Ferner kann die Erzeugung der Testorthogonalparameter in einer viol kürzeren Zeit durchgeführt werden, wodurch eine On-Line-Kontrolle, d. h., eine schritthaltende Kontrolle, erleichtert ist.
Die Sprecherkontrollanordnung nach Fig, 1 kann gemäß Fig. 2 modifiziert v/erden, um die Identifikation eines unbekannten Sprechers als einen von vielen zuvor identifizierten Sprechern vorzunehmen. Die Identifikation des unbekannten Sprechers erfordert einen Vergleich der abgeleiteten Orthogonalparametercharakteristika des unbekannten Sprechers mit entsprechenden Orthogonalparametercharakteristika eines jeden zuvor identifizierten Sprechers und die Auswahl der Identität der am besten passei, -vn Orthogonalparameter von zuvor identifizierten Sprechern. Somit werden sowohl der Bezugs- als auch der Testmodusbetrieb benötigt.
Im Bezugsmodus der Sprecheridentifikationsanordnung v/erden
709828/0880
Koeffizientensignale, Mittelwertsignale und Varianzsignale für jeden identifizierten Sprecher erzengt und gespeichert, und zwar auf der Basis des vorgeschriebenen Gruppe von Orthogonalparametersignalen, die von einer Voraussageanalyse der Sprechprobe des identifizierten Sprechers stammen. Der Bezügsmodus für die Sprecheridentifikation ist im wesentlichen identisch zu dein im Zusammenhang mit Fig. 1 beschriebenen Bezugsmodus.
Im Testmodus für die..Sprecheridentifikation wird eine Voraussageanalyse der Äußerungen des unbekannten Sprechers durchgeführt, und es werden dementsprechend« Voraussageparameter erhalten und gespeichert. Die Koeffizientensignale für den ersten identifizierten Sprecher werden aus dem Speicher wieder hervorgeholt und mit den .Voraussagesignalen des unbekannten Sprechers kombiniert, um eine Gruppe von Testorthogonalvoraussageparametersignalen zu bilden. Die Mittelwerte und Varianzen der gebildeten Testorthogonalvoraussageparametersignale werden erzeugt und mit den gespeicherten Bezugsmittelwerten und Varianzen für den ersten identifizierten Sprecher verglichen. Das als Ergebnis des Vergleichs erhaltene Abveichsignal wird dann zusammen mit dem Identitätskode des ersten identifizierten Sprecherseinem Minimumabxveichsignaldetektor zugeführt. Der Testvorgang wird für jeden identifizierten Sprecher der Reihe nach wiederholt, und das Minimumabweichsignal wird festgestellt und zusam-
709829/0880
Sl
men rit der entsprechenden Identität gespeichert. Das Minimuraabvreichsigaal von allen Testoperationen wird denjenigen Charaktcristika eines identifizierten Sprechers zugeordnet, die am besten zu., jenen passen, die für den imbekannten Sprecher abgeleitet worden sind, so daß die Identität des unbekannten Sprechers bestimmt v/ird.
Ein orfindungngernäßes Ausführungsbeispiel eines Sprecheridentifizierungssysterns ist in Fig. 2 gezeigt« Die Anordnung der Fig. 2 ist im wesentlichen gleich dem Kontrollsystem der Fig. 1, mit der Ausnahme, daß ein Sprecheridentifikationszähler 210 dazu verwendet v/ird, die Folge der benötigten Testoperationen zu steuern, um die abgeleiteten Orthogonalvoraussagecharakteristika für den unbekannten Sprecher mit den entsprechenden gespeicherten Charakteristika der vielen identifizierten Sprecher zu vergleichen. Es ist ein Voraussageparame-.-terspeicher 215 hinzugefügt, um eine Quelle der Voraussageparanieter des unbekannten Sprechers für die Folge der Testoperationen vorzusehen, und außerdem ist ein Minimumabweichsignaldetektor 230 hinzugefügt, um das Minimumabweichsignal zu berechnen und die diesem Minimumabweichsignal entsprechende Identität zu speichern.
Gemäß Fig. 2 werden von der Steuerlogik 134 während des Bezugsmodusbetriebs Signale REF und S geliefert. In Abhängigkeit von der Identität eines bekannten Sprechers erzeugt die Logik
709828/0880
Si
einen Bez\i°,G±dentifikationskode RIDf welcher der Adressenlogik 115d zugeführt wird, um Zugriff zu den Speicherplätzen zu nehmen, in denen die Bezugskoeffizienten und Mittelwerte und Varianzsignale des identifizierten Sprechern unterzubringen sind. Die Äußerungen dos identifizierten Sprechers werden in der Filter- und -abtastschaltung 102 abgetastet und die resultierenden Abtastwerte werden. Rahmen für Rahmen dem Linearvoraussagekoeffizientencomputer 105 zugeführt, wie es im Zusammenhang mit Fig. 1 beschrieben worden ist. Die im Computer 105 erzeugten Linearvoraussagekoeffizienten v/erden im Umsetzcoinputer 117 in ausgewählte Voraussageparameter, beispielsweise PARCOR-Parameter, transformiert, und die erzeugten Voraussageparameter werden dem Kovarianzcomputer 111 geliefert. Die Bezugsorthogonalparameterkoeffizientensignale und -varianzsignale vom Generator 112 werden gemäß Adressierung durch die Logik 115d in den Speichern 115a bzw. 115b untergebracht, und die vom Generator 113 erzeugten Bezugsorthogonalparametermittelwerte werden gleichermaßen im Speicher 115c gespeichert. Der Bezugsmodusbetrieb der Fig. 2 ist im wesentlichen dem im Zusammenhang mit Fig. 1 beschriebenen gleich.
Beim Beginn des Testmodus, bei dem die Äußerungen eines unbekannten Sprechers der Filter- und Abtastschaltung 102 zugeführt werden, wird der Sprecheridentifikationszäliler 210 anfangs so eingestellt, daß der von ihm stammende Adressenkode
709828/0880
SH
IDC dem ersten identifizierten Sprecher entspricht. Die Voraussageparameter vom Urr-aetzcoraputcr 117 entsprechend den Ausseruugen des unbekannten Sprechers werden über Gatter 148 in den Voraussageparameterspeicher 215 gebracht und von dort üb'er das Gatter I6j5 zum. Testorthogor-alpararüetorgcnerator 119 übertragen. Die gespeicherten Bezugskoeffizientonsignale, die durch den IDC-Kode des ersten identifizierten Sprechers adressiert worden sind, werden aus dem Speicher 115b ausgelesen und über Gatter 165 dem Generator 119 zugeleitet. ¥ie im Zusammenhang mit Fig. 1 erwähnt, bildet der Generator 119 eine vorgeschriebene Gruppe von Orthogonalvoraussageparametersignalen in Abhängigkeit von den gespeicherten Bezugskoeffizientensignalen eines identifizierten Sprechers und den VoraussagepGrametern des anbekannten Sprechers. Diese Orthogonalvoraussageparametersignale werden auf den Testmittelwert- und -Varianzgenerator 123 übertragen, in dem die Orthogonalpara-Hietermittelwert- und -varianzsignale gebildet werden, wie es bei Fig. 1 beschrieben worden ist.
Die Bezugsmittelwert™ und -varianzsignale für den ersten identifizierten Sprecher v/erden aus den Speichern 115a bzw. 115c erhalten und über Gatter 179 und 181 dem Abweichsignalgenerator 127 zugeführt. In Abhängigkeit von den Testmittelwert- und --varianzsignalen vorn Generator 123 und den Bezugsmittelwert- und -varianzsigr,-...Len von den Speichern 115a und 115c
709828/0880
Mira, im "Generator 127 ein kodiertes Abweichsignal gebildet, das für die Differenzen zwischen den Bezugs- und Testcharakteristika repräsentativ ist. Dieses. Kodeabweichsignal wird an den Minimumabveichsignaldetektor 230 übertragen und der Zahlwert des Zahlers 210 wird derart vermehrt, daß der nächste identifizierte Sprecher adressiert ist. Die Testoperation wird für jeden identifizierten Sprecher wiederholt und der Detektor 230 zeichnet die Identifikation des Minimu-nabweichsignals auf.«, Wenn die Testoperation für den letzten identifizierten. Sprecher durchgeführt ist, enthält der Detektor 230 die Identität entsprechend dem Minimumabweiclisignal. Diese Identität wird ausgelesen, um die Identität des unbekannten Sprechers zu liefern.
Fig, 9 zeigt eine Logikanordnung, die als Minimumabweichsig« näldetektor. 230 geeignet istο In Fig. 9 speichert ein Schieberegister 903 das Minimumabweichsignal, das von einem Vergleich des Registers 903 mit einem Register 905, das das Abweicbsignal vom Generator 127 speichert, erhalten worden ist. Ein Schieberegister 9OT speichert den Identifikationskode IDC des Minimumabweichsignals. Das Register 905 speichert das laufende Abweichsignal und Schieberegister 907 speichert den IDC-Kode. entsprechend dem laufenden Abweichsignal.
Am Anfang wird das Schieberegister 903» welches das Minimumabweichsignal speichert, auf seinen höchstmöglichen Wert eingestellt. Der erste Abweichsignalko.de, der vom Generator 127
709-828/0880
am Ende der ersten Testoperation erhalten worden ist, wird im Register 905 untergebracht, und der entsprechende IDC-Kode wird in das Register 907 gegeben. Der Abweichsignalkode vom Register 903 wird über ein Gatter 934 unter Steuerung eines DS-Schiebesignals von einem Steuergenerator 940 auf einen Eingang eines !Comparators 913 und über eine Verzögerungseinrichtung 911 außerdem an einen Eingang eines Gatters 922 gegeben. Der Abweichsignalkode vom Register 905 wird über ein Gatter 936 dem anderen Eingang des !Comparators 913 und außerdem über eine Verzögerungseinrichtung 915 einem Gatter 924 zugeführt. Da der Kode im Register 905 während der ersten Testoperation kleiner als der Höchstwertkode im Register 903 ist, wird der Komparator 913, der feststellt, welcher der beiden Abweichsignalkode?kleiner ist, so eingestellt, daß er das Gatter 924 beim Auftreten eines DS2-Signals vom Steuergenerator 940 öffnet, und der Kode vom Register 905 wird über ein Puffergatter 930 in das Register 903 gegeben. Gleichlaufend wird der Identifikationskode IDC im Register 907 über ein Gatter 926 an das Register 901 übertragen. Die Verzögerungseinrichtungen 909, 911, 915 und 917 verzögern ausreichend lange, um ausgewählte Gatter der Gatter 920, 922, 924 und 928 zu betätigen, nachdem der Vergleich im Komparator 913 durchgeführt ist.
Am Ende der nächsten Testoperation ist der vom Generator erhaltene zweite Abweichsignalkode in das Register 905 einge-
709828/0880
geben, und dieser Abweichkode wird mit dem Abweichkode im Register 903 verglichen. Der Xode im Register 903 entspricht dem zuvor "erhaltenen Minimumabweichkode. Der Komparator 913 erlaubt die Eingabe des kleineren der Kodes in den Registern 903 und 905 in das Register 903 und er läßt auch die Übertragung desjenigen Identifikationskodes zu, der dem kleineren Abweichsignal im Register 901 entspricht. Auf diese V/eise ist am Ende einer jeden Testoperation der kleinere Abweichsignalkode durch den Komparator 913 ausgewählt und im Register 903 gespeichert. Am Ende der letzten Testoperation ist das von den Testoperationen stammende Minimumabweichsignal im Register 903 gespeichert und der entsprechende Identifikationskode ist im Register 901 gespeichert. Der Identifikationskode im Register 901 ist zu dieser Zeit der jenes identifizierten Sprechers, dessen Orthogonalparametercharakteristika am besten zu den Orthogonalparametercharakteristika des unbekannten Sprechers passen. Der unbekannte Sprecher ist damit identifiziert. · '
709828/0880
se
Leerseite

Claims (14)

BLUMBACH · WESER · BERGEN · KRÄMER ZW!RNER - HIRSCH PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN Postadresse München: Patentconsult 8 München 60 Radeckestraße 43 Telefon (089) 883605/883604 Telex 05-212313 Postadresse Wiesbaden: Pateniconsult 62 Wiesbaden Sonnenberger Straße 43 Telefon (06171) 562943/561998 Telex 04-186 237 Western Electric Company, Incorporated Sambur 1 Patents η sprü c h e
1.j Verfahren zur Erkennung der Identität eines unbekannten Sprechers, bei dem eine Gruppe von Bezugsvoraussageparanietersignalen von einer Voraussageanalyse einer Sprachprobe eines identifizierten Sprechers gebildet, eine Gruppe erster Signale von den Bezugsvoraussageparametersignalen, die für die Identität des identifizierten Sprechers repräsentativ sind, erzeugt und eine Gruppe von Testvoraussageparameter-Signalen von einer Voraussageanalyse einer Sprachprobe des unbekannten Sprechers gebildet wird, dadurch gekennzeichnet, daß eine Gruppe von Bezugskoeffizientensignalen, die von den Bezugsvoraussageparametersignalen stammen und die Bezugsvoraussageparametersignale in die Gruppe erster Signale zu transformieren vermögen, mit den Testvoraussageparametersignalen kombiniert wird, um eine Gruppe zweiter Signale zu bilden, die für eine angenommene
70982S/0SS0
München: Kramer · Dr. Weser · Hirsch — Wiesbaden: Blumbach - Dr. Bergen · Zwirr.er ORIGINAL INSPECTED
Identität des unbekannten Sprechers repräsentativ sind, und daß die ersten Signale mit den zweiten Signalen-verglichen werden, um die angenommene Identität zu bestätigen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß es sich bei der Gruppe von Bezugsvoraussageparametersignalen um eine Gruppe von Bezugsorthogonalparameters ignal en handelt, daß die Gruppe der ersten Signale eine Gruppe von Signalen umfaßt, die für die Mittelwerte der Bezugsorthogonalvoraussageparametersignale über die Sprachprobe des identifizierten Sprechers repräsentativ sind, daß die Gruppe der Testvoraussageparametersignale eine Gruppe von Testorthogonalvoraussageparametersignalen ist und daß die Gruppe der zweiten Signale Signale aufweist, die für die Mittelwerte der Testorthogonalparametersignale repräsentativ sind.
3. Verfahren nach Anspruch-2, dadurch gekennzeichnet, daß die Gruppe erster Signale eine Gruppe von Signalen aufweist, die für die Varianzen der Bezugsorthogonal voraussageparametersignale repräsentativ sind, und daß die Gruppe zweiter Signale eine Gruppe von Signalen aufweist, die für die Varianzen der Testorthogonalparametersignale repräsentativ sind.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch g e·- kennzeichnet , daß eine Gruppe von Bezugsvoraus-
709828/0880
sageparametersignalen aus einer Voraussageanalyse einer Sprachprobe von je einem von vielen identifizerten Sprechern gebildet wird, daß die ersten Signale und die Bezugskoeffizientensignale für jeden der identifizierten Spreeher erzeugt werden, daß eine Gruppe zweiter Signale entsprechend einem jeden identifizierten Sprecher von den Testvoraussageparametersignalcn eines unbekannten Sprechers und den Bezugskoeffizientensignalen eines jeden identifizierten Sprechers, die für eine angenommene Identität des unbekannten Sprechers repräsentativ sind, erzeugt wird, und daß die ersten Signale eines jeden identifizierten Sprechers mit den entsprechenden zweiten Signalen verglichen werden.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß beim Vergleich der ersten Signale eines jeden identifizierten Sprechers, mit den entsprechenden zweiten Signalen ein drittes Signal gebildet wird, das für die Differenzen zwischen den ersten Signalen eines jeden identifizierten Sprechers und den entsprechenden zweiten Signalen repräsentativ ist, und daß das minimale dritte Signal festgestellt wird, um die Identität des unbekannten Sprechers zu bestimmen.
6. Verfahren nach einem der Ansprüche 1 bis 3, dadurch g e kenn ze ichnet , daß beim Vergleich zwischen ersten Signalen und zweiten Signalen ein drittes Signal
709828/0880
- se -
gebildet wird, das für die Differenzen zwischen den ersten und den zweiten Signalen repräsentativ ist, da0 dabei ein Verifikationsschwellenwertsignal erzeugt und das dritte Signal mit dem Verifikationsschwellenwertsignal verglichen wird, wodurch die angenommene Identität des unbekannten Sprechers bestätigt oder zurückgewiesen wird,
7. Spreehererkennungssystem zur Durchführung des Verfahrens nach Anspruch 1, mit einer Vorrichtung zur Bildung einer Gruppe von Bezugsvoraussageparametersignalen von einer Voraussageanalyse der Äußerungen eines identifizierten Sprechers, mit einer auf die Bezugsvoraussageparametersignale ansprechenden Vorrichtung zur Erzeugung einer Gruppe von ersten Signalen, die für die Identität des Sprechers repräsentativ sind, und mit einer Vorrichtung zur Bildung einer Gruppe von Testvoraussageparametersignalen von einer Voraussageanalyse der Äußerungen eines unbekannten Sprechers, gekennzeichnet durch eine Vorrichtung (119, 123), die gemeinschaftlich anspricht auf eine Gruppe von Bezugskoeffizientensignalen, eine Gruppe von Bezugskoeffizientensignalen, die von den Bezugsvoraussageparameters ignalen abgeleitet sind und die Bezugsvoraussageparameters ignale in eine Gruppe erster Signale zu transformieren vermögen, und auf die Testvoraussageparanietersignale , und welche Vorrichtung eine vorgeschriebene
Gruppe zweiter Signale erzeugt, die für eine angenommene Indentität eines unbekannten Sprechers repräsentativ ist, und durch eine Vorrichtung (127, 129) zum Vergleichen der vorgeschriebenen Gruppe erster Signale mit der vorgeschriebenen Gruppe zweiter Signale zum Zweck der Bestätigung der angenommenen Identität.
8. Sprechererkennungssystem nach Anspruch 7, dadurch gekennzeichnet , daß die Vorrichtung zur Erzeugung der vorgeschriebenen Gruppe erster Signale eine Einrichtung (112) zur Erzeugimg einer Gruppe orthogonaler Voraussageparainetersignale, die im wesentlichen unabhängig vom linguistischen Inhalt der Äußerungen des identifizierten Sprechers sind, umfaßt sowie eine auf die Orthogonalvoraussageparainetersignale ansprechende Einrichtung (115) zur Erzeugung einer Gruppe von Signalen, die für die Mittelwerte der Orthogonalvoraussageparajnetersignale über die Äußerungen des identifizierten Sprechers repräsentativ sind.
9. Sprechererkennungssystem nach Anspruch 8, dadurch gekennzeichnet , daß die Vorrichtung (119, 123) zur Erzeugung der vorgeschriebenen Gruppe zweiter Signale eine auf die Bezugskoeffizientensignale und die Testvoraus» sageparametersignale ansprechende Einrichtung (119) zur. Bildung einer Gruppe von Testorthogonalvoraussageparametersignalen umfaßt sowie eine auf die Testorthogonalvoraussage-
Ϊ08828/0-88Ο'
Parametersignale ansprechende Einrichtung (123) zur Erzeugung einer Gruppe von Signalen, die für die Mittelwerte der Testorthogonalvoraussageparametersignale repräsentativ sind, und daß die Vergleichsvorrichtung (127) eine Einrichtungzum Vergleichen der Bezugs-Orthogonalvoraussageparameter-Mittelwertsignale mit den Test-Orthogonalvoraussageparameter-Mittelvrertsignalen aufweist.
10. Sprechcrerkennungssystem nach Anspruch 9, dadurch gekennzeichnet, daß die Orthogonalvoraussageparameter-Mittelwertvergleichsvorrichtung (127) eine Einrichtung aufweist zur Erzeugung eines dritten Signals, das für die Differenzen zwisehen den Bezugs-Orthogonalvoraus.sage· paramet ^-Mittelv/ertsignalen und den Test-Orthogonalvoraussageparameter-Mittelvjertsignalen repräsentativ ist.
11. Sprechererkennungssystem nach Anspruch 10, gekennzeichnet durch eine Einrichtung zur Erzeugung eines Schwellenwertsignals, das für die akzeptablen Differenzen zwischen den Bezugs-Orthogonalvoraussageparameter-Mittelwertsignalen repräsentativ ist, und eine Einrichtung (129) zum Vergleichen des dritten Signals mit dem Schwellenwertsignal.
12. Sprechererkennungssjrstem nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet , daß eine Einrich-
709821/0880
tung (115) vorgesehen ist, zum Speichern einer Gruppe erster Signale, die für jeden der mehreren identifizierten Sprecher repräsentativ sind* und einer Gruppe von Bezugskoeffizientensignalen entsprechend einem jeden identifizierten Sprecher, daß die gemeinschaftlich auf die Bczugskoeffizientensignale und die Testvoraussageparametersignale ansprechende Vorrichtung (119, 123) eine Gruppe zweiter Signale entsprechend einem jeden identifizierten Sprecher, die für eine angenommene Identität des unbekannten Sprechers repräsentativ sind, zu bilden vermag, und daß"die Vergleichsvorrichtung (127) die Gruppe erster Signale mit der Gruppe zweiter Signale für jeden identifizierten Sprecher zu vergleichen vermag.
13· Sprechererkennungssystem nach Anspruch 12, bei dessen Rückbeziehung auf Anspruch 10, g e k e η η ζ e i c h η e t durch eine Einrichtung (230), die auf die von der Vergleichsyorrichtung (127) für jeden identifizierten Sprecher erzeugten dritten Signale anspricht, zur Feststellung k iiinimums der dritten Signale, wobei das minimale dritte ^ itir die beste Übereinstimmung zwischen de» Bezugs-OrifeHögonalvoraussageparameter-Mittelwertsignalen der identif!zierten Sprecher und den entsprechenden Tfest-Orthögonalvoraussageparameter-Mittelwertsignalen repräsentativ ist, uöd eine Einrichtung zur Erzeugung eines Identifikationssigp.als entsprechend demjenigen identifizierten Sprecher,
für den das minimale dritte Signal erzeugt worden ist.
14. Sprechererkennungssystem nach einem der Ansprüche 7 "bis 13, dadurch .gekennzeichnet, daß die Bezugsvoraussageparametersignale eine Gruppe orthogonaler Parameter einer Linearvoraucsageanalyse der Äußerungen aufweist.
Hi/ku 709828/0880
DE2659083A 1975-12-31 1976-12-27 Verfahren und Vorrichtung zur Sprechererkennung Expired DE2659083C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/645,520 US4032711A (en) 1975-12-31 1975-12-31 Speaker recognition arrangement

Publications (2)

Publication Number Publication Date
DE2659083A1 true DE2659083A1 (de) 1977-07-14
DE2659083C2 DE2659083C2 (de) 1984-04-12

Family

ID=24589348

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2659083A Expired DE2659083C2 (de) 1975-12-31 1976-12-27 Verfahren und Vorrichtung zur Sprechererkennung

Country Status (4)

Country Link
US (1) US4032711A (de)
JP (1) JPS5941600B2 (de)
DE (1) DE2659083C2 (de)
GB (1) GB1556218A (de)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666C2 (de) * 1977-05-07 1987-01-29 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und Anordnung zur Geräuschanalyse
BR8108616A (pt) * 1980-05-19 1982-04-06 John S Reid Aperfeicoamentos em processamento de sinais
JPS58196595A (ja) * 1982-05-12 1983-11-16 日本電気株式会社 パタ−ン特徴抽出装置
GB2139389A (en) * 1983-04-29 1984-11-07 Voice Electronic Technology Li Identification apparatus
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
WO1987000332A1 (en) * 1985-07-01 1987-01-15 Ecco Industries, Inc. Speaker verification system
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5345535A (en) * 1990-04-04 1994-09-06 Doddington George R Speech analysis method and apparatus
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
DE69229584T2 (de) * 1991-08-30 2000-07-20 Texas Instruments Inc., Dallas Telefonsignalklassifizierung und Verfahren und System zur Telefonnachrichtenablieferung
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5623539A (en) * 1994-01-27 1997-04-22 Lucent Technologies Inc. Using voice signal analysis to identify authorized users of a telephone system
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
DE10144087B4 (de) * 2001-09-08 2008-10-30 Promediascan Ag Verfahren zur Erkennung und Registrierung urheberrechtlich geschützter Musiksequenzen in Rundfunk- und Fernsehprogrammen
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
DE102006047982A1 (de) * 2006-10-10 2008-04-24 Siemens Audiologische Technik Gmbh Verfahren zum Betreiben einer Hörfilfe, sowie Hörhilfe
CN107527620B (zh) 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN109470389A (zh) * 2018-11-27 2019-03-15 上海应用技术大学 应变式扭矩测量***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3466394A (en) * 1966-05-02 1969-09-09 Ibm Voice verification system
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509280A (en) * 1968-11-01 1970-04-28 Itt Adaptive speech pattern recognition system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3466394A (en) * 1966-05-02 1969-09-09 Ibm Voice verification system
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Electronics and Communications in Japan 1973, Bd.56-A, No.11, S.62-71 *
Journal of Acoustic Society of America, Vol.50, S.637-655, 1951 *

Also Published As

Publication number Publication date
JPS5293207A (en) 1977-08-05
GB1556218A (en) 1979-11-21
US4032711A (en) 1977-06-28
JPS5941600B2 (ja) 1984-10-08
DE2659083C2 (de) 1984-04-12

Similar Documents

Publication Publication Date Title
DE2659083A1 (de) Verfahren und vorrichtung zur sprechererkennung
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE3244476C2 (de)
DE69032551T2 (de) Einrichtung zur Sprachkodierung
DE3852608T2 (de) Design und Konstruktion eines binären Entscheidungsbaumsystems zur Sprachmodellierung.
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE2524497C3 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE69814517T2 (de) Sprachkodierung
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE69328410T2 (de) Auf interpolation basierende, zeitveränderliche spektralanalyse für sprachkodierung
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE2825082A1 (de) Verfahren zur spracherkennung
DE69314389T2 (de) Zweimoden langzeitprädiktion in sprechkodierung
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE10047723A1 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE4031638C2 (de)
DE3018508C2 (de) Sprachanalysiervorrichtung

Legal Events

Date Code Title Description
OD Request for examination
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee