DE2844156C2

DE2844156C2 -

Info

Publication number: DE2844156C2
Application number: DE2844156A
Authority: DE
Inventors: Michael Dipl.-Ing. Dr. 2000 Hamburg De Kuhn; Horst Ing.(Grad.) 2359 Stuvenborn De Tomaschewski
Original assignee: Philips Patentverwaltung GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1978-10-10
Filing date: 1978-10-10
Publication date: 1987-11-26
Also published as: GB2033637A; FR2438887A1; JPS5564300A; JPS6226039B2; DE2844156A1; GB2033637B; US4292471A; FR2438887B1

Description

Die Erfindung betrifft ein Verfahren zum Verifizieren eines Sprechers nach dem Oberbegriff des Patentanspruchs 1.

Ein solches Verfahren kann in verschiedenen Bereichen verwendet werden, beispielsweise bei der Zugangskontrolle zu besonders gesicherten räumlichen Bereichen oder im Bankverkehr, um eine automatische Legitimierung des Kunden zu erreichen und die Möglichkeit zu bieten, daß dieser Kunde außerhalb der Schalterstunden über eine automatische Geldauszahleinrichtung Bargeld von seinem Konto abheben kann. Dabei kann also von kooperativen Sprechern ausgegangen werden, die also bereit sind, vor der Verifizierung ihrer Stimme einen bestimmten oder auch gegebenenfalls wahlfreien Text zu sprechen, aus dem möglichst weitgehend sprecherspezifische Merkmale abgeleitet werden können. Da eine menschliche Stimme nicht genau reproduzierbar ist, müssen zur Erreichung einer sinnvollen Erkennungsrate mehrere Sprachproben abgegeben werden, d. h. der Sprecher muß einen bestimmten oder verschiedene Texte möglichst zu verschiedenen Zeitpunkten mehrmals sprechen. Aus diesen Lern-Sprachproben werden dann Merkmalsbereiche bzw. Mittelwerte abgeleitet, und bei einer späteren Verifizierung wird geprüft, ob die Merkmale innerhalb der Bereiche bzw. die Abweichungen von den Mittelwerten insgesamt einen bestimmten Wert nicht überschreiten.

Die Merkmalbereiche bzw. Mittelwerte sind dabei in irgendeiner Form gespeichert, damit sie während des Verifizierens vorliegen und mit der dann abgegebenen Sprachprobe verglichen werden können. Diese Speicherung kann in der Auswerteeinrichtung erfolgen, jedoch ist dann bei einer größeren Anzahl von Sprechern ein sehr großer Speicherraum notwendig. Aus diesem Grunde sind insbesondere im Bankverkehr Identitätskarten verwendet worden, auf denen die aus den Lern-Sprachproben gewonnenen Vergleichswerte gespeichert sind, vorzugsweise auf einem Magnetstreifen, und zum Verifizieren werden zunächst die gespeicherten Werte von der Identitätskarte abgelesen und in die Auswerteeinrichtung übernommen, und dann wird die zu verifizierende Sprachprobe abgenommen und mit den von der Identitätskarte gelesenen Werten verglichen. Für derartige Identitätskarten ist bereits ein gewisses Normformat entwickelt worden, bei dem auf dem Magnetstreifen eine bestimmte, begrenzte Anzahl von Datenzeichen bzw. Bits gespeichert werden können. Diese Anzahl Bits ist bei bekannten Verfahren zum Verifizieren eines Sprechers jedoch nicht ausreichend, wenn eine brauchbare Erkennungsrate bei ausreichender Sicherheit gegenüber anderen Sprechern gefordert wird. Bei dem eingangs genannten Verfahren, bei dem ein sogenannter "Minimum distance" (geringster Abstand)- Klassifikator verwendet wird, ist zwar nur eine relativ geringe Anzahl von Daten zur Speicherung notwendig, jedoch treten dabei zu viele Falschrückweisungen auf, bei denen also der richtige Sprecher fälschlich zurückgewiesen wird, wenn der Abstandswert so gering gewählt wird, daß er die Lern-Sprachproben sehr eng umschließt bzw. einige Lern-Sprachproben außerhalb des Abstandswertes liegen läßt, während andererseits bei ausreichend großem Abstandswert zwar wenig Falschrückweisungen erfolgen, jedoch die Gefahr der Falscherkennung sehr viel größer wird, wobei also ein Sprecher A, der angibt, der Sprecher B zu sein, beispielsweise nachdem er die Identitätskarte des letzteren entwendet hat, tatsächlich als der Sprecher B erkannt wird. Dies ist insbesondere für einen normalen Bankbetrieb unzulässig.

Ein Verfahren der eingangs genannten Art ist bekannt aus der Zeitschrift "Proceedings of the IEEE", Vol. 64, No. 4, April 1976, S. 475-487. Darin ist insbesondere auf den Seiten 477 unten und 478 angegeben, aus mehreren Sprachproben eines Sprechers statistische Merkmale zu gewinnen, die den Merkmal-Mittelwert-Vektor bzw. den Schwerpunkt umfassen. Für die Verifizierung einer Sprachprobe kann deren Abstand von den Mittelwert-Vektoren bzw. Schwerpunkten mehrerer Sprecher ermittelt und der geringste Abstand bestimmt werden. Dabei können auch Gewichtungen verwendet werden. Die Schwierigkeit dabei ist jedoch, daß eine zu verifizierende Sprachprobe, die nahezu in der Mitte zwischen zwei oder mehreren Schwerpunkten liegt, zwar einem Sprecher zugeordnet wird, der jedoch nicht unbedingt der richtige Sprecher sein muß, da der Variationsbereich der Sprachproben eines bestimmten Sprechers für verschiedene Merkmale unterschiedlich sein kann. Die Verwendung von Gewichtungen erfordert jedoch wieder sehr viel mehr Speicherplatz. Zwar wird in dieser Druckschrift auf eine sogenannte "sequentielle Strategie" hingewiesen, wonach eine Serie von Versuchen durchgeführt werden soll, jedoch ist nicht näher angegeben, was bei den einzelnen Versuchen tatsächlich verglichen wird.

Aus der DE-OS 27 20 666 ist ein Verfahren zur Geräuschanalyse bekannt, wobei angegeben ist, daß Langzeitspektren zur Sprecheridentifikation verwendet werden können. Nähere Maßnahmen, wie dies durchgeführt werden kann, sind dieser Druckschrift jedoch nicht zu entnehmen.

Aufgabe der Erfindung ist es daher, ein Verfahren der eingangs genannten Art anzugeben, bei dem nur eine geringe Anzahl Daten aus den Lern-Sprachproben eines Sprechers gespeichert werden und bei dem dennoch der Verifikationsvorgang mit einer geringen Anzahl von Falscherkennungen bei gleichzeitig geringer Anzahl von Falschrückweisungen vorgenommen wird.

Diese Aufgabe wird erfindungsgemäß durch die im kennzeichnenden Teil des Hauptanspruchs angegebenen Merkmale gelöst.

Durch das erfindungsgemäße Verfahren kann der Abstandswert relativ klein bestimmt werden, so daß durchaus einige der Lern-Sprachmuster außerhalb des durch den Schwerpunkt und den Abstandswert bestimmten Bereichs liegen, weil diese außerhalb liegenden Lern-Sprachproben dann gesondert abgespeichert werden, so daß eine zu verifizierende Sprachprobe, die zwar außerhalb dieses Bereichs liegt, jedoch in genügender Nachbarschaft einer Lern-Sprachprobe, noch als richtig erkannt wird.

Ein Klassifikator, bei dem der Abstand eines zu klassifizierenden Musters zu jeweils einem einer Anzahl Lernmuster bestimmt und mit einem festen Schwellwert verglichen wird, ist im Gebiet der Mustererkennung bekannt und wird mit "Nearest Neighbour" (nächster Nachbar)-Klassifikator bezeichnet. Die Anwendung dieser Klassifikation auf das eingangs genannte Verfahren zum Verifizieren eines Sprechers würde jedoch bedeuten, daß alle Lern-Sprachproben mit allen Merkmalwerten gespeichert werden, wofür bei steigender Anzahl von Lern-Sprachproben der notwendige Speicherplatzbedarf auf der Identitätskarte im wesentlichen linear anwächst und bei der erforderlichen Anzahl von Lern-Sprachproben den vorhandenen Speicherplatz überschreitet.

Der Speicherplatz, der auf einer Identitätskarte zur Verfügung steht, kann bei manchen Sprechern nicht ausgefüllt sein, wenn die Merkmalwerte von nur den Lern-Sprachproben gespeichert werden, die außerhalb des durch den Schwerpunkt und den Abstandswert gegebenen Bereich liegen. Um den dann noch eventuell vorhandenen Speicherraum auszunutzen, ist es zweckmäßig, daß die Merkmalwerte von solchen zusätzlichen Lern-Sprachproben innerhalb des durch den Schwerpunkt und den Abstandswert gegebenen Bereichs gespeichert werden, in deren durch die betreffende Lern-Sprachprobe und den Einzel-Abstandswert gegebenen Einzel-Bereich die größte Zahl weiterer Lern-Sprachproben liegen, wobei dieser Einzel-Bereich teilweise außerhalb des genannten Bereichs liegt, und der Abstand der zu verifizierenden Sprachprobe auch gegenüber diesen Lern- Sprachproben bestimmt und mit dem Einzel-Abstandswert verglichen wird. Dadurch wird der Bereich zusätzlich erweitert, in dem eine zu verifizierende Sprachprobe noch als erkannt gewertet wird, da sich durch die angegebenen Maßnahmen die Kontur des Bereichs der tatsächlichen Verteilung der Lern-Sprachproben eher annähert.

Wenn die Merkmalwerte der zusätzlich gespeicherten Lern- Sprachproben mit hinreichender Genauigkeit gespeichert werden sollen, ergibt sich daraus eine große Anzahl erforderlicher Bits pro zusätzlich gespeicherter Lern-Sprachprobe. Um diese Anzahl Bits zu verringern, ist es zweckmäßig, daß die Merkmalwerte aller zusätzlich gespeicherten Lern-Sprachproben als Unterschiedswerte gegenüber den zugehörigen Merkmal-Mittelwerten gespeichert werden und vor der Verifikation einer Sprachprobe die Merkmalwerte aus den gespeicherten Werten bestimmt werden. Da die Unterschiede bzw. Abstände der zusätzlich gespeicherten Lern-Sprachproben von dem Schwerpunkt im Verhältnis wesentlich geringer sind als der Wert der Schwerpunktkoordinaten, die durch die Merkmal- Mittelwerte gebildet werden, kann auf diese Weise die Speicherung zusätzlicher Lern-Sprachmuster bei großer Genauigkeit mit einer geringen Anzahl Bits erfolgen.

Es ist weiter zweckmäßig, daß bei der Bestimmung des Einzel-Abstandswertes aus den Unterschieden der Merkmalwerte jeweils zweier Lern-Sprachproben nur alle Lern-Sprachproben verwendet werden, die innerhalb des durch den Schwerpunkt und die Merkmal-Mittelwerte gegebenen Bereichs liegen. Dadurch wird der Einfluß der Lern-Sprachproben, die ohnehin wenig charakteristisch für den betreffenden Sprecher sind, auf den Einzel-Abstandswert ausgeschaltet.

Um verschiedene Sprachproben miteinander verarbeiten zu können, sollten die Merkmalwerte der einzelnen Sprachproben in einem einheitlichen Maßstab vorliegen. Es ist daher zweckmäßig, daß die Merkmalwerte jeder Lern-Sprachprobe und zu verifizierenden Sprachprobe vor der Verarbeitung mit einem solchen Faktor multipliziert werden, daß die Summe der auf gleiche Weise von den Merkmalswerten abgeleiteten Werte einer Sprachprobe einen vorgegebenen Wert hat. Auf diese Weise haben alle Merkmalwerte eine einheitliche Beziehung zueinander.

Wenn bei der Bestimmung des Abstands der zu verifizierenden Sprachprobe vom Schwerpunkt bzw. von den zusätzlich gespeicherten Sprachproben die Quadrate der Unterschiede der einzelnen Merkmalwerte unmittelbar summiert werden, bedeutet dies, daß alle Merkmale mit dem gleichen Gewicht eingehen. Tatsächlich ist es jedoch so, daß die einzelnen Merkmale mit unterschiedlicher Genauigkeit vom Sprecher reproduziert werden können, d. h. einzelne Merkmale haben eine kleinere Schwankungsbreite, wobei diese Merkmale bei verschiedenen Sprechern unterschiedlich sein können. Merkmale, die in verschiedenen Lern-Sprachproben in ihren Werten stark schwanken, sollten daher in geringerem Ausmaß in den Wert für den Abstand eingehen. Es ist daher zweckmäßig, daß für jedes Merkmal ein zugeordneter Wichtungsfaktor gespeichert wird, und daß bei der Bestimmung des Abstands der zu verifizierenden Sprachprobe vom Schwerpunkt bzw. von einer zusätzlich gespeicherten Lern-Sprachprobe die Summanden vor der Summierung mit dem zugehörigen Wichtungsfaktor multipliziert werden. Auf diese Weise kann die Streuung der Merkmalwerte besser berücksichtigt werden. Dabei ist es zweckmäßig, daß als Wichtungsfaktor der Kehrwert der Varianz des zugehörigen Merkmals verwendet wird, wobei die Varianz der Mittelwert der Quadrate der Unterschiede der zugehörigen Merkmalswerte aller Lern-Sprachproben von dem Merkmal-Mittelwert ist. Auf diese Weise wird am besten die unterschiedliche Bedeutung der einzelnen Merkmale für eine möglichst gute Verifikation berücksichtigt.

Da die Varianz ein Maß dafür ist, wie sehr die Merkmalwerte aller Lern-Sprachproben voneinander unterschiedlich sind, und zwar in einem absoluten Maß, muß für eine genaue Darstellung auch des größten Wichtungsfaktors für alle Wichtungsfaktoren insgesamt ein großer Speicherraum zur Verfügung gestellt werden. Es besteht jedoch eine sehr große Wahrscheinlichkeit, daß die Varianz eines Merkmals im absoluten Maß um so größer ist, je größer auch der Wert des Merkmals selbst ist. Um daher Speicherplatz zu sparen, ist es zweckmäßig, daß vor der Speicherung der Wichtungsfaktoren diese durch einen vom zugehörigen Merkmal-Mittelwert abgeleiteten Wert dividiert werden und daß davon nur der einen vorgegebenen Mittelwert übersteigende Teilwert gespeichert wird, und daß vor der Identifikation die Wichtungsfaktoren aus den gespeicherten und den vorgegebenen Werten bestimmt werden. Durch das Beziehen der Varianzwerte auf den Merkmal-Mittelwert wird ein Quotient erhalten, dessen Wert auch bei verschiedenen Merkmalen mit unterschiedlichen Varianzen eher in eine einheitliche Größenordnung kommt. Dieser Quotient kann dann mit weniger Bit gespeichert werden, wobei die Genauigkeit des aus dem Quotienten wieder bestimmten Wichtungsfaktors auch bei kleinen Absolutwerten nicht wesentlich geringer ist als bei großen Absolutwerten. Die Division durch den Merkmal-Mittelwert direkt kann zu Schwierigkeiten führen, da dieser zumindest für einen oder einige Merkmale den Wert 0 haben kann. Daher ist die Division durch einen um einen festen Betrag erhöhten Merkmal-Mittelwert, etwa um eine Einheit oder um eine Quantisierungseinheit, günstiger. Ferner kann angenommen werden, daß der auf diese Weise erhaltene Quotient nicht 0 wird, sondern auch bei verschiedenen Sprechern zwischen einem Minimalwert und einem Maximalwert liegt. Dieser Minimalwert kann daher aus Untersuchungen fest vorbestimmt und von dem Quotienten abgezogen werden, so daß der Wertebereich der zu speichernden Zahl schließlich noch kleiner wird. Quotienten, die tatsächlich kleiner sind als dieser Minimalwert, werden dann auf diesen Minimalwert festgelegt. Auf diese Weise kann auch für viele Merkmale jeweils ein Gewichtungsfaktor mit guter Genauigkeit gespeichert werden.

Zum Ableiten von Merkmalen aus einem Sprachsignal sind verschiedene Möglichkeiten bekannt, wie Verlauf der Sprachgrundfrequenz, etwa als Histogramm, oder das Pausenverhältnis in gleicher Weise. Eine besonders einfache Möglichkeit, aussagekräftige Merkmale aus einem Sprachsignal abzuleiten, besteht jedoch darin, daß die Merkmale die Frequenzkomponenten des Langzeitspektrums einer Sprachprobe sind. Dafür ist nur eine Filterbank und ein Summierer notwendig.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung näher erläutert. Es zeigt

Fig. 1 eine graphische Darstellung zur Veranschaulichung der verschiedenen zu speichernden und zu vergleichenden Werte, wenn aus jeder Sprachprobe nur zwei Merkmale abgeleitet werden,

Fig. 2 ein Flußdiagramm der Verarbeitungsschritte für die Erzeugung der abzuspeichernden Werte,

Fig. 3-6 Anordnungen zur Verarbeitung der Lern-Sprachproben und zur Erzeugung der abzuspeichernden Datensignale,

Fig. 7 ein Flußdiagramm der Verarbeitungsschritte beim Verifizieren,

Fig. 8 eine Anordnung zur Erzeugung des Erkannt-Signals bzw. Rückweisungs-Signals beim Verifizieren.

Bei der graphischen Darstellung in Fig. 1 ist angenommen, daß von jeder Sprachprobe nur zwei Merkmale abgeleitet sind, um eine übersichtliche zweidimensionale Darstellung zu ermöglichen. Bei drei Merkmalen je Sprachprobe ist noch eine dreidimensionale Darstellung möglich, die jedoch in der Zeichnung nicht so übersichtlich wiedergegeben werden kann. In der Praxis werden aus einer Sprachprobe selbstverständlich mehr Merkmale abgeleitet, so daß sich ein Merkmalsraum mit entsprechender Anzahl von Dimensionen ergibt, der allerdings zeichnerisch überhaupt nicht mehr darstellbar ist. Die Beziehungen zwischen den Sprachproben bzw. deren Merkmalswerten sind im höherdimensionalen Raum jedoch völlig entsprechend der zweidimensionalen Darstellung.

Die beiden Merkmale, von denen in Fig. 1 ausgegangen wird, sind darin mit a und b bezeichnet, wobei die Werte dieser Merkmale in Richtung der Pfeilspitzen ansteigen mögen. Die Sprachproben sind dabei durch kleine Kreise angegeben, von denen einige mit S 1 bis S 4 bezeichnet sind. Die Lage jeder Sprachprobe ist dabei durch die Werte der beiden Merkmale in dieser Sprachprobe gegeben. Bei der Sprachprobe S 2 haben beispielsweise beide Merkmale große Werte, während bei der Sprachprobe S 3 beide Merkmale kleine Werte haben.

Die Gesamtheit aller in Fig. 1 dargestellten Sprachproben hat einen Mittelwert bzw. Schwerpunkt, dessen Lage in Fig. 1 durch ein Kreuz angedeutet ist, das mit M bezeichnet ist. Die Koordinatenwerte bzw. Merkmalwerte für diesen Schwerpunkt sind durch den Mittelwert des entsprechenden Merkmalwerts aller Sprachproben bestimmt.

Ferner wird aus den Merkmalwerten aller Sprachproben ein Abstandswert bestimmt. Dieser Abstandswert kann auf verschiedene Weise bestimmt werden, wobei eine mögliche Maßnahme zur Bestimmung dieses Abstandswertes später erläutert wird. Die Punkte in der Merkmalfläche in Fig. 1, die um diesen Abstandswert vom Schwerpunkt entfernt liegen, bilden einen Kreis mit einem Radius D gleich dem Abstandswert. Die Merkmalwerte für den Schwerpunkt M und der Abstandswert D wird nun für jeden Sprecher gespeichert, beispielsweise auf dem Magnetstreifen einer bereits erwähnten Identitätskarte, wobei davon ausgegangen wird, daß die in Fig. 1 dargestellten Sprachproben während der Lernphase von dem Sprecher aufgenommen wurden.

Wenn nun später dieser Sprecher eine Sprachprobe abgibt, die verifiziert werden soll, werden aus dieser Sprachprobe ebenfalls die Merkmale a und b abgeleitet und deren Werte bestimmt. Diese Sprachprobe möge in Fig. 1 in der Merkmalfläche an der Stelle des Vierecks liegen, das mit T bezeichnet ist. Um zu prüfen, ob diese Sprachprobe tatsächlich zu dem angegebenen Sprecher gehört, wird der Abstand DT des Punktes T dieser Sprachprobe vom Schwerpunkt M bestimmt, und dieser Abstand DT wird mit dem Abstandswert D verglichen. Der Abstand DT kann dabei in bekannter Weise wie folgt bestimmt werden:

Wenn a _m und b _m die Merkmalwerte des Schwerpunktes M und a _T und b _T die Merkmalwerte der zu prüfenden Sprachprobe sind, dann ergibt sich der Abstand DT aus den Unterschieden a _M-a _T und b _M-b _T der jeweils gleichen Merkmale nach

Dies gilt in entsprechender Weise auch für den höherdimensionalen Merkmalsraum für mehr als zwei Merkmale. In dem dargestellten Beispiel ist der Wert des Abstands DT kleiner als der Abstandswert D, so daß für diese Sprachprobe ein Erkannt-Signal erzeugt wird.

In Fig. 1 ist zu erkennen, daß die beiden mit S 1 und S 2 bezeichneten Sprachproben außerhalb des Bereichs liegen, der durch den Kreis um den Schwerpunkt M mit dem Abstandswert D gebildet wird. Wenn der betreffende Sprecher nun eine Sprachprobe abgibt, die zwar in der Nähe der Sprachprobe S 2 liegt, jedoch außerhalb des genannten Bereichs, würde diese Sprachprobe ohne weiteres nicht als zu dem Sprecher gehörig erkannt werden, obwohl sie sehr nahe bei einer während der Lernphase abgegebenen Sprachprobe dieses Sprechers liegt. Um dies zu verhindern und solche Sprachproben auch als zu dem Sprecher gehörig zu erkennen, werden nach dem Grundgedanken der Erfindung auch die Merkmalwerte der Sprachproben S 1 und S 2 aus der Lernphase gespeichert. Außerdem wird ein Einzel-Abstandswert SD gespeichert, der aus den Merkmalwerten aller während der Lernphase gewonnenen Sprachproben bestimmt wird, und zwar insbesondere aus den innerhalb des Kreises um den Schwerpunkt M mit dem Radius D gleich dem Abstandswert liegenden Sprachproben, wie später erläutert wird. Wenn nun eine Sprachprobe abgegeben wird, die in der Merkmalfläche in Fig. 1 auf dem mit T 1 bezeichneten Viereck liegt, so daß ihr Abstand vom Schwerpunkt M größer als der Abstandswert D ist, wird außerdem der Abstand dieser Sprachprobe T 1 von den zusätzlich gespeicherten Sprachproben S 1 und S 2 bestimmt. Der letztere Abstand hat den Wert DT 1, der kleiner ist als der Einzel-Abstandswert SD. Damit wird die Sprachprobe T 1 ebenfalls noch als zu dem betreffenden Sprecher gehörig festgestellt und dafür ein Erkannt-Signal erzeugt.

Für die Speicherung der zusätzlichen Sprachproben, beispielsweise der Sprachprobe S 2, brauchen nicht deren Merkmalwerte a _S und b _S gespeichert zu werden, sondern nur die Unterschiede zu den entsprechenden Merkmalwerten a _M und b _M des Schwerpunktes M. Diese Differenzwerte a _S-a _M und b _S-b _M sind normalerweise wesentlich kleiner als die absoluten Merkmalwerte, so daß für die Speicherung der Differenzwerte weniger Bit erforderlich sind. Da die Merkmalwerte des Schwerpunktes M ebenfalls gespeichert sind, können die Merkmalwerte der zusätzlichen Sprachproben aus den gespeicherten Werten einfach bestimmt werden.

Bei dem in Fig. 1 dargestellten Beispiel liegen nur die beiden Sprachproben S 1 und S 2 außerhalb des Bereichs entsprechend dem Kreis um den Schwerpunkt M mit dem Radius D. Damit kann in diesem Fall der vorhandene Speicherraum, beispielsweise der Magnetstreifen auf der bereits erwähnten Identitätskarte, noch nicht gefüllt sein, sondern er kann beispielsweise noch Platz für die Merkmalwerte von zwei weiteren Sprachproben haben. Um diesen Speicherplatz auch noch auszunutzen, werden die Merkmalwerte von zwei weiteren Sprachproben gespeichert, die jedoch innerhalb des Bereichs liegen. Dabei ist jedoch die Speicherung nur solcher Sprachproben sinnvoll, die diesen Bereich erweitern. Dies können nur Sprachproben sein, die außerhalb des Kreises um den Schwerpunkt M mit dem Radius gleich einem inneren Abstand ID liegen, wenn dieser innere Abstand folgenden Wert hat:

ID = D-SD (2)

Um aus diesen Sprachproben geeignete auszuwählen, wird für jede dieser Sprachproben festgestellt, wie viele andere solche Sprachproben einen geringeren Abstand als den Einzel-Abstandswert SD haben, d. h. wieviel andere Sprachproben innerhalb des Kreises um die betreffende Sprachprobe mit dem Radius SD liegen. Bei dem in Fig. 1 dargestellten Beispiel liegen in dem entsprechenden Einzel-Bereich der Sprachprobe S 3 insgesamt 5 andere Sprachproben, so daß die Merkmalwerte der Sprachprobe S 3 als nächste zusätzlich gespeichert werden. In dem Einzel-Bereich der Sprachprobe S liegen 4 weitere Sprachproben, also werden die Merkmalwerte der Sprachprobe S 4 noch zusätzlich gespeichert. Damit werden nun alle Sprachproben, die innerhalb des Bereichs mit der ausgezogenen Kontur C liegen, als zu dem Sprecher zugehörig erkannt. Diese Kontur C entspricht, wie aus dem dargestellten Beispiel zu erkennen ist, auch besser der tatsächlichen Verteilung der Sprachproben. Diese komplexe Natur kann dabei mit den angegebenen Maßnahmen mit nur einer verhältnismäßig geringen Anzahl von Bits gespeichert werden.

Die Verarbeitungsschritte für die Erzeugung der zu speichernden Daten sind in dem Flußdiagramm in Fig. 2 schematisch aufgeführt. Die Durchführung dieser Verarbeitungsschritte kann mittels den in Fig. 3 bis 6 dargestellten Anordnungen erfolgen, die daher jeweils zusammen mit der Beschreibung des Flußdiagramms erläutert werden.

Im Verarbeitungsschritt 201 werden zunächst die Sprachproben von dem zu verifizierenden Sprecher genommen. Dazu ist in Fig. 3 ein Mikrofon 1 vorhanden, das die Sprachsignale in elektrische Signale umwandelt. Im Verstärker 3 werden diese Signale verstärkt und ggf. in der Dynamik begrenzt bzw. geregelt. Das so erhaltene Sprachsignal wird einer Filterbank 5 zugeführt. Diese Filterbank besitzt eine Anzahl Filter für jeweils einen von einer Anzahl aneinandergrenzender Frequenzbereiche, und die Ausgangssignale dieser Filter werden in regelmäßigen Zeitabständen, beispielsweise alle 20 ms abgetastet und zwischengespeichert. Die bei aufeinanderfolgenden Abtastungen gewonnenen Werte werden je Frequenzbereich aufsummiert, so daß nach Ende der Sprachprobe ein Langzeitspektrum vorliegt, in dem der Wert jedes Frequenzbereiches die Gesamtenergie in diesem Frequenzbereich während der Sprachprobe angibt. Die Frequenzbereiche stellen somit die Merkmale dar, die aus der Sprachprobe abgeleitet werden, und die Werte des Langzeitspektrums sind die Merkmalwerte in diesem Beispiel. Es sei bemerkt, daß die folgende Beschreibung auch für auf andere Weise abgeleitete Merkmale gilt.

Die so erhaltenen Werte des Langzeitspektrums werden in dem Speicher 7 gespeichert. Dieser Speicher 7 ist in Fig. 3 als Matrixspeicher angedeutet, wobei für eine übersichtlichere Darstellung angenommen wird, daß die Werte eines Langzeitspektrums, die mit dem Index i bezeichnet werden, in untereinander angeordneten Speicherwortplätzen gespeichert sind, wobei jeder Speicherwortplatz eine Anzahl Bit umfaßt.

Wie bereits erwähnt, werden in der Lernphase mehrere Sprachproben von dem zu verifizierenden Sprecher genommen, und jede Sprachprobe wird auf gleiche Weise in der Filterbank 5 zu einem Langzeitspektrum verarbeitet, und die Werte der Langzeitspektren, die mit dem Index j bezeichnet werden, werden in nebeneinander liegenden Spalten von Speicherwortplätzen im Speicher 7 gespeichert. Diese Folge der Speicherung wird durch entsprechende Steuerung des Adressenzählers 9 erreicht. Es ist klar, daß die tatsächlich räumliche Organisation der Speicherwortplätze im Speicher 7 auch anders sein kann.

Um die gespeicherten Langzeitspektren verarbeiten zu können, müssen die Werte in einem vergleichbaren Bereich vorliegen. Hierfür werden die Werte in dem Verarbeitungsschritt 203 normiert. Dafür werden die einzelnen Werte x′ _i mit einem solchen Faktor A multipliziert, daß für die multiplizierten x _i gilt,

wobei C ein für alle Langzeitspektren gleicher Wert ist. Dies wird mit einem Faktor A erreicht, der der folgenden Bedingung genügt

Dieser Faktor A muß für jedes Langzeitspektrum gesondert bestimmt werden.

Zur Durchführung dieser Normierung werden in Fig. 3 die Werte x′ _i nacheinander aus dem Speicher 7 ausgelesen und einer Verarbeitungseinheit 11 zugeführt, die die Quadrate dieser Werte bildet und zu einem Wert aufsummiert. Am Ausgang der Einheit 11 erscheint also ein Signal A′ mit dem Wert

Dieser Wert wird einer weiteren Verarbeitungseinheit 15 zugeführt, die außerdem den im Speicher 13 gespeicherten Wert der Konstanten C erhält und ein Ausgangssignal erzeugt, das den oben angegebenen Wert für den Faktor A hat, und dieses Signal wird in dem Speicher 17 zwischengespeichert. Anordnungen zur Erzeugung von Ausgangssignalen, beispielsweise in Form von parallelen binären Signalen, die als Dualzahl betrachtet einen bestimmten Wert haben, der aus dem Wert entsprechender Eingangssignale durch eine vorgegebene arithmetische Operation abgeleitet ist, sind an sich bekannt und sollen hier nicht weiter erläutert werden, sondern es wird lediglich die Zusammenschaltung solcher Verarbeitungsanordnungen in Form von Ausführungsbeispielen nachfolgend beschrieben. Dabei sind die Ablaufsteuerung, die die Folge der aufeinanderfolgenden Verarbeitungsvorgänge in den einzelnen Verarbeitungseinheiten steuert und die im wesentlichen einen Zähler und ggf. einen davon gesteuerten Speicher enthält, sowie ein ebenfalls erforderlicher Taktimpulsgenerator der Übersichtlichkeit halber weggelassen.

Die Normierung der einzelnen Spektralwerte jedes Langzeitspektrums erfolgt in einem weiteren Schritt, indem die Spektralwerte des gleichen Langzeitspektrums erneut ausgelesen und der Multipliziereinrichtung 19 zugeführt werden, die am anderen Eingang die den Wert des Faktors A angebenden Signale erhält, und die multiplizierten Werte werden an der gleichen Stelle wieder eingeschrieben. Die so entstandenen Spektralwerte werden mit x _i bezeichnet. Dieser Vorgang wird nacheinander für alle Langzeitspektren durchgeführt.

Im anschließenden Verarbeitungsschritt 205 werden die Spektral-Mittelwerte bestimmt, die die Koordinaten des Schwerpunktes der Sprachproben angeben. Dazu wird in Fig. 4 der Wert x _ÿ eines Spektralanteils i von sämtlichen Sprachproben dem Speicher 7 ausgelesen und der Verarbeitungseinheit 21 zugeführt. Diese summiert die zugeführten Werte und erzeugt ein (Mehrfach-)Ausgangssignal für jeden Spektralbereich i mit dem Wert

das den Mittelwert der Spektralwerte jeweils eines Spektralanteils über alle Sprachproben darstellt, und dieses Signal wird in dem Speicher 23 gespeichert. Der Ausgang des Speichers 23 für die Koordinaten des Schwerpunktes M führt über die Leitung 24 zu einem nicht dargestellten Speicher, beispielsweise dem Magnetstreifen der bereits erwähnten Identitätskarte, wo die entsprechenden Werte gleich oder später nach Abschluß aller Verarbeitungsschritte gespeichert werden.

Anschließend werden aus dem Speicher 7 erneut alle Werte ausgelesen, jedoch diesmal wieder nacheinander die Spektralwerte jeweils eines Musters, und diese werden der Verarbeitungseinheit 25 zugeführt, die außerdem die Spektral- Mittelwerte aus dem Speicher 23 enthält. Diese Einheit 25 berechnet die Abstände d _j der einzelnen Sprachproben j vom Schwerpunkt

die über den Ausgang 24 ausgegeben und im Speicher 27 zwischengespeichert werden. Über die Leitung 26 werden die Signale des Zwischenergebnisses vor dem Wurzelziehen ausgegeben, die also das Quadrat der einzelnen Abstände darstellen, und diese Signale werden der Einheit 33 zugeführt, die die Quadratwerte aller Sprachproben aufsummiert.

Die Signale, die die Abstände d _j der einzelnen Sprachproben darstellen, werden über die Leitung 28 u. a. der Verarbeitungseinheit 29 zugeführt, in der sie über alle Sprachproben aufsummiert werden und die Summe durch die Anzahl J der Sprachproben dividiert wird. Die Anzahl der Sprachproben möge in einem der Übersichtlichkeit halber nicht dargestellten Speicher gespeichert sein und wird der Verarbeitungseinheit 29 sowie noch weiteren Verarbeitungseinheiten zugeführt. Das dabei entstehende Ergebnis ist der mittlere Abstand aller Sprachproben vom Schwerpunkt

Dieser mittlere Abstandswert wird in dem Speicher 31 zwischengespeichert.

Der Ausgang der Verarbeitungseinheit 31 führt einmal auf die Verarbeitungseinheit 37, die das Quadrat des mittleren Abstands bildet und dieses mit der Anzahl J aller Sprachproben, deren Wert der Verarbeitungseinheit 35 ebenfalls zugeführt wird, multipliziert. Das Ergebnis wird einem Differenzbildner 35 zugeführt und darin von dem in der Verarbeitungseinheit 33 erzeugten Wert abgezogen. Der Ausgang des Differenzbildners führt schließlich auf die Verarbeitungseinheit 39, der ebenfalls der Wert der Anzahl J aller Sprachproben zugeführt wird, und diese Verarbeitungseinheit 39 erzeugt am Ausgang einen Wert für die Standardabweichung als die Wurzel aus der Varianz σ² nach folgender Gleichung

Diese Gleichung wird nicht direkt verwendet, sondern es wird ausgenutzt, daß in dieser Gleichung ein Ausdruck umgeformt werden kann:

Daraus ergibt sich dann die tatsächliche Berechnung der Standardabweichung

Der Wert für die Standardabweichung wird dann einem Addierer 41 zugeführt, der außerdem den Wert für den mittleren Abstand aus dem Speicher 31 erhält, und diese Summe wird einem Multiplizierer 45 zur Multiplikation mit einem in einem Speicher 43 enthaltenen Faktor zugeführt, und das Ergebnis wird in dem Speicher 47 abgespeichert. Dieses Ergebnis stellt den Abstandswert D dar, der also nach folgender Gleichung bestimmt ist

und der über die Leitung 48 dem Speicher, z. B. dem Magnetstreifen einer Identitätskarte, zugeführt wird. Auch diese endgültige Speicherung folgt zweckmäßig erst nach Abschluß aller Verarbeitungsschritte. Außerdem werden die Ausgangssignale des Speichers 47 noch für weitere Verarbeitungsschritte benötigt, wie später erläutert wird.

Der in dem Speicher 43 gespeicherte Faktor F ist ein empirisch gefundener Wert, der unter bestimmten Bedingungen ggf. verändert wird, wie später erläutert wird.

Als nächster Verarbeitungsschritt folgt in Fig. 2 der Verarbeitungsschritt 209, bei dem Wichtungswerte für die Wichtungsfaktoren bestimmt werden. Dafür werden in Fig. 5 aus dem Speicher 7 erneut, wie bereits in Fig. 4 für die Bestimmung des Mittelwertes in der Verarbeitungseinheit 21, nacheinander die Werte x _ÿ jeweils eines Spektralanteils i von sämtlichen Sprachproben j ausgelesen und der Verarbeitungseinheit 51 zugeführt, wo diese Werte quadriert werden und die Quadrate jeweils eines Spektralanteils summiert werden. Die dabei entstehenden Signale werden einem Differenzbildner 55 zugeführt, der am anderen Eingang gleichzeitig Signale entsprechend dem Quadrat des zugehörigen Spektral-Mittelwertes _i, multipliziert mit dem Wert J gleich der Anzahl aller Sprachproben, aus der Verarbeitungseinheit 53 erhält, die über die Leitung 24 an den Speicher 23 für die Spektral- Mittelwerte angeschlossen ist. In dem Differenzbildner 55 werden die Werte aus der Verarbeitungseinheit 53 von den Werten aus der Verarbeitungseinheit 51 abgezogen, und das Ergebnis wird einer Verarbeitungseinheit 57 zugeführt, die daraus die Varianzen s _i der einzelnen Spektralanteile i auf folgende Weise bestimmt

Diese Varianzwerte werden jedoch nicht direkt gespeichert, sondern zur Verringerung des Wertebereichs zunächst der Verarbeitungseinheit 59 zugeführt, die daraus Wichtungszahlen a _i auf folgende Weise bestimmt

Dafür werden der Verarbeitungseinheit 59 ebenfalls die Spektral-Mittelwerte aus dem Speicher 23 sowie ein fester, empirisch gefundener Wert a _min zugeführt. Da der Wert der Varianz σ _i normalerweise nur bei großen Spektral-Mittelwerten _i groß wird, ist der Wertebereich des Bruches kleiner als der Wertebereich der Varianzen selber. Der Wert von Δ beträgt eine Einheit des Spektral-Mittelwertes bzw. ein Quantisierungsschritt und soll einen Überlauf bei der Berechnung vermeiden, wenn der Spektral-Mittelwert des betreffenden Spektralbereichs 0 ist, wie insbesondere bei weiblichen Stimmen und tiefen Frequenzbereichen vorkommen kann. Das Subtrahieren des Minimalwertes führt zu einer weiteren Begrenzung des Wertebereiches. Dies führt bei der späteren Rückrechnung der Wichtungsfaktoren dazu, daß die maximale Größe eines Wichtungsfaktors beschränkt wird.

Die Ausgangssignale der Verarbeitungseinheit 59 entsprechend den Wichtungszahlen a _i werden ggf. in einem nicht dargestellten Zwischenspeicher gespeichert, bevor sie über die Leitung 58 der endgültigen Speichereinrichtung, beispielsweise dem Magnetstreifen einer Identitätskarte, zugeführt werden.

Es folgt nun die Bestimmung der zusätzlich zu speichernden Sprachproben sowie des Einzel-Abstandswertes, wobei als nächster Verarbeitungsschritt 211 in dem Flußdiagramm in Fig. 2 die Sprachproben bestimmt werden, deren Abstand vom Schwerpunkt größer ist als der Abstandswert. Dafür wird in Fig. 6 der Ausgang des Speichers 47, der den Abstandswert D enthält, über die Leitung 48 mit einem Differenzbildner 61 verbunden, dessen anderer, subtrahierender Eingang über die Leitung 28 mit dem Ausgang des Speichers 27, der die Abstände aller Sprachproben vom Schwerpunkt enthält, verbunden ist. Der Ausgang des Differenzbildners 61 ist mit dem Eingang eines Vergleichers 63 verbunden, der prüft, ob das Ausgangssignal kleiner oder größer bzw. gleich 0 ist. Aus dem Speicher 27 wird nun nacheinander der Abstand d _j jeder Sprachprobe ausgelesen, und parallel dazu wird der Zähler 9 so gesteuert, daß er die entsprechende Spalte von Wortplätzen im Speicher 7 für diese Sprachprobe adressiert, und zwar einen zusätzlichen Speicherplatz in dieser Spalte, und wenn der Komparator einen Differenzwert kleiner 0 meldet, wird in diesen Speicherplatz ein Zeichen eingeschrieben. Gleichzeitig ist am Komparator 63 ein Zähler 65 angeschlossen, der zählt, wieviel Sprachproben weiter vom Schwerpunkt entfernt sind als der Abstandswert D. Statt dessen kann für die Markierung, welche Sprachproben außerhalb dieses Abstandswerts-Bereichs liegen, auch ein zusätzlicher Speicher verwendet werden.

Als nächstes folgt in Fig. 2 der Verarbeitungsschritt 213, mit dem die Abstände d _jk von jeweils zwei Sprachproben j und k bestimmt werden. Dazu werden in diesem Beispiel die Spektralwerte des ersten Musters aus dem Speicher 7 ausgelesen und einem Zwischenspeicher 67 zugeführt. Danach werden die Spektralwerte der zweiten Sprachprobe ausgelesen und einer Verarbeitungseinheit 69 zugeführt, und parallel dazu werden die entsprechenden Spektralwerte aus dem Speicher 67 ausgelesen und auch der Verarbeitungseinheit 69 zugeführt, die den paarweisen Abstand d _jk der beiden Sprachproben auf folgende Weise bestimmt

Der Wert dieses Abstandes wird dem Speicher 71 zugeführt und dort gespeichert. Als nächstes werden die Spektralwerte der dritten Sprachprobe aus dem Speicher 7 ausgelesen, während der Inhalt des Speichers 67 unverändert bleibt, und damit der Abstand zwischen der ersten und der dritten Sprachprobe bestimmt. Erst wenn die Spektralwerte der letzten Sprachprobe ausgelesen sind, werden anschließend die Spektralwerte der zweiten Sprachprobe im Speicher 67 zwischengespeichert und dann die Spektralwerte der dritten Sprachprobe ausgelesen, usw. Auf diese Weise werden nacheinander die Abstände aller Sprachproben voneinander im Speicher 71 gespeichert. Die Adressierung dieses Speichers 71 sowohl beim Einschreiben wie beim Auslesen wird von dem Adressenzähler 73 gesteuert.

Danach folgt in Fig. 2 der Verarbeitungsschritt 215 zum Bestimmen des Einzel-Abstandswertes. Dafür werden in Fig. 6 aus dem Speicher 71 die paarweisen Abstände der Sprachproben ausgelesen und der Verarbeitungseinheit 75 zugeführt, wo diese paarweisen Abstände aufsummiert und daraus der mittlere paarweise Abstand _P bestimmt wird. Dabei werden jedoch nicht alle paarweisen Abstände aufsummiert, sondern parallel zu dem Auslesen der Abstände aus dem Speicher 71 wird aus dem Speicher 7 bzw. ggf. aus einem zusätzlichen Speicher das vom Komparator 63 erzeugte Zeichen ausgelesen und über die Leitung 74 der Verarbeitungseinheit 75 zugeführt, so daß nur die paarweisen Abstände von solchen Sprachproben aufsummiert werden, deren Abstand vom Schwerpunkt kleiner ist als der Abstandswert D. Dadurch wird also in der Verarbeitungseinheit 75 ein mittlerer Abstandswert _p auf folgende Weise ermittelt:

wobei J′ die Anzahl J aller Sprachproben, vermindert um den Zählerstand des Zählers 65 ist. Dieser mittlere Abstand _p wird in dem Speicher 77 zwischengespeichert. Der an dem Ausgang dieses Speichers zur Verfügung stehende Wert ist der Einzel-Abstandswert, der über die Leitung 78 beispielsweise dem Magnetstreifen einer Identitätskarte zugeführt wird.

Wenn der Zählerstand des Zählers 65, d. h. die Anzahl der Sprachproben mit einem größeren Abstand vom Mittelpunkt als der Abstandswert, gerade gleich der Anzahl zusätzlich speicherbarer Sprachproben ist, ist die Verarbeitung beendet. Der Speicher 7 wird nun nochmals ausgelesen, und zwar nacheinander die Spektralwerte jeweils einer Sprachprobe, und diese Werte werden einem Differenzbildner 66 zugeführt, der von diesen Werten die Werte der entsprechenden Spektral-Mittelwerte, die vom Speicher 23 über die Leitung 24 die Differenzbildner 66 zugeführt werden, subtrahiert. Diese Differenz wird über die Leitung 68 dem Magnetstreifen der Identitätskarte zugeführt, falls gleichzeitig auf dieser Leitung 74 ein Signal erscheint, das angibt, daß diese Sprachprobe außerhalb des Abstandswertes liegt.

Falls der Zählerstand des Zählers 65 jedoch größer ist als dieser Wert, gibt es mehrere Möglichkeiten. So kann der Wert des Faktors F in dem Speicher 43 in Fig. 4 vergrößert werden, so daß der Abstandswert größer wird und damit mehr Sprachproben innerhalb des Abstandswertes liegen. In diesem Falle müßten dann die Verarbeitungsschritte 207 bis 215 wiederholt werden. Bei dem hier beschriebenen Beispiel wird jedoch in gleicher Weise wie für den Fall, daß der Zählerstand des Zählers 65 kleiner ist als die Anzahl zusätzlicher Speicherproben, der nach der Abfrage 217, die der Abfrage des Zählers 65 entspricht, folgende Verarbeitungsschritt 219 durchgeführt. In diesem Verarbeitungsschritt wird für jede Sprachprobe die Anzahl der Sprachproben gezählt, die von dieser Sprachprobe weniger als der Einzel-Abstandswert entfernt sind. Zur Durchführung dieses Verarbeitungsschrittes werden in Fig. 6 aus dem Speicher 71 die Werte aller der paarweisen Abstände d _jk ausgelesen, bei der jeweils eine Sprachprobe beteiligt ist, wofür der Zähler 73 entsprechend gesteuert wird. Diese Werte werden einem Komparator 79 zugeführt, der diese Werte mit dem Einzel-Abstandswert SD vom Ausgang des Speichers 77 vergleicht und ein Ausgangssignal erzeugt, wenn der paarweise Abstand größer ist als dieser Einzel-Abstandswert. Das Ausgangssignal des Komparators 79 wird als Zählimpuls einem Zähler 81 zugeführt, der diesen Impuls jedoch nur zählt, wenn er gleichzeitig aus der Verarbeitungseinheit 83 ein Freigabesignal erhält.

Die Verarbeitungseinheit 83 erhält das Ausgangssignal des Differenzbildners 61 sowie den Einzel-Abstandswert, bildet die Differenz daraus und vergleicht diese mit dem Wert 0. Die Verarbeitungseinheit 83 erzeugt also dann ein Signal, wenn die folgende Beziehung erfüllt ist
D-SD-d _j < 0
wobei das Auslesen des Speichers 27 entsprechend vom Zähler 73 oder synchron mit diesem gesteuert werden muß. Dadurch werden nur solche Lernproben berücksichtigt, deren Einzel- Abstandswert zumindest teilweise den durch den Abstandswert D und den Schwerpunkt M gebildeten Bereich überschreitet, damit eine Vergrößerung des Erkennungsbereichs erreicht wird.

Wenn die Zählerstellung des Zählers 65 größer als die Zahl der zusätzlich speicherbaren Sprachmuster ist, kann zur Einsparung von Verarbeitungszeit der Zähler 81 auch nur für die Sprachproben freigegeben werden, von denen mindestens eine außerhalb des Abstandswertes liegt, d. h. bei der auf der Leitung 74 ein Signal erzeugt wird. Dies kann mit Hilfe des ODER-Gliedes 66 durchgeführt werden, wenn der Zähler 65 an dem mit dem ODER-Glied 66 verbundenen Ausgang ein Signal erzeugt, solange der Zählerstand kleiner ist als die Anzahl zusätzlich speicherbarer Sprachproben.

Wenn aus dem Speicher 71 alle Abstände zu einer Sprachprobe ausgelesen sind, wird durch ein Signal des Adressenzählers 73 der Zählerstand des Zählers 81 in den Speicher 87 eingeschrieben und der Zähler 81 unmittelbar danach auf den Anfangswert zurückgesetzt. In dem Speicher 87 wird also für jede Sprachprobe j die Anzahl n von Sprachproben gezählt, die einen geringeren Abstand haben als der Einzel-Abstandswert SD und die gleichzeitig vom Mittelpunkt M mindestens einen Abstand D-SD haben.

Es folgt in Fig. 2 nun der Verarbeitungsschritt 221, in dem die Sprachprobe mit der maximalen Anzahl Nachbarn bestimmt wird. Dazu werden die Anzahlen n _j aus dem Speicher 87 nacheinander ausgelesen und der Verarbeitungseinheit 89 zugeführt, die die jeweils höchste Anzahl und die Nummer der zugehörigen Sprachprobe speichert. Wenn der Speicher 87 einmal vollständig ausgelesen ist, wird die Nummer der zuletzt in der Verarbeitungseinheit 89 gespeicherten Sprachprobe über die Leitung 88 dem Adressenzähler 9 des Speichers 7 zugeführt und bei der entsprechenden Sprachprobe ein Zeichen eingeschrieben und der Zähler 65 um eine Stellung weitergeschaltet. Falls die Zählerstellung des Zählers 65 vorher größer als die Anzahl zusätzlich speicherbarer Sprachproben, ist er vorher auf die Anfangsstellung zurückgesetzt und gleichzeitig im Speicher 7 die vorher vom Komparator 63 erzeugten Markierungen gelöscht worden.

Nach jedem vollständigen Durchlaufen des Speichers 87 wird nun die Zählerstellung des Zählers 65 mit der Anzahl zusätzlich speicherbarer Sprachproben verglichen, wie in dem Verarbeitungsschritt 223 in Fig. 2 angegeben ist, und bei Gleichheit wird die Verarbeitung beendet und die bis dahin im Speicher 7 markierten Sprachproben ausgelesen, dem Differenzbildner 66 zugeführt und über die Leitung 68 dem endgültigen Speichermedium zugeführt. Falls der Zähler 65 die entsprechende Zählerstellung noch nicht erreicht hat, wird der Speicher 87 ein weiteres Mal ausgelesen und die nächstkleinere Anzahl mit der zugehörigen Nummer der Sprachprobe bestimmt und im Speicher 7 markiert, bis der Zähler 65 die entsprechende Zählerstellung erreicht hat. Im Verarbeitungsschritt 225 werden also die markierten Sprachproben als Differenzwerte und ggf. auch die bis dahin bestimmten anderen Werte auf den Magnetstreifen der Identitätskarte gespeichert. Damit sind also die Referenzdaten gespeichert, und es kann nachfolgend die Verifizierung vorgenommen werden.

Es sei bemerkt, daß bei der Speicherung der Referenzdaten auf dem Speichermedium diese Referenzdaten auch in quantisierter Form gespeichert werden können, wobei zwar etwas Genauigkeit verlorengeht, jedoch auch Speicherplatz gespart werden kann.

Die Verarbeitungsschritte beim Verifizieren sind in Fig. 7 dargestellt, und eine zugehörige Anordnung zeigt die Fig. 8. Zunächst wird im Verarbeitungsschritt 251 der Speicher mit den Referenzdaten gelesen, beispielsweise der Magnetstreifen der Identitätskarte des Sprechers, der verifiziert werden soll, und diese Daten werden in den Speicher 111 übertragen. Außerdem müssen die Referenzdaten, die nicht in direkter Form gespeichert sind, zurückberechnet werden. Dies sind die Differenz-Spektralwerte x _ÿ, die in dem Differenzbildner 66 in Fig. 6 am Ausgang 68 erzeugt wurden, sowie die Wichtungszahlen a _i. Dafür werden diese Werte nacheinander zusammen mit dem zugehörigen Spektral-Mittelwert _i einer Verarbeitungseinheit 113 zugeführt, die daraus die Spektralwerte x _ÿ der zusätzlich gespeicherten Sprachproben sowie die Wichtungsfaktoren w _i auf folgende Weise bestimmt

Die Werte a _min und Δ sind als unveränderliche Werte fest gespeichert. Die so ermittelten Daten werden in den Speicher 111 wieder eingeschrieben, zweckmäßig an den Stellen, an denen die entsprechenden Ausgangswerte von der Scheckkarte eingeschrieben wurden, um die Größe des Speichers 111 zu begrenzen.

Nun folgt der Verarbeitungsschritt 253, bei dem von dem zu verifizierenden Sprecher eine Sprachprobe genommen wird, die in gleicher Weise wie in Fig. 3 über das Mikrofon 101 in ein elektrisches Signal umgewandelt wird, das über den hier nicht dargestellten Verstärker der Filterbank 103 zugeführt wird. Deren Ausgänge werden wieder periodisch abgetastet und die dabei gewonnenen Werte zu einem Langzeitspektrum aufsummiert und in dem Speicher 105 gespeichert.

Danach folgt der Verarbeitungsschritt 255, in dem die Spektralwerte des so gewonnenen Langzeitspektrums im Speicher 105 normiert werden. Dafür werden alle Werte ausgelesen und der Verarbeitungseinheit 130 zugeführt, die ebenso aufgebaut ist und so arbeitet, wie in Fig. 3 dargestellt ist. Damit enthält der Speicher 105 die normierten Spektralwerte x _ip der zu verifizierenden Sprachprobe.

Im folgenden Verarbeitungsschritt 257 wird der Abstand der zu verifizierenden Sprachprobe vom Schwerpunkt bestimmt. Dazu werden die Spektralwerte aus dem Speicher 105 ausgelesen, und gleichzeitig werden die entsprechenden Spektral-Mittelwerte aus dem Speicher 111 ausgelesen, und beide Werte werden jeweils dem Differenzbildner 115 zugeführt. Die darin gebildeten Differenzen werden der Verarbeitungseinheit 117 zugeführt, die den tatsächlichen Abstand RD der zu verifizierenden Sprachprobe von dem in der Lernphase gewonnenen Schwerpunkt der Lern-Sprachproben auf folgende Weise bestimmt

Dafür wird der Verarbeitungseinheit 117 gleichzeitig der entsprechende Wichtungsfaktor w _i aus dem Speicher 111 durch entsprechende Steuerung des Adressenzählers 113 zugeführt.

Nach der Bestimmung des tatsächlichen Abstands RD wird dieser im Verarbeitungsschritt 259 mit dem gespeicherten Abstandswert D in dem Komparator 119 verglichen. Falls der tatsächliche Abstand kleiner ist als der Abstandswert, ist der Sprecher erkannt, und am Ausgang 121 wird ein Erkannt-Signal erzeugt. Dieses stellt gleichzeitig den Adressenzähler 113 zurück, da der Verifizierungsvorgang damit abgeschlossen ist.

Falls jedoch der tatsächliche Abstand größer ist als der im Speicher 111 gespeicherte Abstandswert D, folgt der Verarbeitungsschritt 261, bei dem wieder die Spektralwerte der zu verifizierenden Sprachprobe aus dem Speicher 105 und gleichzeitig die Spektralwerte der ersten zusätzlich gespeicherten Sprachprobe aus dem Speicher 111 ausgelesen und dem Differenzbildner 115 zugeführt werden. Die Verarbeitungseinheit 117 erzeugt dann in entsprechender Weise wie vorher beschrieben den tatsächlichen Abstand zwischen der zu verifizierenden Sprachprobe und der ersten zusätzlich gespeicherten Sprachprobe, und dieser tatsächliche Abstand RD wird mit dem im Speicher 111 enthaltenen Einzel-Abstandswert SD verglichen. Falls der tatsächliche Abstand größer ist, wird wieder am Ausgang 121 ein Erkannt-Signal erzeugt und der Zähler 113 zurückgesetzt. Anderenfalls wird im Verarbeitungsschritt 265 geprüft, ob noch weitere zusätzlich gespeicherte Sprachproben vorhanden sind, d. h. ob der Adressenzähler 113 noch nicht seine maximale Stellung erreicht hat, und bei Zutreffen dieser Bedingung wird der Abstand der zu verifizierenden Sprachprobe zu der nächsten zusätzlich gespeicherten Sprachprobe in beschriebener Weise bestimmt und mit dem Einzel-Abstandswert verglichen. Falls dies die letzte Sprachprobe ist, erreicht der Adressenzähler 113 seinen maximalen Zählerstand und gibt dabei an dem Ausgang 123 ein Rückweisungs-Signal ab. Damit ist dann der Verifizierungsvorgang erfolglos beendet.

Es sei bemerkt, daß in Fig. 8 ebenso wie in den Fig. 3-6 die übliche Ablaufsteuerung und die Taktsignalquelle nicht dargestellt sind. Für alle dargestellten Anordnungen gilt, daß die Verbindungen zwischen einzelnen Verarbeitungseinheiten bzw. Speichern, auf denen Signale übertragen werden, die Mehrbit-Datenworte darstellen, zweckmäßig als Leitungsbündel mit einer Leitung für jedes zu übertragende Bit ausgeführt werden.

Da die Verarbeitungseinheiten überwiegend nacheinander verwendet werden, können jeweils ein Teil davon zusammengefaßt bzw. mehrfach verwendet werden.

Claims

1. Verfahren zum Verifizieren eines Sprechers, bei dem eine Anzahl Lern-Sprachproben des Sprechers gewonnen und aus jeweils gleichen Merkmalen jeder Lern-Sprachprobe je ein Merkmalwert abgeleitet und aus den Merkmalwerten jeweils eines Merkmals aller Lern-Sprachproben der Mittelwert und aus allen Merkmalwerten aller Lern-Sprachproben ein Referenz-Abstandswert bestimmt wird und die Merkmal-Mittelwerte und der Referenz-Abstandswert gespeichert werden und bei dem aus der zu verifizierenden Sprachprobe in gleicher Weise wie bei den Lern-Sprachproben Merkmalwerte abgeleitet und ein Abstandswert für den Abstand dieser Sprachprobe von dem durch alle Merkmal-Mittelwerte gegebenen Schwerpunkt aus der Summe der Quadrate der Unterschiede jedes Merkmalwertes der Sprachprobe zu dem zugehörigen Merkmal-Mittelwert gebildet wird und ein Erkannt-Signal erzeugt wird, wenn der Abstandswert höchstens gleich dem Referenz-Abstandswert ist, dadurch gekennzeichnet, daß aus den Unterschieden der Merkmalswerte von jeweils zwei Lern-Sprachproben von mindestens einem Teil aller Lern-Sprachproben ein Einzel-Abstandswert bestimmt und gespeichert wird und zusätzlich die Merkmalwerte von Lern-Sprachproben gespeichert werden, die außerhalb des durch den Schwerpunkt und den Referenz-Abstandswert gegebenen Bereichs liegen, und daß zum Verifizieren von einer zu verifizierenden Sprachprobe, deren Abstandswert größer als der Referenz-Abstandswert ist, nacheinander der Abstandswert zu den zusätzlich gespeicherten Lern-Sprachproben bestimmt und mit dem gespeicherten Einzel-Abstandswert verglichen wird und ein Erkannt-Signal erzeugt wird, wenn mindestens ein Abstandswert kleiner als der Einzel-Abstandswert ist.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Merkmalwerte von solchen zusätzlichen Lern-Sprachproben innerhalb des durch den Schwerpunkt und den Abstandswert gegebenen Bereichs gespeichert werden, in deren durch die betreffende Lern-Sprachprobe und den Einzel-Abstandswert gegebenen Einzel- Bereich die größte Zahl weiterer Lern-Sprachproben liegen, wobei dieser Einzel-Bereich teilweise außerhalb des genannten Bereichs liegt, und der Abstand der zu verifizierenden Sprachprobe auch gegenüber diesen Lern-Sprachproben bestimmt und mit dem Einzel-Abstandswert verglichen wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Merkmalwerte aller zusätzlich gespeicherten Lern-Sprachproben als Unterschiedswerte gegenüber den zugehörigen Merkmal- Mittelwerten gespeichert werden und vor der Verifikation einer Sprachprobe die Merkmalwerte aus den gespeicherten Werten bestimmt werden.

4. Verfahren nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß bei der Bestimmung des Einzel-Abstandswertes aus den Unterschieden der Merkmalwerte jeweils zweier Lern-Sprachproben nur alle Lern-Sprachproben verwendet werden, die innerhalb des durch den Schwerpunkt und die Merkmal-Mittelwerte gegebenen Bereichs liegen.

5. Verfahren nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß die Merkmalwerte jeder Lern- Sprachprobe und zu verifizierenden Sprachprobe vor der Verarbeitung mit einem solchen Faktor multipliziert werden, daß die Summe der auf gleiche Weise von den Merkmalswerten abgeleiteten Werte einer Sprachprobe einen vorgegebenen Wert hat.

6. Verfahren nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß für jedes Merkmal ein zugeordneter Wichtungsfaktor gespeichert wird, und daß bei der Bestimmung des Abstands der zu verifizierenden Sprachprobe vom Schwerpunkt bzw. von einer zusätzlich gespeicherten Lern-Sprachprobe die Summanden vor der Summierung mit dem zugehörigen Wichtungsfaktor multipliziert werden.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß als Wichtungsfaktor der Kehrwert der Varianz des zugehörigen Merkmals verwendet wird, wobei die Varianz der Mittelwert der Quadrate der Unterschiede der zugehörigen Merkmalswerte aller Lern-Sprachproben von dem Merkmal-Mittelwert ist.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß vor der Speicherung der Wichtungsfaktoren diese durch einen vom zugehörigen Merkmal-Mittelwert abgeleiteten Wert dividiert werden und daß davon nur der einen vorgegebenen Minimalwert übersteigende Teilwert gespeichert wird, und daß vor der Verifikation die Wichtungsfaktoren aus den gespeicherten und den vorgegebenen Werten bestimmt werden.

9. Verfahren nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß die Merkmale die Frequenzkomponenten des Langzeitspektrums einer Sprachprobe sind.