DE2844156C2 - - Google Patents
Info
- Publication number
- DE2844156C2 DE2844156C2 DE2844156A DE2844156A DE2844156C2 DE 2844156 C2 DE2844156 C2 DE 2844156C2 DE 2844156 A DE2844156 A DE 2844156A DE 2844156 A DE2844156 A DE 2844156A DE 2844156 C2 DE2844156 C2 DE 2844156C2
- Authority
- DE
- Germany
- Prior art keywords
- values
- value
- characteristic
- distance value
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000012545 processing Methods 0.000 claims description 79
- 230000005484 gravity Effects 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 24
- 230000007774 longterm Effects 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 description 73
- 230000003595 spectral effect Effects 0.000 description 38
- 238000001514 detection method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
- G07C9/257—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
Die Erfindung betrifft ein Verfahren zum Verifizieren eines
Sprechers nach dem Oberbegriff des Patentanspruchs 1.
Ein solches Verfahren kann in verschiedenen Bereichen verwendet
werden, beispielsweise bei der Zugangskontrolle zu
besonders gesicherten räumlichen Bereichen oder im Bankverkehr,
um eine automatische Legitimierung des Kunden zu erreichen und
die Möglichkeit zu bieten, daß dieser Kunde außerhalb der
Schalterstunden über eine automatische Geldauszahleinrichtung
Bargeld von seinem Konto abheben kann. Dabei kann also von
kooperativen
Sprechern ausgegangen werden, die also bereit sind, vor der
Verifizierung ihrer Stimme einen bestimmten oder auch gegebenenfalls
wahlfreien Text zu sprechen, aus dem möglichst
weitgehend sprecherspezifische Merkmale abgeleitet werden
können. Da eine menschliche Stimme nicht genau reproduzierbar
ist, müssen zur Erreichung einer sinnvollen Erkennungsrate
mehrere Sprachproben abgegeben werden, d. h. der Sprecher muß
einen bestimmten oder verschiedene Texte möglichst zu verschiedenen
Zeitpunkten mehrmals sprechen. Aus diesen Lern-Sprachproben
werden dann Merkmalsbereiche bzw. Mittelwerte
abgeleitet, und bei einer späteren Verifizierung wird geprüft,
ob die Merkmale innerhalb der Bereiche bzw. die Abweichungen
von den Mittelwerten insgesamt einen bestimmten
Wert nicht überschreiten.
Die Merkmalbereiche bzw. Mittelwerte sind dabei in irgendeiner
Form gespeichert, damit sie während des Verifizierens
vorliegen und mit der dann abgegebenen Sprachprobe verglichen
werden können. Diese Speicherung kann in der Auswerteeinrichtung
erfolgen, jedoch ist dann bei einer größeren Anzahl
von Sprechern ein sehr großer Speicherraum notwendig. Aus
diesem Grunde sind insbesondere im Bankverkehr Identitätskarten
verwendet worden, auf denen die aus den Lern-Sprachproben
gewonnenen Vergleichswerte gespeichert sind, vorzugsweise
auf einem Magnetstreifen, und zum Verifizieren werden
zunächst die gespeicherten Werte von der Identitätskarte
abgelesen und in die Auswerteeinrichtung übernommen, und dann
wird die zu verifizierende Sprachprobe abgenommen und mit
den von der Identitätskarte gelesenen Werten verglichen.
Für derartige Identitätskarten ist bereits ein gewisses
Normformat entwickelt worden, bei dem auf dem Magnetstreifen
eine bestimmte, begrenzte Anzahl von Datenzeichen bzw. Bits
gespeichert werden können. Diese Anzahl Bits ist bei bekannten
Verfahren zum Verifizieren eines Sprechers jedoch
nicht ausreichend, wenn eine brauchbare Erkennungsrate bei
ausreichender Sicherheit gegenüber anderen Sprechern gefordert
wird. Bei dem eingangs genannten Verfahren, bei dem
ein sogenannter "Minimum distance" (geringster Abstand)-
Klassifikator verwendet wird, ist zwar nur eine relativ geringe
Anzahl von Daten zur Speicherung notwendig, jedoch treten dabei
zu viele Falschrückweisungen auf, bei denen also der richtige
Sprecher fälschlich zurückgewiesen wird, wenn der Abstandswert
so gering gewählt wird, daß er die Lern-Sprachproben sehr eng
umschließt bzw. einige Lern-Sprachproben außerhalb des Abstandswertes
liegen läßt, während andererseits bei ausreichend großem
Abstandswert zwar wenig Falschrückweisungen erfolgen, jedoch die
Gefahr der Falscherkennung sehr viel größer wird, wobei also
ein Sprecher A, der angibt, der Sprecher B zu sein, beispielsweise
nachdem er die Identitätskarte des letzteren entwendet
hat, tatsächlich als der Sprecher B erkannt wird. Dies ist insbesondere
für einen normalen Bankbetrieb unzulässig.
Ein Verfahren der eingangs genannten Art ist bekannt aus der
Zeitschrift "Proceedings of the IEEE", Vol. 64, No. 4,
April 1976, S. 475-487. Darin ist insbesondere auf den
Seiten 477 unten und 478 angegeben, aus mehreren Sprachproben
eines Sprechers statistische Merkmale zu gewinnen,
die den Merkmal-Mittelwert-Vektor bzw. den Schwerpunkt
umfassen. Für die Verifizierung einer Sprachprobe kann deren
Abstand von den Mittelwert-Vektoren bzw. Schwerpunkten mehrerer
Sprecher ermittelt und der geringste Abstand bestimmt werden.
Dabei können auch Gewichtungen verwendet werden. Die Schwierigkeit
dabei ist jedoch, daß eine zu verifizierende Sprachprobe,
die nahezu in der Mitte zwischen zwei oder mehreren Schwerpunkten
liegt, zwar einem Sprecher zugeordnet wird, der jedoch nicht
unbedingt der richtige Sprecher sein muß, da der Variationsbereich
der Sprachproben eines bestimmten Sprechers für verschiedene
Merkmale unterschiedlich sein kann. Die Verwendung
von Gewichtungen erfordert jedoch wieder sehr viel mehr
Speicherplatz. Zwar wird in dieser Druckschrift auf eine
sogenannte "sequentielle Strategie" hingewiesen, wonach
eine Serie von Versuchen durchgeführt werden soll, jedoch
ist nicht näher angegeben, was bei den einzelnen Versuchen
tatsächlich verglichen wird.
Aus der DE-OS 27 20 666 ist ein Verfahren zur Geräuschanalyse
bekannt, wobei angegeben ist, daß Langzeitspektren zur Sprecheridentifikation
verwendet werden können. Nähere Maßnahmen, wie
dies durchgeführt werden kann, sind dieser Druckschrift jedoch
nicht zu entnehmen.
Aufgabe der Erfindung ist es daher, ein Verfahren der eingangs
genannten Art anzugeben, bei dem nur eine geringe Anzahl Daten
aus den Lern-Sprachproben eines Sprechers gespeichert werden
und bei dem dennoch der Verifikationsvorgang mit einer geringen
Anzahl von Falscherkennungen bei gleichzeitig geringer
Anzahl von Falschrückweisungen vorgenommen wird.
Diese Aufgabe wird erfindungsgemäß durch die im kennzeichnenden
Teil des Hauptanspruchs angegebenen Merkmale gelöst.
Durch das erfindungsgemäße Verfahren kann der Abstandswert
relativ klein bestimmt werden, so daß durchaus einige der
Lern-Sprachmuster außerhalb des durch den Schwerpunkt und
den Abstandswert bestimmten Bereichs liegen, weil diese
außerhalb liegenden Lern-Sprachproben dann gesondert abgespeichert
werden, so daß eine zu verifizierende Sprachprobe,
die zwar außerhalb
dieses Bereichs liegt, jedoch in genügender Nachbarschaft
einer Lern-Sprachprobe, noch als richtig erkannt wird.
Ein Klassifikator, bei dem der Abstand eines zu klassifizierenden
Musters zu jeweils einem einer Anzahl Lernmuster
bestimmt und mit einem festen Schwellwert verglichen
wird, ist im Gebiet der Mustererkennung bekannt und wird mit
"Nearest Neighbour" (nächster Nachbar)-Klassifikator bezeichnet.
Die Anwendung dieser Klassifikation auf das eingangs
genannte Verfahren zum Verifizieren eines Sprechers würde
jedoch bedeuten, daß alle Lern-Sprachproben mit allen Merkmalwerten
gespeichert werden, wofür bei steigender Anzahl von
Lern-Sprachproben der notwendige Speicherplatzbedarf auf der
Identitätskarte im wesentlichen linear anwächst und bei
der erforderlichen Anzahl von Lern-Sprachproben den vorhandenen
Speicherplatz überschreitet.
Der Speicherplatz, der auf einer Identitätskarte zur Verfügung
steht, kann bei manchen Sprechern nicht ausgefüllt sein, wenn
die Merkmalwerte von nur den Lern-Sprachproben gespeichert
werden, die außerhalb des durch den Schwerpunkt und den Abstandswert
gegebenen Bereich liegen. Um den dann noch eventuell vorhandenen
Speicherraum auszunutzen, ist es zweckmäßig, daß die
Merkmalwerte von solchen zusätzlichen Lern-Sprachproben innerhalb
des durch den Schwerpunkt und den Abstandswert gegebenen
Bereichs gespeichert werden, in deren durch die betreffende
Lern-Sprachprobe und den Einzel-Abstandswert gegebenen
Einzel-Bereich die größte Zahl weiterer Lern-Sprachproben
liegen, wobei dieser Einzel-Bereich teilweise außerhalb
des genannten Bereichs liegt, und der Abstand der zu verifizierenden
Sprachprobe auch gegenüber diesen Lern-
Sprachproben bestimmt und mit dem Einzel-Abstandswert
verglichen wird. Dadurch wird der Bereich zusätzlich erweitert,
in dem eine zu verifizierende Sprachprobe noch
als erkannt gewertet wird, da sich durch die angegebenen
Maßnahmen die Kontur des Bereichs der tatsächlichen Verteilung
der Lern-Sprachproben eher annähert.
Wenn die Merkmalwerte der zusätzlich gespeicherten Lern-
Sprachproben mit hinreichender Genauigkeit gespeichert
werden sollen, ergibt sich daraus eine große Anzahl erforderlicher
Bits pro zusätzlich gespeicherter Lern-Sprachprobe.
Um diese Anzahl Bits zu verringern, ist es zweckmäßig,
daß die Merkmalwerte aller zusätzlich gespeicherten
Lern-Sprachproben als Unterschiedswerte gegenüber den zugehörigen
Merkmal-Mittelwerten gespeichert werden und vor der
Verifikation einer Sprachprobe die Merkmalwerte aus den gespeicherten
Werten bestimmt werden. Da die Unterschiede bzw.
Abstände der zusätzlich gespeicherten Lern-Sprachproben von
dem Schwerpunkt im Verhältnis wesentlich geringer sind als
der Wert der Schwerpunktkoordinaten, die durch die Merkmal-
Mittelwerte gebildet werden, kann auf diese Weise die
Speicherung zusätzlicher Lern-Sprachmuster bei großer
Genauigkeit mit einer geringen Anzahl Bits erfolgen.
Es ist weiter zweckmäßig, daß bei der Bestimmung des
Einzel-Abstandswertes aus den Unterschieden der Merkmalwerte
jeweils zweier Lern-Sprachproben nur alle Lern-Sprachproben
verwendet werden, die innerhalb des durch den Schwerpunkt
und die Merkmal-Mittelwerte gegebenen Bereichs liegen.
Dadurch wird der Einfluß der Lern-Sprachproben, die ohnehin
wenig charakteristisch für den betreffenden Sprecher sind,
auf den Einzel-Abstandswert ausgeschaltet.
Um verschiedene Sprachproben miteinander verarbeiten zu
können, sollten die Merkmalwerte der einzelnen Sprachproben
in einem einheitlichen Maßstab vorliegen. Es ist daher zweckmäßig,
daß die Merkmalwerte jeder Lern-Sprachprobe und zu
verifizierenden Sprachprobe vor der Verarbeitung mit einem
solchen Faktor multipliziert werden, daß die Summe der auf
gleiche Weise von den Merkmalswerten abgeleiteten Werte
einer Sprachprobe einen vorgegebenen Wert hat. Auf diese Weise
haben alle Merkmalwerte eine einheitliche Beziehung zueinander.
Wenn bei der Bestimmung des Abstands der zu verifizierenden
Sprachprobe vom Schwerpunkt bzw. von den zusätzlich gespeicherten
Sprachproben die Quadrate der Unterschiede der
einzelnen Merkmalwerte unmittelbar summiert werden, bedeutet
dies, daß alle Merkmale mit dem gleichen Gewicht
eingehen. Tatsächlich ist es jedoch so, daß die einzelnen
Merkmale mit unterschiedlicher Genauigkeit vom Sprecher
reproduziert werden können, d. h. einzelne Merkmale haben
eine kleinere Schwankungsbreite, wobei diese Merkmale bei
verschiedenen Sprechern unterschiedlich sein können. Merkmale,
die in verschiedenen Lern-Sprachproben in ihren Werten
stark schwanken, sollten daher in geringerem Ausmaß in den
Wert für den Abstand eingehen. Es ist daher zweckmäßig, daß
für jedes Merkmal ein zugeordneter Wichtungsfaktor gespeichert
wird, und daß bei der Bestimmung des Abstands der zu verifizierenden
Sprachprobe vom Schwerpunkt bzw. von einer zusätzlich
gespeicherten Lern-Sprachprobe die Summanden vor
der Summierung mit dem zugehörigen Wichtungsfaktor multipliziert
werden. Auf diese Weise kann die Streuung der Merkmalwerte
besser berücksichtigt werden. Dabei ist es zweckmäßig,
daß als Wichtungsfaktor der Kehrwert der Varianz des zugehörigen
Merkmals verwendet wird, wobei die Varianz der Mittelwert der
Quadrate der Unterschiede der zugehörigen Merkmalswerte aller
Lern-Sprachproben von dem Merkmal-Mittelwert ist. Auf diese
Weise wird am besten die unterschiedliche Bedeutung der
einzelnen Merkmale für eine möglichst gute Verifikation berücksichtigt.
Da die Varianz ein Maß dafür ist, wie sehr die Merkmalwerte
aller Lern-Sprachproben voneinander unterschiedlich sind,
und zwar in einem absoluten Maß, muß für eine genaue Darstellung
auch des größten Wichtungsfaktors für alle
Wichtungsfaktoren insgesamt ein großer Speicherraum zur
Verfügung gestellt werden. Es besteht jedoch eine sehr
große Wahrscheinlichkeit, daß die Varianz eines Merkmals
im absoluten Maß um so größer ist, je größer auch der Wert
des Merkmals selbst ist. Um daher Speicherplatz zu sparen,
ist es zweckmäßig, daß vor der Speicherung der Wichtungsfaktoren
diese durch einen vom zugehörigen Merkmal-Mittelwert
abgeleiteten Wert dividiert werden und daß davon nur der
einen vorgegebenen Mittelwert übersteigende Teilwert gespeichert
wird, und daß vor der Identifikation die Wichtungsfaktoren
aus den gespeicherten und den vorgegebenen Werten
bestimmt werden. Durch das Beziehen der Varianzwerte auf den
Merkmal-Mittelwert wird ein Quotient erhalten, dessen Wert
auch bei verschiedenen Merkmalen mit unterschiedlichen
Varianzen eher in eine einheitliche Größenordnung kommt.
Dieser Quotient kann dann mit weniger Bit gespeichert werden,
wobei die Genauigkeit des aus dem Quotienten wieder bestimmten
Wichtungsfaktors auch bei kleinen Absolutwerten
nicht wesentlich geringer ist als bei großen Absolutwerten.
Die Division durch den Merkmal-Mittelwert direkt kann zu
Schwierigkeiten führen, da dieser zumindest für einen oder
einige Merkmale den Wert 0 haben kann. Daher ist die Division
durch einen um einen festen Betrag erhöhten Merkmal-Mittelwert,
etwa um eine Einheit oder um eine Quantisierungseinheit,
günstiger. Ferner kann angenommen werden, daß der auf diese
Weise erhaltene Quotient nicht 0 wird, sondern auch bei verschiedenen
Sprechern zwischen einem Minimalwert und einem
Maximalwert liegt. Dieser Minimalwert kann daher aus Untersuchungen
fest vorbestimmt und von dem Quotienten abgezogen
werden, so daß der Wertebereich der zu speichernden
Zahl schließlich noch kleiner wird. Quotienten, die tatsächlich
kleiner sind als dieser Minimalwert, werden dann
auf diesen Minimalwert festgelegt. Auf diese Weise kann
auch für viele Merkmale jeweils ein Gewichtungsfaktor mit
guter Genauigkeit gespeichert werden.
Zum Ableiten von Merkmalen aus einem Sprachsignal sind verschiedene
Möglichkeiten bekannt, wie Verlauf der Sprachgrundfrequenz,
etwa als Histogramm, oder das Pausenverhältnis
in gleicher Weise. Eine besonders einfache Möglichkeit,
aussagekräftige Merkmale aus einem Sprachsignal abzuleiten,
besteht jedoch darin, daß die Merkmale die Frequenzkomponenten
des Langzeitspektrums einer Sprachprobe sind.
Dafür ist nur eine Filterbank und ein Summierer notwendig.
Ausführungsbeispiele der Erfindung werden nachstehend anhand
der Zeichnung näher erläutert. Es zeigt
Fig. 1 eine graphische Darstellung zur Veranschaulichung
der verschiedenen zu speichernden und zu vergleichenden
Werte, wenn aus jeder Sprachprobe nur
zwei Merkmale abgeleitet werden,
Fig. 2 ein Flußdiagramm der Verarbeitungsschritte für die
Erzeugung der abzuspeichernden Werte,
Fig. 3-6 Anordnungen zur Verarbeitung der Lern-Sprachproben
und zur Erzeugung der abzuspeichernden Datensignale,
Fig. 7 ein Flußdiagramm der Verarbeitungsschritte beim
Verifizieren,
Fig. 8 eine Anordnung zur Erzeugung des Erkannt-Signals bzw.
Rückweisungs-Signals beim Verifizieren.
Bei der graphischen Darstellung in Fig. 1 ist angenommen,
daß von jeder Sprachprobe nur zwei Merkmale abgeleitet
sind, um eine übersichtliche zweidimensionale Darstellung
zu ermöglichen. Bei drei Merkmalen je Sprachprobe ist noch
eine dreidimensionale Darstellung möglich, die jedoch in
der Zeichnung nicht so übersichtlich wiedergegeben werden
kann. In der Praxis werden aus einer Sprachprobe selbstverständlich
mehr Merkmale abgeleitet, so daß sich ein Merkmalsraum
mit entsprechender Anzahl von Dimensionen ergibt,
der allerdings zeichnerisch überhaupt nicht mehr darstellbar
ist. Die Beziehungen zwischen den Sprachproben bzw. deren
Merkmalswerten sind im höherdimensionalen Raum jedoch völlig
entsprechend der zweidimensionalen Darstellung.
Die beiden Merkmale, von denen in Fig. 1 ausgegangen wird,
sind darin mit a und b bezeichnet, wobei die Werte dieser
Merkmale in Richtung der Pfeilspitzen ansteigen mögen. Die
Sprachproben sind dabei durch kleine Kreise angegeben, von
denen einige mit S 1 bis S 4 bezeichnet sind. Die Lage jeder
Sprachprobe ist dabei durch die Werte der beiden Merkmale
in dieser Sprachprobe gegeben. Bei der Sprachprobe S 2
haben beispielsweise beide Merkmale große Werte, während
bei der Sprachprobe S 3 beide Merkmale kleine Werte haben.
Die Gesamtheit aller in Fig. 1 dargestellten Sprachproben
hat einen Mittelwert bzw. Schwerpunkt, dessen Lage in
Fig. 1 durch ein Kreuz angedeutet ist, das mit M bezeichnet
ist. Die Koordinatenwerte bzw. Merkmalwerte für diesen
Schwerpunkt sind durch den Mittelwert des entsprechenden
Merkmalwerts aller Sprachproben bestimmt.
Ferner wird aus den Merkmalwerten aller Sprachproben ein
Abstandswert bestimmt. Dieser Abstandswert kann auf verschiedene
Weise bestimmt werden, wobei eine mögliche Maßnahme
zur Bestimmung dieses Abstandswertes später erläutert
wird. Die Punkte in der Merkmalfläche in Fig. 1, die um
diesen Abstandswert vom Schwerpunkt entfernt liegen, bilden
einen Kreis mit einem Radius D gleich dem Abstandswert. Die
Merkmalwerte für den Schwerpunkt M und der Abstandswert D
wird nun für jeden Sprecher gespeichert, beispielsweise auf
dem Magnetstreifen einer bereits erwähnten Identitätskarte,
wobei davon ausgegangen wird, daß die in Fig. 1 dargestellten
Sprachproben während der Lernphase von dem Sprecher aufgenommen
wurden.
Wenn nun später dieser Sprecher eine Sprachprobe abgibt,
die verifiziert werden soll, werden aus dieser Sprachprobe
ebenfalls die Merkmale a und b abgeleitet und deren Werte
bestimmt. Diese Sprachprobe möge in Fig. 1 in der Merkmalfläche
an der Stelle des Vierecks liegen, das mit T bezeichnet
ist. Um zu prüfen, ob diese Sprachprobe tatsächlich
zu dem angegebenen Sprecher gehört, wird der Abstand DT
des Punktes T dieser Sprachprobe vom Schwerpunkt M bestimmt,
und dieser Abstand DT wird mit dem Abstandswert D verglichen.
Der Abstand DT kann dabei in bekannter Weise wie folgt bestimmt
werden:
Wenn a m und b m die Merkmalwerte des Schwerpunktes M und a T
und b T die Merkmalwerte der zu prüfenden Sprachprobe sind,
dann ergibt sich der Abstand DT aus den Unterschieden a M -a T
und b M -b T der jeweils gleichen Merkmale nach
Dies gilt in entsprechender Weise auch für den höherdimensionalen
Merkmalsraum für mehr als zwei Merkmale. In
dem dargestellten Beispiel ist der Wert des Abstands DT
kleiner als der Abstandswert D, so daß für diese Sprachprobe
ein Erkannt-Signal erzeugt wird.
In Fig. 1 ist zu erkennen, daß die beiden mit S 1 und S 2
bezeichneten Sprachproben außerhalb des Bereichs liegen,
der durch den Kreis um den Schwerpunkt M mit dem Abstandswert
D gebildet wird. Wenn der betreffende Sprecher nun
eine Sprachprobe abgibt, die zwar in der Nähe der Sprachprobe
S 2 liegt, jedoch außerhalb des genannten Bereichs,
würde diese Sprachprobe ohne weiteres nicht als zu dem
Sprecher gehörig erkannt werden, obwohl sie sehr nahe bei
einer während der Lernphase abgegebenen Sprachprobe dieses
Sprechers liegt. Um dies zu verhindern und solche Sprachproben
auch als zu dem Sprecher gehörig zu erkennen, werden
nach dem Grundgedanken der Erfindung auch die Merkmalwerte
der Sprachproben S 1 und S 2 aus der Lernphase gespeichert.
Außerdem wird ein Einzel-Abstandswert SD gespeichert, der
aus den Merkmalwerten aller während der Lernphase gewonnenen
Sprachproben bestimmt wird, und zwar insbesondere aus den
innerhalb des Kreises um den Schwerpunkt M mit dem Radius
D gleich dem Abstandswert liegenden Sprachproben, wie später
erläutert wird. Wenn nun eine Sprachprobe abgegeben wird,
die in der Merkmalfläche in Fig. 1 auf dem mit T 1 bezeichneten
Viereck liegt, so daß ihr Abstand vom Schwerpunkt M größer
als der Abstandswert D ist, wird außerdem der Abstand dieser
Sprachprobe T 1 von den zusätzlich gespeicherten Sprachproben
S 1 und S 2 bestimmt. Der letztere Abstand hat den Wert DT 1,
der kleiner ist als der Einzel-Abstandswert SD. Damit wird
die Sprachprobe T 1 ebenfalls noch als zu dem betreffenden
Sprecher gehörig festgestellt und dafür ein Erkannt-Signal
erzeugt.
Für die Speicherung der zusätzlichen Sprachproben, beispielsweise
der Sprachprobe S 2, brauchen nicht deren Merkmalwerte
a S und b S gespeichert zu werden, sondern nur die
Unterschiede zu den entsprechenden Merkmalwerten a M und b M
des Schwerpunktes M. Diese Differenzwerte a S -a M und b S -b M
sind normalerweise wesentlich kleiner als die absoluten
Merkmalwerte, so daß für die Speicherung der Differenzwerte
weniger Bit erforderlich sind. Da die Merkmalwerte des
Schwerpunktes M ebenfalls gespeichert sind, können die Merkmalwerte
der zusätzlichen Sprachproben aus den gespeicherten
Werten einfach bestimmt werden.
Bei dem in Fig. 1 dargestellten Beispiel liegen nur die
beiden Sprachproben S 1 und S 2 außerhalb des Bereichs entsprechend
dem Kreis um den Schwerpunkt M mit dem Radius
D. Damit kann in diesem Fall der vorhandene Speicherraum,
beispielsweise der Magnetstreifen auf der bereits erwähnten
Identitätskarte, noch nicht gefüllt sein, sondern er kann
beispielsweise noch Platz für die Merkmalwerte von zwei
weiteren Sprachproben haben. Um diesen Speicherplatz auch
noch auszunutzen, werden die Merkmalwerte von zwei weiteren
Sprachproben gespeichert, die jedoch innerhalb des Bereichs
liegen. Dabei ist jedoch die Speicherung nur solcher Sprachproben
sinnvoll, die diesen Bereich erweitern. Dies können
nur Sprachproben sein, die außerhalb des Kreises um den
Schwerpunkt M mit dem Radius gleich einem inneren Abstand ID
liegen, wenn dieser innere Abstand folgenden Wert hat:
ID = D-SD (2)
Um aus diesen Sprachproben geeignete auszuwählen, wird
für jede dieser Sprachproben festgestellt, wie viele andere solche
Sprachproben einen geringeren Abstand als den Einzel-Abstandswert
SD haben, d. h. wieviel andere Sprachproben innerhalb
des Kreises um die betreffende Sprachprobe mit dem
Radius SD liegen. Bei dem in Fig. 1 dargestellten Beispiel
liegen in dem entsprechenden Einzel-Bereich der Sprachprobe
S 3 insgesamt 5 andere Sprachproben, so daß die Merkmalwerte
der Sprachprobe S 3 als nächste zusätzlich gespeichert werden.
In dem Einzel-Bereich der Sprachprobe S liegen 4 weitere
Sprachproben, also werden die Merkmalwerte der Sprachprobe
S 4 noch zusätzlich gespeichert. Damit werden nun alle
Sprachproben, die innerhalb des Bereichs mit der ausgezogenen
Kontur C liegen, als zu dem Sprecher zugehörig erkannt. Diese
Kontur C entspricht, wie aus dem dargestellten Beispiel zu
erkennen ist, auch besser der tatsächlichen Verteilung der
Sprachproben. Diese komplexe Natur kann dabei mit den angegebenen
Maßnahmen mit nur einer verhältnismäßig geringen
Anzahl von Bits gespeichert werden.
Die Verarbeitungsschritte für die Erzeugung der zu
speichernden Daten sind in dem Flußdiagramm in Fig. 2
schematisch aufgeführt. Die Durchführung dieser Verarbeitungsschritte
kann mittels den in Fig. 3 bis 6 dargestellten
Anordnungen erfolgen, die daher jeweils zusammen
mit der Beschreibung des Flußdiagramms erläutert werden.
Im Verarbeitungsschritt 201 werden zunächst die Sprachproben
von dem zu verifizierenden Sprecher genommen. Dazu ist in
Fig. 3 ein Mikrofon 1 vorhanden, das die Sprachsignale in
elektrische Signale umwandelt. Im Verstärker 3 werden diese
Signale verstärkt und ggf. in der Dynamik begrenzt bzw.
geregelt. Das so erhaltene Sprachsignal wird einer Filterbank
5 zugeführt. Diese Filterbank besitzt eine Anzahl
Filter für jeweils einen von einer Anzahl aneinandergrenzender
Frequenzbereiche, und die Ausgangssignale dieser
Filter werden in regelmäßigen Zeitabständen, beispielsweise
alle 20 ms abgetastet und zwischengespeichert. Die bei aufeinanderfolgenden
Abtastungen gewonnenen Werte werden je
Frequenzbereich aufsummiert, so daß nach Ende der Sprachprobe
ein Langzeitspektrum vorliegt, in dem der Wert jedes
Frequenzbereiches die Gesamtenergie in diesem Frequenzbereich
während der Sprachprobe angibt. Die Frequenzbereiche
stellen somit die Merkmale dar, die aus der Sprachprobe
abgeleitet werden, und die Werte des Langzeitspektrums sind
die Merkmalwerte in diesem Beispiel. Es sei bemerkt, daß
die folgende Beschreibung auch für auf andere Weise abgeleitete
Merkmale gilt.
Die so erhaltenen Werte des Langzeitspektrums werden in
dem Speicher 7 gespeichert. Dieser Speicher 7 ist in
Fig. 3 als Matrixspeicher angedeutet, wobei für eine übersichtlichere
Darstellung angenommen wird, daß die Werte
eines Langzeitspektrums, die mit dem Index i bezeichnet
werden, in untereinander angeordneten Speicherwortplätzen
gespeichert sind, wobei jeder Speicherwortplatz eine Anzahl
Bit umfaßt.
Wie bereits erwähnt, werden in der Lernphase mehrere Sprachproben
von dem zu verifizierenden Sprecher genommen, und
jede Sprachprobe wird auf gleiche Weise in der Filterbank
5 zu einem Langzeitspektrum verarbeitet, und die Werte der
Langzeitspektren, die mit dem Index j bezeichnet werden,
werden in nebeneinander liegenden Spalten von Speicherwortplätzen
im Speicher 7 gespeichert. Diese Folge der
Speicherung wird durch entsprechende Steuerung des Adressenzählers
9 erreicht. Es ist klar, daß die tatsächlich räumliche
Organisation der Speicherwortplätze im Speicher 7 auch
anders sein kann.
Um die gespeicherten Langzeitspektren verarbeiten zu können,
müssen die Werte in einem vergleichbaren Bereich vorliegen.
Hierfür werden die Werte in dem Verarbeitungsschritt 203
normiert. Dafür werden die einzelnen Werte x′ i mit einem
solchen Faktor A multipliziert, daß für die multiplizierten
x i gilt,
wobei C ein für alle Langzeitspektren gleicher Wert ist.
Dies wird mit einem Faktor A erreicht, der der folgenden
Bedingung genügt
Dieser Faktor A muß für jedes Langzeitspektrum gesondert
bestimmt werden.
Zur Durchführung dieser Normierung werden in Fig. 3 die
Werte x′ i nacheinander aus dem Speicher 7 ausgelesen und
einer Verarbeitungseinheit 11 zugeführt, die die Quadrate
dieser Werte bildet und zu einem Wert aufsummiert. Am
Ausgang der Einheit 11 erscheint also ein Signal A′ mit
dem Wert
Dieser Wert wird einer weiteren Verarbeitungseinheit 15 zugeführt,
die außerdem den im Speicher 13 gespeicherten Wert
der Konstanten C erhält und ein Ausgangssignal erzeugt, das
den oben angegebenen Wert für den Faktor A hat, und dieses
Signal wird in dem Speicher 17 zwischengespeichert. Anordnungen
zur Erzeugung von Ausgangssignalen, beispielsweise
in Form von parallelen binären Signalen, die als
Dualzahl betrachtet einen bestimmten Wert haben, der aus
dem Wert entsprechender Eingangssignale durch eine vorgegebene
arithmetische Operation abgeleitet ist, sind an
sich bekannt und sollen hier nicht weiter erläutert werden,
sondern es wird lediglich die Zusammenschaltung solcher
Verarbeitungsanordnungen in Form von Ausführungsbeispielen
nachfolgend beschrieben. Dabei sind die Ablaufsteuerung,
die die Folge der aufeinanderfolgenden Verarbeitungsvorgänge
in den einzelnen Verarbeitungseinheiten steuert und
die im wesentlichen einen Zähler und ggf. einen davon gesteuerten
Speicher enthält, sowie ein ebenfalls erforderlicher
Taktimpulsgenerator der Übersichtlichkeit halber weggelassen.
Die Normierung der einzelnen Spektralwerte jedes Langzeitspektrums
erfolgt in einem weiteren Schritt, indem die
Spektralwerte des gleichen Langzeitspektrums erneut ausgelesen
und der Multipliziereinrichtung 19 zugeführt werden,
die am anderen Eingang die den Wert des Faktors A angebenden
Signale erhält, und die multiplizierten Werte werden an der
gleichen Stelle wieder eingeschrieben. Die so entstandenen
Spektralwerte werden mit x i bezeichnet. Dieser Vorgang wird
nacheinander für alle Langzeitspektren durchgeführt.
Im anschließenden Verarbeitungsschritt 205 werden
die Spektral-Mittelwerte bestimmt, die die Koordinaten
des Schwerpunktes der Sprachproben angeben. Dazu wird in
Fig. 4 der Wert x ÿ eines Spektralanteils i von sämtlichen
Sprachproben dem Speicher 7 ausgelesen und der Verarbeitungseinheit
21 zugeführt. Diese summiert die zugeführten
Werte und erzeugt ein (Mehrfach-)Ausgangssignal
für jeden Spektralbereich i mit dem Wert
das den Mittelwert der Spektralwerte jeweils eines
Spektralanteils über alle Sprachproben darstellt, und
dieses Signal wird in dem Speicher 23 gespeichert. Der
Ausgang des Speichers 23 für die Koordinaten des Schwerpunktes
M führt über die Leitung 24 zu einem nicht dargestellten
Speicher, beispielsweise dem Magnetstreifen der
bereits erwähnten Identitätskarte, wo die entsprechenden
Werte gleich oder später nach Abschluß aller Verarbeitungsschritte
gespeichert werden.
Anschließend werden aus dem Speicher 7 erneut alle Werte ausgelesen,
jedoch diesmal wieder nacheinander die Spektralwerte
jeweils eines Musters, und diese werden der Verarbeitungseinheit
25 zugeführt, die außerdem die Spektral-
Mittelwerte aus dem Speicher 23 enthält. Diese Einheit 25
berechnet die Abstände d j der einzelnen Sprachproben j vom
Schwerpunkt
die über den Ausgang 24 ausgegeben und im Speicher 27
zwischengespeichert werden. Über die Leitung 26 werden
die Signale des Zwischenergebnisses vor dem Wurzelziehen
ausgegeben, die also das Quadrat der einzelnen
Abstände darstellen, und diese Signale werden der Einheit
33 zugeführt, die die Quadratwerte aller Sprachproben
aufsummiert.
Die Signale, die die Abstände d j der einzelnen Sprachproben
darstellen, werden über die Leitung 28 u. a. der Verarbeitungseinheit 29 zugeführt,
in der sie über alle Sprachproben aufsummiert werden und
die Summe durch die Anzahl J der Sprachproben dividiert wird.
Die Anzahl der Sprachproben möge in einem der Übersichtlichkeit
halber nicht dargestellten Speicher gespeichert sein
und wird der Verarbeitungseinheit 29 sowie noch weiteren
Verarbeitungseinheiten zugeführt. Das dabei entstehende
Ergebnis ist der mittlere Abstand aller Sprachproben
vom Schwerpunkt
Dieser mittlere Abstandswert wird in dem Speicher 31
zwischengespeichert.
Der Ausgang der Verarbeitungseinheit 31 führt einmal auf
die Verarbeitungseinheit 37, die das Quadrat des mittleren
Abstands bildet und dieses mit der Anzahl J aller Sprachproben,
deren Wert der Verarbeitungseinheit 35 ebenfalls
zugeführt wird, multipliziert. Das Ergebnis wird einem
Differenzbildner 35 zugeführt und darin von dem in der
Verarbeitungseinheit 33 erzeugten Wert abgezogen. Der Ausgang
des Differenzbildners führt schließlich auf die Verarbeitungseinheit
39, der ebenfalls der Wert der Anzahl J
aller Sprachproben zugeführt wird, und diese Verarbeitungseinheit
39 erzeugt am Ausgang einen Wert für die Standardabweichung
als die Wurzel aus der Varianz σ² nach folgender
Gleichung
Diese Gleichung wird nicht direkt verwendet, sondern es
wird ausgenutzt, daß in dieser Gleichung ein Ausdruck
umgeformt werden kann:
Daraus ergibt sich dann die tatsächliche Berechnung der
Standardabweichung
Der Wert für die Standardabweichung wird dann einem
Addierer 41 zugeführt, der außerdem den Wert für den
mittleren Abstand aus dem Speicher 31 erhält, und
diese Summe wird einem Multiplizierer 45 zur Multiplikation
mit einem in einem Speicher 43 enthaltenen
Faktor zugeführt, und das Ergebnis wird in dem
Speicher 47 abgespeichert. Dieses Ergebnis stellt den
Abstandswert D dar, der also nach folgender Gleichung
bestimmt ist
und der über die Leitung 48 dem Speicher, z. B. dem
Magnetstreifen einer Identitätskarte, zugeführt wird.
Auch diese endgültige Speicherung folgt zweckmäßig
erst nach Abschluß aller Verarbeitungsschritte. Außerdem
werden die Ausgangssignale des Speichers 47 noch
für weitere Verarbeitungsschritte benötigt, wie später
erläutert wird.
Der in dem Speicher 43 gespeicherte Faktor F ist ein
empirisch gefundener Wert, der unter bestimmten Bedingungen
ggf. verändert wird, wie später erläutert wird.
Als nächster Verarbeitungsschritt folgt in Fig. 2 der
Verarbeitungsschritt 209, bei dem Wichtungswerte für
die Wichtungsfaktoren bestimmt werden. Dafür werden in
Fig. 5 aus dem Speicher 7 erneut, wie bereits in Fig. 4
für die Bestimmung des Mittelwertes in der Verarbeitungseinheit
21, nacheinander die Werte x ÿ jeweils eines
Spektralanteils i von sämtlichen Sprachproben j ausgelesen
und der Verarbeitungseinheit 51 zugeführt, wo
diese Werte quadriert werden und die Quadrate jeweils
eines Spektralanteils summiert werden. Die dabei entstehenden
Signale werden einem Differenzbildner 55 zugeführt,
der am anderen Eingang gleichzeitig Signale entsprechend
dem Quadrat des zugehörigen Spektral-Mittelwertes
i , multipliziert mit dem Wert J gleich der Anzahl aller
Sprachproben, aus der Verarbeitungseinheit 53 erhält, die
über die Leitung 24 an den Speicher 23 für die Spektral-
Mittelwerte angeschlossen ist. In dem Differenzbildner
55 werden die Werte aus der Verarbeitungseinheit 53 von
den Werten aus der Verarbeitungseinheit 51 abgezogen, und
das Ergebnis wird einer Verarbeitungseinheit 57 zugeführt,
die daraus die Varianzen s i der einzelnen Spektralanteile
i auf folgende Weise bestimmt
Diese Varianzwerte werden jedoch nicht direkt gespeichert,
sondern zur Verringerung des Wertebereichs zunächst der
Verarbeitungseinheit 59 zugeführt, die daraus Wichtungszahlen
a i auf folgende Weise bestimmt
Dafür werden der Verarbeitungseinheit 59 ebenfalls die
Spektral-Mittelwerte aus dem Speicher 23 sowie ein fester,
empirisch gefundener Wert a min zugeführt. Da der Wert der
Varianz σ i normalerweise nur bei großen Spektral-Mittelwerten
i groß wird, ist der Wertebereich des Bruches
kleiner als der Wertebereich der Varianzen selber. Der
Wert von Δ beträgt eine Einheit des Spektral-Mittelwertes
bzw. ein Quantisierungsschritt und soll einen Überlauf
bei der Berechnung vermeiden, wenn der Spektral-Mittelwert
des betreffenden Spektralbereichs 0 ist, wie insbesondere
bei weiblichen Stimmen und tiefen Frequenzbereichen
vorkommen kann. Das Subtrahieren des Minimalwertes
führt zu einer weiteren Begrenzung des Wertebereiches.
Dies führt bei der späteren Rückrechnung der
Wichtungsfaktoren dazu, daß die maximale Größe eines
Wichtungsfaktors beschränkt wird.
Die Ausgangssignale der Verarbeitungseinheit 59 entsprechend
den Wichtungszahlen a i werden ggf. in einem
nicht dargestellten Zwischenspeicher gespeichert, bevor
sie über die Leitung 58 der endgültigen Speichereinrichtung,
beispielsweise dem Magnetstreifen einer
Identitätskarte, zugeführt werden.
Es folgt nun die Bestimmung der zusätzlich zu speichernden
Sprachproben sowie des Einzel-Abstandswertes, wobei als
nächster Verarbeitungsschritt 211 in dem Flußdiagramm in
Fig. 2 die Sprachproben bestimmt werden, deren Abstand vom
Schwerpunkt größer ist als der Abstandswert. Dafür wird in
Fig. 6 der Ausgang des Speichers 47, der den Abstandswert D
enthält, über die Leitung 48 mit einem Differenzbildner 61
verbunden, dessen anderer, subtrahierender Eingang über die
Leitung 28 mit dem Ausgang des Speichers 27, der die Abstände
aller Sprachproben vom Schwerpunkt enthält, verbunden
ist. Der Ausgang des Differenzbildners 61 ist mit
dem Eingang eines Vergleichers 63 verbunden, der prüft, ob
das Ausgangssignal kleiner oder größer bzw. gleich 0 ist.
Aus dem Speicher 27 wird nun nacheinander der Abstand d j
jeder Sprachprobe ausgelesen, und parallel dazu wird der
Zähler 9 so gesteuert, daß er die entsprechende Spalte von
Wortplätzen im Speicher 7 für diese Sprachprobe adressiert,
und zwar einen zusätzlichen Speicherplatz in dieser Spalte,
und wenn der Komparator einen Differenzwert kleiner 0 meldet,
wird in diesen Speicherplatz ein Zeichen eingeschrieben.
Gleichzeitig ist am Komparator 63 ein Zähler 65 angeschlossen,
der zählt, wieviel Sprachproben weiter vom Schwerpunkt entfernt
sind als der Abstandswert D. Statt dessen kann für die
Markierung, welche Sprachproben außerhalb dieses Abstandswerts-Bereichs
liegen, auch ein zusätzlicher Speicher verwendet werden.
Als nächstes folgt in Fig. 2 der Verarbeitungsschritt 213,
mit dem die Abstände d jk von jeweils zwei Sprachproben j und
k bestimmt werden. Dazu werden in diesem Beispiel die Spektralwerte
des ersten Musters aus dem Speicher 7 ausgelesen und
einem Zwischenspeicher 67 zugeführt. Danach werden die
Spektralwerte der zweiten Sprachprobe ausgelesen und einer
Verarbeitungseinheit 69 zugeführt, und parallel dazu werden
die entsprechenden Spektralwerte aus dem Speicher 67 ausgelesen
und auch der Verarbeitungseinheit 69 zugeführt, die
den paarweisen Abstand d jk der beiden Sprachproben auf
folgende Weise bestimmt
Der Wert dieses Abstandes wird dem Speicher 71 zugeführt
und dort gespeichert. Als nächstes werden die Spektralwerte
der dritten Sprachprobe aus dem Speicher 7 ausgelesen,
während der Inhalt des Speichers 67 unverändert
bleibt, und damit der Abstand zwischen der ersten und der
dritten Sprachprobe bestimmt. Erst wenn die Spektralwerte
der letzten Sprachprobe ausgelesen sind, werden anschließend
die Spektralwerte der zweiten Sprachprobe im Speicher 67
zwischengespeichert und dann die Spektralwerte der dritten
Sprachprobe ausgelesen, usw. Auf diese Weise werden nacheinander
die Abstände aller Sprachproben voneinander im Speicher
71 gespeichert. Die Adressierung dieses Speichers 71 sowohl
beim Einschreiben wie beim Auslesen wird von dem Adressenzähler
73 gesteuert.
Danach folgt in Fig. 2 der Verarbeitungsschritt 215 zum Bestimmen
des Einzel-Abstandswertes. Dafür werden in Fig. 6
aus dem Speicher 71 die paarweisen Abstände der Sprachproben
ausgelesen und der Verarbeitungseinheit 75 zugeführt, wo
diese paarweisen Abstände aufsummiert und daraus der
mittlere paarweise Abstand P bestimmt wird. Dabei werden
jedoch nicht alle paarweisen Abstände aufsummiert, sondern
parallel zu dem Auslesen der Abstände aus dem Speicher 71
wird aus dem Speicher 7 bzw. ggf. aus einem zusätzlichen
Speicher das vom Komparator 63 erzeugte Zeichen ausgelesen
und über die Leitung 74 der Verarbeitungseinheit 75 zugeführt,
so daß nur die paarweisen Abstände von solchen Sprachproben
aufsummiert werden, deren Abstand vom Schwerpunkt
kleiner ist als der Abstandswert D. Dadurch wird also in
der Verarbeitungseinheit 75 ein mittlerer Abstandswert p
auf folgende Weise ermittelt:
wobei J′ die Anzahl J aller Sprachproben, vermindert um
den Zählerstand des Zählers 65 ist. Dieser mittlere Abstand
p wird in dem Speicher 77 zwischengespeichert. Der
an dem Ausgang dieses Speichers zur Verfügung stehende
Wert ist der Einzel-Abstandswert, der über die Leitung 78
beispielsweise dem Magnetstreifen einer Identitätskarte
zugeführt wird.
Wenn der Zählerstand des Zählers 65, d. h. die Anzahl der
Sprachproben mit einem größeren Abstand vom Mittelpunkt
als der Abstandswert, gerade gleich der Anzahl zusätzlich
speicherbarer Sprachproben ist, ist die Verarbeitung beendet.
Der Speicher 7 wird nun nochmals ausgelesen, und
zwar nacheinander die Spektralwerte jeweils einer Sprachprobe,
und diese Werte werden einem Differenzbildner 66
zugeführt, der von diesen Werten die Werte der entsprechenden
Spektral-Mittelwerte, die vom Speicher 23 über
die Leitung 24 die Differenzbildner 66 zugeführt werden,
subtrahiert. Diese Differenz wird über die Leitung 68 dem
Magnetstreifen der Identitätskarte zugeführt, falls gleichzeitig
auf dieser Leitung 74 ein Signal erscheint, das angibt,
daß diese Sprachprobe außerhalb des Abstandswertes
liegt.
Falls der Zählerstand des Zählers 65 jedoch größer ist als
dieser Wert, gibt es mehrere Möglichkeiten. So kann der
Wert des Faktors F in dem Speicher 43 in Fig. 4 vergrößert
werden, so daß der Abstandswert größer wird und damit mehr
Sprachproben innerhalb des Abstandswertes liegen. In diesem
Falle müßten dann die Verarbeitungsschritte 207 bis 215
wiederholt werden. Bei dem hier beschriebenen Beispiel wird
jedoch in gleicher Weise wie für den Fall, daß der Zählerstand
des Zählers 65 kleiner ist als die Anzahl zusätzlicher
Speicherproben, der nach der Abfrage 217, die der Abfrage
des Zählers 65 entspricht, folgende Verarbeitungsschritt 219
durchgeführt. In diesem Verarbeitungsschritt wird für jede
Sprachprobe die Anzahl der Sprachproben gezählt, die von
dieser Sprachprobe weniger als der Einzel-Abstandswert entfernt
sind. Zur Durchführung dieses Verarbeitungsschrittes
werden in Fig. 6 aus dem Speicher 71 die Werte aller der
paarweisen Abstände d jk ausgelesen, bei der jeweils eine
Sprachprobe beteiligt ist, wofür der Zähler 73 entsprechend
gesteuert wird. Diese Werte werden einem Komparator 79
zugeführt, der diese Werte mit dem Einzel-Abstandswert SD
vom Ausgang des Speichers 77 vergleicht und ein Ausgangssignal
erzeugt, wenn der paarweise Abstand größer ist als
dieser Einzel-Abstandswert. Das Ausgangssignal des
Komparators 79 wird als Zählimpuls einem Zähler 81 zugeführt,
der diesen Impuls jedoch nur zählt, wenn er gleichzeitig
aus der Verarbeitungseinheit 83 ein Freigabesignal
erhält.
Die Verarbeitungseinheit 83 erhält das Ausgangssignal des
Differenzbildners 61 sowie den Einzel-Abstandswert, bildet
die Differenz daraus und vergleicht diese mit dem Wert 0.
Die Verarbeitungseinheit 83 erzeugt also dann ein Signal,
wenn die folgende Beziehung erfüllt ist
D-SD-d j < 0
wobei das Auslesen des Speichers 27 entsprechend vom Zähler 73 oder synchron mit diesem gesteuert werden muß. Dadurch werden nur solche Lernproben berücksichtigt, deren Einzel- Abstandswert zumindest teilweise den durch den Abstandswert D und den Schwerpunkt M gebildeten Bereich überschreitet, damit eine Vergrößerung des Erkennungsbereichs erreicht wird.
D-SD-d j < 0
wobei das Auslesen des Speichers 27 entsprechend vom Zähler 73 oder synchron mit diesem gesteuert werden muß. Dadurch werden nur solche Lernproben berücksichtigt, deren Einzel- Abstandswert zumindest teilweise den durch den Abstandswert D und den Schwerpunkt M gebildeten Bereich überschreitet, damit eine Vergrößerung des Erkennungsbereichs erreicht wird.
Wenn die Zählerstellung des Zählers 65 größer als die Zahl
der zusätzlich speicherbaren Sprachmuster ist, kann zur
Einsparung von Verarbeitungszeit der Zähler 81 auch nur für
die Sprachproben freigegeben werden, von denen mindestens
eine außerhalb des Abstandswertes liegt, d. h. bei der auf
der Leitung 74 ein Signal erzeugt wird. Dies kann mit Hilfe
des ODER-Gliedes 66 durchgeführt werden, wenn der Zähler 65
an dem mit dem ODER-Glied 66 verbundenen Ausgang ein Signal
erzeugt, solange der Zählerstand kleiner ist als die Anzahl
zusätzlich speicherbarer Sprachproben.
Wenn aus dem Speicher 71 alle Abstände zu einer Sprachprobe
ausgelesen sind, wird durch ein Signal des Adressenzählers
73 der Zählerstand des Zählers 81 in den Speicher 87 eingeschrieben
und der Zähler 81 unmittelbar danach auf den Anfangswert
zurückgesetzt. In dem Speicher 87 wird also für
jede Sprachprobe j die Anzahl n von Sprachproben gezählt,
die einen geringeren Abstand haben als der Einzel-Abstandswert
SD und die gleichzeitig vom Mittelpunkt M mindestens
einen Abstand D-SD haben.
Es folgt in Fig. 2 nun der Verarbeitungsschritt 221, in dem
die Sprachprobe mit der maximalen Anzahl Nachbarn bestimmt
wird. Dazu werden die Anzahlen n j aus dem Speicher
87 nacheinander ausgelesen und der Verarbeitungseinheit
89 zugeführt, die die jeweils höchste Anzahl und die
Nummer der zugehörigen Sprachprobe speichert. Wenn der
Speicher 87 einmal vollständig ausgelesen ist, wird die
Nummer der zuletzt in der Verarbeitungseinheit 89 gespeicherten
Sprachprobe über die Leitung 88 dem Adressenzähler
9 des Speichers 7 zugeführt und bei der entsprechenden
Sprachprobe ein Zeichen eingeschrieben und der
Zähler 65 um eine Stellung weitergeschaltet. Falls die
Zählerstellung des Zählers 65 vorher größer als die Anzahl
zusätzlich speicherbarer Sprachproben, ist er vorher
auf die Anfangsstellung zurückgesetzt und gleichzeitig im
Speicher 7 die vorher vom Komparator 63 erzeugten Markierungen
gelöscht worden.
Nach jedem vollständigen Durchlaufen des Speichers 87
wird nun die Zählerstellung des Zählers 65 mit der Anzahl
zusätzlich speicherbarer Sprachproben verglichen, wie in
dem Verarbeitungsschritt 223 in Fig. 2 angegeben ist, und
bei Gleichheit wird die Verarbeitung beendet und die bis
dahin im Speicher 7 markierten Sprachproben ausgelesen,
dem Differenzbildner 66 zugeführt und über die Leitung 68
dem endgültigen Speichermedium zugeführt. Falls der Zähler
65 die entsprechende Zählerstellung noch nicht erreicht
hat, wird der Speicher 87 ein weiteres Mal ausgelesen
und die nächstkleinere Anzahl mit der zugehörigen Nummer
der Sprachprobe bestimmt und im Speicher 7 markiert, bis
der Zähler 65 die entsprechende Zählerstellung erreicht
hat. Im Verarbeitungsschritt 225 werden also die
markierten Sprachproben als Differenzwerte und ggf. auch
die bis dahin bestimmten anderen Werte auf den Magnetstreifen
der Identitätskarte gespeichert. Damit sind also
die Referenzdaten gespeichert, und es kann nachfolgend die
Verifizierung vorgenommen werden.
Es sei bemerkt, daß bei der Speicherung der Referenzdaten
auf dem Speichermedium diese Referenzdaten auch in
quantisierter Form gespeichert werden können, wobei zwar
etwas Genauigkeit verlorengeht, jedoch auch Speicherplatz
gespart werden kann.
Die Verarbeitungsschritte beim Verifizieren sind in Fig. 7
dargestellt, und eine zugehörige Anordnung zeigt die Fig. 8.
Zunächst wird im Verarbeitungsschritt 251 der Speicher mit
den Referenzdaten gelesen, beispielsweise der Magnetstreifen
der Identitätskarte des Sprechers, der verifiziert werden
soll, und diese Daten werden in den Speicher 111 übertragen.
Außerdem müssen die Referenzdaten, die nicht in direkter
Form gespeichert sind, zurückberechnet werden. Dies sind die
Differenz-Spektralwerte x ÿ , die in dem Differenzbildner
66 in Fig. 6 am Ausgang 68 erzeugt wurden, sowie die
Wichtungszahlen a i . Dafür werden diese Werte nacheinander
zusammen mit dem zugehörigen Spektral-Mittelwert
i einer Verarbeitungseinheit 113 zugeführt, die daraus
die Spektralwerte x ÿ der zusätzlich gespeicherten Sprachproben
sowie die Wichtungsfaktoren w i auf folgende Weise
bestimmt
Die Werte a min und Δ sind als unveränderliche Werte fest
gespeichert. Die so ermittelten Daten werden in den
Speicher 111 wieder eingeschrieben, zweckmäßig an den
Stellen, an denen die entsprechenden Ausgangswerte von
der Scheckkarte eingeschrieben wurden, um die Größe des
Speichers 111 zu begrenzen.
Nun folgt der Verarbeitungsschritt 253, bei dem von
dem zu verifizierenden Sprecher eine Sprachprobe genommen
wird, die in gleicher Weise wie in Fig. 3 über
das Mikrofon 101 in ein elektrisches Signal umgewandelt
wird, das über den hier nicht dargestellten Verstärker
der Filterbank 103 zugeführt wird. Deren
Ausgänge werden wieder periodisch abgetastet und
die dabei gewonnenen Werte zu einem Langzeitspektrum aufsummiert
und in dem Speicher 105 gespeichert.
Danach folgt der Verarbeitungsschritt 255, in dem die
Spektralwerte des so gewonnenen Langzeitspektrums im
Speicher 105 normiert werden. Dafür werden alle Werte
ausgelesen und der Verarbeitungseinheit 130 zugeführt,
die ebenso aufgebaut ist und so arbeitet, wie in Fig. 3
dargestellt ist. Damit enthält der Speicher 105 die
normierten Spektralwerte x ip der zu verifizierenden
Sprachprobe.
Im folgenden Verarbeitungsschritt 257 wird der Abstand
der zu verifizierenden Sprachprobe vom Schwerpunkt bestimmt.
Dazu werden die Spektralwerte aus dem Speicher
105 ausgelesen, und gleichzeitig werden die entsprechenden
Spektral-Mittelwerte aus dem Speicher 111 ausgelesen, und
beide Werte werden jeweils dem Differenzbildner 115 zugeführt.
Die darin gebildeten Differenzen werden der Verarbeitungseinheit
117 zugeführt, die den tatsächlichen Abstand
RD der zu verifizierenden Sprachprobe von dem in der
Lernphase gewonnenen Schwerpunkt der Lern-Sprachproben auf
folgende Weise bestimmt
Dafür wird der Verarbeitungseinheit 117 gleichzeitig der
entsprechende Wichtungsfaktor w i aus dem Speicher 111
durch entsprechende Steuerung des Adressenzählers 113
zugeführt.
Nach der Bestimmung des tatsächlichen Abstands RD wird
dieser im Verarbeitungsschritt 259 mit dem gespeicherten
Abstandswert D in dem Komparator 119 verglichen. Falls
der tatsächliche Abstand kleiner ist als der Abstandswert,
ist der Sprecher erkannt, und am Ausgang 121 wird
ein Erkannt-Signal erzeugt. Dieses stellt gleichzeitig
den Adressenzähler 113 zurück, da der Verifizierungsvorgang
damit abgeschlossen ist.
Falls jedoch der tatsächliche Abstand größer ist als der
im Speicher 111 gespeicherte Abstandswert D, folgt der
Verarbeitungsschritt 261, bei dem wieder die Spektralwerte
der zu verifizierenden Sprachprobe aus dem Speicher 105 und
gleichzeitig die Spektralwerte der ersten zusätzlich gespeicherten
Sprachprobe aus dem Speicher 111 ausgelesen und
dem Differenzbildner 115 zugeführt werden. Die Verarbeitungseinheit
117 erzeugt dann in entsprechender Weise wie vorher
beschrieben den tatsächlichen Abstand zwischen der zu verifizierenden
Sprachprobe und der ersten zusätzlich gespeicherten
Sprachprobe, und dieser tatsächliche Abstand RD
wird mit dem im Speicher 111 enthaltenen Einzel-Abstandswert
SD verglichen. Falls der tatsächliche Abstand größer ist,
wird wieder am Ausgang 121 ein Erkannt-Signal erzeugt und
der Zähler 113 zurückgesetzt. Anderenfalls wird im Verarbeitungsschritt
265 geprüft, ob noch weitere zusätzlich gespeicherte
Sprachproben vorhanden sind, d. h. ob der
Adressenzähler 113 noch nicht seine maximale Stellung erreicht
hat, und bei Zutreffen dieser Bedingung wird der
Abstand der zu verifizierenden Sprachprobe zu der nächsten
zusätzlich gespeicherten Sprachprobe in beschriebener Weise
bestimmt und mit dem Einzel-Abstandswert verglichen. Falls
dies die letzte Sprachprobe ist, erreicht der Adressenzähler
113 seinen maximalen Zählerstand und gibt dabei an
dem Ausgang 123 ein Rückweisungs-Signal ab. Damit ist dann
der Verifizierungsvorgang erfolglos beendet.
Es sei bemerkt, daß in Fig. 8 ebenso wie in den Fig. 3-6
die übliche Ablaufsteuerung und die Taktsignalquelle nicht
dargestellt sind. Für alle dargestellten Anordnungen gilt,
daß die Verbindungen zwischen einzelnen Verarbeitungseinheiten
bzw. Speichern, auf denen Signale übertragen werden,
die Mehrbit-Datenworte darstellen, zweckmäßig als Leitungsbündel
mit einer Leitung für jedes zu übertragende Bit ausgeführt
werden.
Da die Verarbeitungseinheiten überwiegend nacheinander verwendet
werden, können jeweils ein Teil davon zusammengefaßt
bzw. mehrfach verwendet werden.
Claims (9)
1. Verfahren zum Verifizieren eines Sprechers, bei dem eine
Anzahl Lern-Sprachproben des Sprechers gewonnen und aus jeweils
gleichen Merkmalen jeder Lern-Sprachprobe je ein Merkmalwert
abgeleitet und aus den Merkmalwerten jeweils eines Merkmals
aller Lern-Sprachproben der Mittelwert und aus allen Merkmalwerten
aller Lern-Sprachproben ein Referenz-Abstandswert bestimmt
wird und die Merkmal-Mittelwerte und der Referenz-Abstandswert
gespeichert werden und bei dem aus der zu verifizierenden
Sprachprobe in gleicher Weise wie bei den Lern-Sprachproben
Merkmalwerte abgeleitet und ein Abstandswert für den Abstand
dieser Sprachprobe von dem durch alle Merkmal-Mittelwerte
gegebenen Schwerpunkt aus der Summe der Quadrate der Unterschiede
jedes Merkmalwertes der Sprachprobe zu dem zugehörigen
Merkmal-Mittelwert gebildet wird und ein Erkannt-Signal
erzeugt wird, wenn der Abstandswert höchstens gleich dem
Referenz-Abstandswert ist,
dadurch gekennzeichnet, daß aus den Unterschieden der Merkmalswerte
von jeweils zwei Lern-Sprachproben von mindestens einem
Teil aller Lern-Sprachproben ein Einzel-Abstandswert bestimmt
und gespeichert wird und zusätzlich die Merkmalwerte von
Lern-Sprachproben gespeichert werden, die außerhalb des durch
den Schwerpunkt und den Referenz-Abstandswert gegebenen
Bereichs liegen, und daß zum Verifizieren von einer zu verifizierenden
Sprachprobe, deren Abstandswert größer als der
Referenz-Abstandswert ist, nacheinander der Abstandswert zu
den zusätzlich gespeicherten Lern-Sprachproben bestimmt und
mit dem gespeicherten Einzel-Abstandswert verglichen wird
und ein Erkannt-Signal erzeugt wird, wenn mindestens ein
Abstandswert kleiner als der Einzel-Abstandswert ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die Merkmalwerte von solchen zusätzlichen Lern-Sprachproben innerhalb
des durch den Schwerpunkt und den Abstandswert gegebenen
Bereichs gespeichert werden, in deren durch die betreffende
Lern-Sprachprobe und den Einzel-Abstandswert gegebenen Einzel-
Bereich die größte Zahl weiterer Lern-Sprachproben liegen,
wobei dieser Einzel-Bereich teilweise außerhalb des genannten Bereichs
liegt, und der Abstand der zu verifizierenden Sprachprobe
auch gegenüber diesen Lern-Sprachproben bestimmt und mit
dem Einzel-Abstandswert verglichen wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die Merkmalwerte aller zusätzlich gespeicherten Lern-Sprachproben
als Unterschiedswerte gegenüber den zugehörigen Merkmal-
Mittelwerten gespeichert werden und vor der Verifikation einer
Sprachprobe die Merkmalwerte aus den gespeicherten Werten bestimmt
werden.
4. Verfahren nach Anspruch 1 oder einem der folgenden, dadurch
gekennzeichnet, daß bei der Bestimmung des Einzel-Abstandswertes
aus den Unterschieden der Merkmalwerte jeweils zweier
Lern-Sprachproben nur alle Lern-Sprachproben verwendet werden,
die innerhalb des durch den Schwerpunkt und die Merkmal-Mittelwerte
gegebenen Bereichs liegen.
5. Verfahren nach Anspruch 1 oder einem der folgenden,
dadurch gekennzeichnet, daß die Merkmalwerte jeder Lern-
Sprachprobe und zu verifizierenden Sprachprobe vor der
Verarbeitung mit einem solchen Faktor multipliziert werden,
daß die Summe der auf gleiche Weise von den Merkmalswerten
abgeleiteten Werte einer Sprachprobe einen vorgegebenen Wert
hat.
6. Verfahren nach Anspruch 1 oder einem der folgenden,
dadurch gekennzeichnet, daß für jedes Merkmal ein zugeordneter
Wichtungsfaktor gespeichert wird, und daß bei der Bestimmung
des Abstands der zu verifizierenden Sprachprobe vom Schwerpunkt
bzw. von einer zusätzlich gespeicherten Lern-Sprachprobe
die Summanden vor der Summierung mit dem zugehörigen Wichtungsfaktor
multipliziert werden.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
als Wichtungsfaktor der Kehrwert der Varianz des zugehörigen Merkmals
verwendet wird, wobei die Varianz der Mittelwert der
Quadrate der Unterschiede der zugehörigen Merkmalswerte aller
Lern-Sprachproben von dem Merkmal-Mittelwert ist.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß
vor der Speicherung der Wichtungsfaktoren diese durch einen
vom zugehörigen Merkmal-Mittelwert abgeleiteten Wert dividiert
werden und daß davon nur der einen vorgegebenen Minimalwert
übersteigende Teilwert gespeichert wird, und daß vor der
Verifikation die Wichtungsfaktoren aus den gespeicherten
und den vorgegebenen Werten bestimmt werden.
9. Verfahren nach Anspruch 1 oder einem der folgenden,
dadurch gekennzeichnet, daß die Merkmale die Frequenzkomponenten
des Langzeitspektrums einer Sprachprobe sind.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2844156A DE2844156A1 (de) | 1978-10-10 | 1978-10-10 | Verfahren zum verifizieren eines sprechers |
GB7934689A GB2033637B (en) | 1978-10-10 | 1979-10-05 | Method of verifying a speaker |
US06/083,197 US4292471A (en) | 1978-10-10 | 1979-10-09 | Method of verifying a speaker |
FR7925264A FR2438887A1 (fr) | 1978-10-10 | 1979-10-10 | Procede pour verifier la voix d'un individu |
JP13129579A JPS5564300A (en) | 1978-10-10 | 1979-10-11 | Human identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2844156A DE2844156A1 (de) | 1978-10-10 | 1978-10-10 | Verfahren zum verifizieren eines sprechers |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2844156A1 DE2844156A1 (de) | 1980-04-24 |
DE2844156C2 true DE2844156C2 (de) | 1987-11-26 |
Family
ID=6051857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2844156A Granted DE2844156A1 (de) | 1978-10-10 | 1978-10-10 | Verfahren zum verifizieren eines sprechers |
Country Status (5)
Country | Link |
---|---|
US (1) | US4292471A (de) |
JP (1) | JPS5564300A (de) |
DE (1) | DE2844156A1 (de) |
FR (1) | FR2438887A1 (de) |
GB (1) | GB2033637B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19516106C2 (de) * | 1995-05-05 | 2003-04-03 | Philips Corp Intellectual Pty | Verfahren zum Bestimmen von Referenzwerten |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU7529981A (en) * | 1980-09-19 | 1982-03-25 | Hitachi Limited | Language analysis by pattern recognition |
US4520500A (en) * | 1981-05-07 | 1985-05-28 | Oki Electric Industry Co., Ltd. | Speech recognition system |
JPS5879300A (ja) * | 1981-11-06 | 1983-05-13 | 日本電気株式会社 | パタ−ン距離計算方式 |
US4761807A (en) * | 1982-09-29 | 1988-08-02 | Vmx, Inc. | Electronic audio communications system with voice authentication features |
JPH0617817B2 (ja) * | 1982-10-19 | 1994-03-09 | 財団法人小林理学研究所 | 航空機の機種識別方法 |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
GB2139389A (en) * | 1983-04-29 | 1984-11-07 | Voice Electronic Technology Li | Identification apparatus |
JPS6024597A (ja) * | 1983-07-21 | 1985-02-07 | 日本電気株式会社 | 音声登録方式 |
IT1160148B (it) * | 1983-12-19 | 1987-03-04 | Cselt Centro Studi Lab Telecom | Dispositivo per la verifica del parlatore |
WO1987000332A1 (en) * | 1985-07-01 | 1987-01-15 | Ecco Industries, Inc. | Speaker verification system |
JPH0795240B2 (ja) * | 1986-12-19 | 1995-10-11 | 株式会社日立製作所 | 個人音声パタ−ン入りカ−ドシステム |
US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
GB8809898D0 (en) * | 1988-04-27 | 1988-06-02 | British Telecomm | Voice-operated service |
CA2063723A1 (en) * | 1989-07-28 | 1991-01-29 | Stephen J. Guerreri | Method and apparatus for language and speaker recognition |
JPH03128945U (de) * | 1990-04-10 | 1991-12-25 | ||
US5265191A (en) * | 1991-09-17 | 1993-11-23 | At&T Bell Laboratories | Technique for voice-based security systems |
US5717743A (en) * | 1992-12-16 | 1998-02-10 | Texas Instruments Incorporated | Transparent telephone access system using voice authorization |
DE69425166T2 (de) * | 1993-02-26 | 2001-03-15 | Canon K.K., Tokio/Tokyo | Verfahren und Gerät zur Mustererkennung |
US5537488A (en) * | 1993-09-16 | 1996-07-16 | Massachusetts Institute Of Technology | Pattern recognition system with statistical classification |
US6078807A (en) * | 1997-08-26 | 2000-06-20 | International Business Machines Corporation | Telephony fraud detection using voice recognition techniques |
US6185536B1 (en) * | 1998-03-04 | 2001-02-06 | Motorola, Inc. | System and method for establishing a communication link using user-specific voice data parameters as a user discriminator |
JP3699608B2 (ja) * | 1999-04-01 | 2005-09-28 | 富士通株式会社 | 話者照合装置及び方法 |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7788101B2 (en) * | 2005-10-31 | 2010-08-31 | Hitachi, Ltd. | Adaptation method for inter-person biometrics variability |
US8914285B2 (en) * | 2012-07-17 | 2014-12-16 | Nice-Systems Ltd | Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative |
US10313656B2 (en) | 2014-09-22 | 2019-06-04 | Samsung Electronics Company Ltd. | Image stitching for three-dimensional video |
GB201801875D0 (en) * | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Audio processing |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3582559A (en) * | 1969-04-21 | 1971-06-01 | Scope Inc | Method and apparatus for interpretation of time-varying signals |
JPS50155105A (de) * | 1974-06-04 | 1975-12-15 | ||
JPS5224010A (en) * | 1975-08-09 | 1977-02-23 | Fuji Xerox Co Ltd | Individual person recognition system using speech frequency spectrum c entroid locus |
US4053710A (en) * | 1976-03-01 | 1977-10-11 | Ncr Corporation | Automatic speaker verification systems employing moment invariants |
DE2720666C2 (de) * | 1977-05-07 | 1987-01-29 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und Anordnung zur Geräuschanalyse |
-
1978
- 1978-10-10 DE DE2844156A patent/DE2844156A1/de active Granted
-
1979
- 1979-10-05 GB GB7934689A patent/GB2033637B/en not_active Expired
- 1979-10-09 US US06/083,197 patent/US4292471A/en not_active Expired - Lifetime
- 1979-10-10 FR FR7925264A patent/FR2438887A1/fr active Granted
- 1979-10-11 JP JP13129579A patent/JPS5564300A/ja active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19516106C2 (de) * | 1995-05-05 | 2003-04-03 | Philips Corp Intellectual Pty | Verfahren zum Bestimmen von Referenzwerten |
Also Published As
Publication number | Publication date |
---|---|
GB2033637A (en) | 1980-05-21 |
FR2438887A1 (fr) | 1980-05-09 |
JPS5564300A (en) | 1980-05-14 |
JPS6226039B2 (de) | 1987-06-05 |
DE2844156A1 (de) | 1980-04-24 |
GB2033637B (en) | 1983-01-19 |
US4292471A (en) | 1981-09-29 |
FR2438887B1 (de) | 1984-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2844156C2 (de) | ||
DE60208223T2 (de) | Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells | |
DE69800009T2 (de) | Verfahren und Gerät zur Überprüfung statischer Unterschriften mittels dynamischer Information | |
DE69332692T2 (de) | Verfahren und Vorrichtung zur Artikelklassifizierung | |
DE69031189T2 (de) | Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte | |
EP0560023B1 (de) | Einrichtung zur Klassifizierung eines Musters, insbesondere von einer Banknote oder von einer Münze | |
DE69230031T2 (de) | Mustererkennung und -echtheitsprüfung, insbesondere für handgeschriebene Unterschriften | |
DE3306730C2 (de) | ||
DE3878852T2 (de) | Spracherkennung. | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
DE69720564T2 (de) | Verfahren, Gerät und Computerprogrammprodukt zur Erzeugung von einem Klassifikationsbaum | |
DE2708569A1 (de) | System zur identitaetspruefung einer person | |
DE2847367A1 (de) | Zeichenerkennungsvorrichtung | |
EP0821346A2 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE2347738A1 (de) | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben | |
DE69224253T2 (de) | Sprachkodiergerät | |
DE4031638C2 (de) | ||
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
WO1982001778A1 (en) | Method and device for the marking and/or identification of a data medium | |
DE3733391C2 (de) | ||
DE102008041944A1 (de) | Datenverarbeitungsverfahren zur Generierung eines Klassifikators und zur Überprüfung der Echtheit eines Dokuments, Vorrichtung zur Überprüfung der Echtheit eines Dokuments und Computerprogrammprodukt |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8125 | Change of the main classification |
Ipc: G10L 7/08 |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |