DE69324988T2

DE69324988T2 - Überprüfung des Sprechers

Info

Publication number: DE69324988T2
Application number: DE69324988T
Authority: DE
Inventors: Biing-Hwang Juang; Chin-Hui Lee; Aaron Edward Rosenberg; Frank Kao-Ping Soong
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1992-10-09
Filing date: 1993-09-30
Publication date: 1999-09-30
Anticipated expiration: 2013-10-01
Also published as: DE69324988D1; EP0592150A1; CA2105034C; ES2133365T3; US5675704A; CA2105034A1; EP0592150B1; JPH06242793A

Description

Erfindungsgebiet

Die Erfindung betrifft Sprachverarbeitung im allgemeinen und insbesondere das Gebiet der Sprecherüberprüfung.

Stand der Technik

Telefonkredit- oder Anruf karten sind zwar praktisch, können aber von möglichen unberechtigten Benutzern kompromittiert werden. Betrügerische Benutzung solcher Karten ist in der Tat zu einem ernsthaften Problem geworden. Zur Bekämpfung einer derartigen betrügerischen Verwendung kann in einem Telekommunikationssystem ein automatisches Sprecherüberprüfungssystem eingesetzt werden. Ein Sprecherüberprüfungssystem erkennt eine Einzelperson durch Überprüfung eines von der Einzelperson erhobenen Identitätsanspruchs durch Auswertung von gesprochenen Lautäußerungen. Im Zusammenhang mit einem Telekommunikationssystem kann Sprecherüberprüfung zur Überprüfung der Identität eines Anrufers eingesetzt werden, der eine Kredit- oder Anrufkarte mit einem Anruf belastet. Im allgemeinen funktioniert ein Sprecherüberprüfungssystem durch Vergleichen von ausgeblendeten Merkmalen einer Lautäußerung, die von einer Einzelperson empfangen wurde, die auf eine gewisse Identität mit einem oder mehreren Prototypen von Sprache auf Grundlage von (oder "trainiert" durch) von der identifizierten Person bereitgestellten Lautäußerungen Anspruch erhebt. Ein derartiges System ist aus GB-A-248 513 bekannt.
Ein häufig bei der Sprecherüberprüfung im Zusammenhang mit Telekommunikation angetroffenes Problem besteht darin, daß eine Person, die ein Überprüfungssystem trainiert hat, bei Durchführung eines Überprüfungsversuchs nicht immer "gleich klingt". Zeitliche Veränderungen des "Tons" einer Person können beispielsweise durch Veränderungen der Eigenschaften des die Sprachsignale der Person führenden Telekommunikationskanals verursacht sein. Diese Veränderungen können durch nichts weiteres als die Verwendung unterschied licher Fernsprecher für den Trainiervorgang und den Überprüfungsversuch verursacht sein. Natürlich verschlechtern derartige Veränderungen die Leistung des Überprüfungssystems. Aufgrund der Empfindlichkeit für sich ändernde Kanaleigenschaften oder sogar die Lautstärke eines Sprechers kann sich die Leistung des Überprüfungssystems auf unannehmbare Niveaus verschlechtern.

Zusammenfassung der Erfindung

Die Erfindung entspricht dem Anspruch 1.
Automatische Sprachverarbeitung kann dazu benutzt werden, einen Teilnehmer eines Telekommunikationssystems mit einer Anzahl verbesserter Funktionalitäten einschließlich einer Sprecherüberprüfungsfunktion auszustatten. Eine Ausführungsform der vorliegenden Erfindung stellt eine Telekommunikationssystemplattform für unter anderem die Überprüfung der Identität eines Teilnehmers auf Grundlage einer Auswertung von Lauatäußerungen der Teilnehmersprache bereit. Die Plattform erlaubt einem Anrufer, über beispielsweise eine zugehörige Fernsprechstellentastatur auf die Identität eines Teilnehmers Anspruch zu erheben. Die Plattform überprüft dann, daß die Identität des Anrufers die des identifizierten Teilnehmers ist.
Die beispielhafte Plattform erzielt Sprecherüberprüfung durch Verwendung von kohortennormierter Bewertung mit Hidden-Markow-Modellen. Eine Kohorte ist eine Menge von Teilnehmern, deren Hidden-Markow-Modelle beispielsweise den Hidden-Markow-Modellen des Teilnehmers, auf dessen Identität Anspruch erhoben wird, ähnlich sind. Erfindungsgemäß wird eine von einem Anrufer gelieferte Lautäußerung, die angeblich von einem Teilnehmer gesprochen wird, auf den Anspruch erhoben wird, gegen von diesem Teilnehmer trainierte Hidden- Markow-Modelle und von jedem Mitglied der Kohorte trainierte Modelle bewertet. Es wird eine Statistik der Kohortenbewertungsziffern gebildet. Die Bewertungsziffer des Sprechers wird durch Bildung eines Verhältnis ses der Bewertungsziffer für den angeblichen Sprecher und der Statistik der Kohortenbewertungsziffern (bzw. durch Bildung einer Differenz ihrer Logarithmen) normiert. Diese Normierung stellt einen dynamischen Schwellwert bereit, durch den die Überprüfungsbewertung robuster gegenüber Schwankungen des Trainings und der Überprüfungslautäußerungen wird, die beispielsweise durch Veränderungen der Kommunikationskanaleigenschaften oder der Sprecherlautstärke verursacht werden.

Kurze Beschreibung der Zeichnung

In den Figuren sind:
Fig. 1 ein Blockschaltbild eines Kommunikationssystems, in dem die Grundsätze der Erfindung ausgeübt werden können;
Fig. 2 eine beispielhafte Darstellung der Verkettung von bestimmten Teilnehmerdatensätzen miteinander;
Fig. 3 ein Flußdiagrarnm der Funktionsweise einer Teilnehmeridentifikationseinheit und einer Anruferidentifikationseinheit betreffs der Auswertung von Lautäußerungen für Sprecherüberprüfungszwecke;
Fig. 4a-d ein Flußdiagramm der Funktionsweise eines Sprachüberprüfungssystems betreffs der Trainierung von Hidden-Markow-Modellen und der Auswahl einer Kohorte für einen Sprecher;
Fig. 5 ein Flußdiagramm der Funktionsweise des Spracheüberprüfungssystems betreffs der Sprecherüberprüfung unter Verwendung von Kohorten;
Fig. 6-8 ein Flußdiagramm eines Programms, das die Erfindung in dem System der Fig. 1 implementiert;
Fig. 9 die Art und Weise, auf die Fig. 6-8 in Bezug auf einander angeordnet werden sollten;
Fig. 10 eine Aufstellung eines Teilnehmerdatensatzes, der in der Bezugsdatenbasis der Fig. 1 gespeichert ist;
Fig. 11 die Struktur der Kundenprofildatenbank der Fig. 1;
Fig. 12 und 13 ein Blockschaltbild einer alternativen Ausführungsform des Kommunikationssystems der Fig. 1;
Fig. 14 eine Darstellung der Art und Weise, auf die Fig. 12 und 13 in Bezug auf einander angeordnet werden sollten;
Fig. 15 eine Darstellung der Art und Weise, auf die Fig. 4a-d in Bezug auf einander angeordnet werden sollten.

Ausführliche Beschreibung

Das in Fig. 1 gezeigte sprachgeleitete Kommunikationssystem (VDCS - Voice Directed Communications System) 100 enthält eine Anzahl von Funktionalitäten, die miteinander zusammenarbeiten, um unter anderem einen Anrufer aus den Sprachsignalen des Anrufers zu erkennen, die über den Kommunikationsweg 11 oder 12 empfangen wurden. Eine derartige Erkennung beruht auf dem Vergleichen von Merkmalen von empfangenen Sprachsignalen mit einem Modell für diese Signale, das ursprünglich zur Zeit, als der Anrufer die Funktionalitäten (bzw. Dienste) von VDCS 100 bestellte, aufgebaut wurde.
Insbesondere kann ein Telefonbenutzer, z. B. der mit der Stelle 51 verbundene Benutzer, die von VDCS 100 angebotenen Dienste bestellen, indem er eine vorbestimmte Bestellungs-Telefonnummer, z. B. 1-800-826-5555 anwählt. Wenn der Benutzer die letzte Ziffer wählt, die diese Nummer bildet, dann assoziiert das Vermittlungsamt CO 225 die gewählte Nummer mit dem öffentlichen Kommunikationsnetz 200 und leitet den Ruf durch dieses über den Weg 226 weiter. Damit sendet das CO 225 die gewählte (angerufene) Fernsprechnummer und auch die rufende Fernsprechnummer zum Netz 200. Das Netz 200, das beispielsweise das öffentliche Wählnetz von AT & T sein kann, leitet die Rufverbindung auf herkömmliche Weise zu einer (nicht gezeigten) Zielvermittlung des Netzes 200 weiter, die mit dem VDCS 100 verbunden ist. Die Zielvermittlung des Netzes 200 wiederum leitet den Ruf über eine ausgewählte der Leitungen 1 : 1 und 12, die mit der Vermittlung 10 des VDCS 100 verbunden sind, weiter. Die Zielvermittlung liefert dann die rufenden und gerufenen Fernsprechnummern über die ausgewählte Leitung zur Vermittlung 10.
Als Reaktion auf den ankommenden Ruf sendet die Vermittlung 10 eine Nachricht, die unter anderem die rufenden und gerufenen Fernsprechnummern und Kennzeichnung der ausgewählten Leitung enthält, über den Bus 6 zum Hostprozessor 5. In einer beispielhaften Ausführungsform der Erfindung kann der Postprozessor 5 und die Vermittlung 10 beispielsweise der von AT & T erhältliche Prozessor StarServer FT bzw. die von Summa Four erhältliche Vermittlung Modell SDS 1000 sein.
Als Reaktion auf die Nachricht von der Vermittlung 10 mit der zugehörigen Bestellungs- Telefonnummer weist der Hostprozessor 5 die Vermittlung 10 über den Bus 6 an, eine Verbindung zwischen der Verbindung des ankommenden Rufs und einer von mehreren Bedienerstellen 15 herzustellen, von denen eine in der Figur dargestellt ist. Zu diesem Zeitpunkt kann der Bediener 15 mit dem Anrufer der Stelle 51 verkehren, um von dem Anrufer Informationen bezüglich der Gebührenabrechnung und Bearbeitung von Rufen, die der Anruf er bzw. "neue Teilnehmer" in der Folge über das System 100 tätigen wird, zu erfassen. Zu diesen Informationen kann beispielsweise der Name, die Adresse, das Gebührenabrechnungskonto usw. des Anrufers gehören. Infolge einer solchen Kommunikation wird dem Anrufer ein Kontocode mit einer vorbestimmten. Anzahl von Ziffern zugewiesen, von denen einige, z. B. die ersten sieben Ziffern, vom Anrufer ausgewählt werden können. Die übrigen Ziffern des Kontocodes werden vom System 100 ausgewählt und werden als sogenannte "Prüf-"Ziffern benutzt.
Der Kontocode des neuen Teilnehmers kann ein Code sein, der bereits einem anderen Teilnehmer zugewiesen worden ist. In diesem Fall veranlaßt der Hostprozessor 5, daß diese Tatsache auf dem Endgerät 15 angezeigt wird. Das heißt, das Endgerät 15 zeigt auf seiner Anzeige das Dienstprofil bzw. den Datensatz an, der mit einem - bestimmten der anderen Teilnehmer verbunden ist, die sich denselben Kontocode mit dem neuen Teilnehmer teilen. Zu diesem Zeitpunkt kann der Bediener den letzteren Dienstdatensatz ändern, so daß er (a) anzeigt, daß der zugehörige Kontocode mit dem neuen Teilnehmer geteilt wird, (b) auf den Dienstdatensatz des neuen Teilnehmers zeigt und (c) die Identität des neuen Teilnehmers enthält. Der Datensatz des neuen Teilnehmers wird ähnlicherweise angeordnet, so daß er auf den letzteren Dienstdatensatz zeigt. Die Fig. 2 zeigt ein Beispiel einer derartigen Verkettung.
Kurz dargestellt wird eine Kette von Dienstdatensätzen miteinander verkettet, indem in jedem derartigen Datensatz die Adresse des nächsten Datensatzes in der Kette und die Adresse des vorhergehenden Datensatzes in der Kette gespeichert wird. So enthält jeder der Datensätze 61-2 bis 61-N die Adresse, z. B. Zeiger 62-2 des nächsten Datensatzes in der Kette und, abgesehen von dem Kopfdatensatz 61-1, die Adresse, z. B. den Zeiger 63-2 des vorhergehenden Datensatzes der Kette. Die Art und Weise, auf die das System 100 einen Anrufer identifiziert, der einen Kontocode mit einem oder mehreren anderen Teilnehmern teilt, wird unten besprochen.
Als weiteres Ergebnis einer solchen Kommunikation kann der neue Teilnehmer eine Anzahl von sprachidentifizierten Anrufetiketten definieren und die Etikette mit entsprechenden Telefonnummern assoziieren. Beispielsweise kann der Teilnehmer das Etikett (a) " zu Hause anrufen" mit der Heimtelefonnummer des Teilnehmers, (b) "Büro anrufen" mit der Arbeits- bzw. Bürotelefonnummer des Teilnehmers, (c) "Vati anrufen" mit der Telefonnummer des Vaters des Teilnehmers usw. assoziieren. Danach muß der Teilnehmer, wie noch unten erläutert wird, wenn er für den Zweck, einen bestimmten Ort, z. B. "zu Hause", anzurufen, das System 100 anruft, als Reaktion auf eine bestimmte Anforderung des Systems 100 nur "zu Hause anrufen" sagen. Als Reaktion darauf assoziiert das System 100 die gesprochene Kennung "zu Hause anrufen" mit der Heimtelefonnummer des Teilnehmers und leitet dann eine abgehende Telefonverbindung dahin über Vermittlung 10 und Netz 200 ein. Das System 100 veranlaßt dann die Vermittlung 10, die abgehende Verbindung mit dem ankommenden Ruf des Teilnehmers zusammenzuschalten.
Auch kann der neue Teilnehmer bestimmte Telefonnummern mit entsprechenden Gebührenabrechnungskonten assoziieren. Beispielsweise kann der neue Teilnehmer angeben, daß alle Telefonanrufe, die vom neuen Teilnehmer über das System 100 zu seinem Büro eingeleitet werden, einem bestimmten Gebührenabrechnungskonto, beispielsweise einem Kreditkartenkonto, zur Last gerechnet werden. Als weiteres Beispiel kann der Teilnehmer angaben, daß alle Telefonanrufe, die der neue Teilnehmer über das System 100 zu einem Geschäftskollegen einleitet, einem anderen Konto, z. B. einer Geschäftstelefonnummer, zu Last gerechnet werden. Auch kann der neue Teilnehmer ein Vorgabe-Gebührenabrechnungskonto für alle anderen Anrufe, die der Teilnehmer über das System 100 einleitet, angeben, wobei das Vorgabe- Gebührenabrechnungskonto die Dienstnummer oder die Heimtelefonnummer des Systems 100 des neuen Teilnehmers sein kann.
Der neue Teilnehmer kann auch durch Sprache identifizierte Gebührenabrechnungsetikette angeben, die mit einer bestimmten Telefonnummer (n) verbunden sein können oder nicht, aber die der Teilnehmer zum Übersteuern von Vorgabe- bzw. vordefinierter Gebührenabrechnung benutzen kann. Insbesondere kann ein solches Gebührenabrechnungsetikett beispielsweise der Name eines Kreditkartendienstes wie beispielsweise VISA, ein Anrufkartendienst wie beispielsweise AT & T oder eine bestimmte Telefonnummer sein. Man nehme beispielsweise an, daß der Teilnehmer Gebührenabrechnung von Büroanrufen an eine AT & T-Anrufkontennummer gebunden hat und VISA als ein Gebührenabrechnungsetikett angegeben hat. Danach kann der Teilnehmer einen Telefonanruf zu seinem Büro einleiten und wenn gewünscht die vordefinierte AT & T-Anrufkartengebührenabrechnung für den Anruf übersteuern, indem er nach Eingabe der Bürotelefonnummer des Teilnehmers "VISA belasten" sagt. Insbesondere kann der Teilnehmer, wenn er ein Anrufetikett für die Bürotelefonnummer angegeben hat, einen Anruf zu seinem Bürotelefon einleiten, indem er "Büro anrufen" sagt. Danach pausiert der Teilnehmer für eine vorbestimmte Zeitdauer, z. B. mindestens eine Sekunde, um das Anrufetikett von dem Gebührenabrechnungsetikett zu trennen. Nach Ende einer Sekunde kann der Teilnehmer dann "VISA belasten" sagen, um die vordefinierte Gebührenabrechnung für den Büroanruf zu übersteuern.
Als Reaktion darauf (a) setzt das System 100 die Kennung "Büro anrufen" in die Bürotelefonnummer des Teilnehmers um, (b) leitet eine abgehende Verbindung zu dieser Nummer über Vermittlung 10 und Netz 200 ein und (c) verbindet den Ruf des Teilnehmers mit der abgehenden Verbindung. Ähnlicherweise assoziiert das System 100 infolge der Pause die Kennung "VISA belasten" mit einer Gebührenabrechnungsfunktion und übersteuert die vorher für den Anruf angegebene vordefinierte bzw. Vorgabe-Gebührenabrechnung. Der Anruf wird dementsprechend vom System 100 dem VISA- Konto des Teilnehmers zur Last gerechnet.
In allen außer einigen wenigen Fällen kann die oben erwähnte Pause durch Einsetzen von sprecherunabhängiger "Worterkennung" für die Worte "anrufen", (bzw. "anwählen") und "belasten" (bzw. berechnen) eliminiert werden. Wenn demnach das System. 100 das gesprochene Wort "anrufen" ("anwählen") erkennt, klassifiziert es dieses Wort und die nachfolgenden Sprachsignale als ein Anrufetikett. Wenn das System 100 dann das gesprochene Wort "belasten" ("berechnen") erkennt, klassifiziert es dieses Wort und die folgenden Sprachsignale wie hoch unten zu besprechen als übersteuerndes Gebührenabrechnungsetikett.
Der neue Teilnehmer kann einen bestimmten Zielwahlcode mit einer Telefonnummer assoziieren. Beispielsweise wird ein Zielwahlcode durch einen vorbestimmten Suffix, z. B. das Pfundzeichen (#) abgeschlossen. Beispielsweise kann der neue Teilnehmer 1# und 2# als die Zielwahlcode für entsprechendes Telefonnummern, z. B. 1-800-555-1212 bzw. 1-908-555-1212 angeben.
Wenn der Bediener die Bestellungsinformationen des neuen Teilnehmers einschließlich der oben erwähnten Etikette (sofern vorhanden) eingesammelt und im Endgerät 15 eingegeben hat, (Fig. 1), liefert der Bediener dann die eingegebenen Informationen zur Steuerung 25 zur Abgabe an die Steuerung 55 über das Ortsnetz (LAN - Local Area Network) 30. In der beispielhaften Ausführungsform der Erfindung kann das LAN 30 beispielsweise das wohlbekannte Ethernet-Netz sein.
Die Steuerung 25 bildet insbesondere die Bestellungsinformationen in eine, an die Steuerung 55 adressierte Nachricht und überträgt die Nachricht über das LAN 30. Die Steuerung 55 wiederum entfernt die Nachricht aus dem LAN 30 und bildet deren Inhalt in ein mit dem neuen Teilnehmer verbundenes Bestellungsprofil (bzw. Datensatz) und speichert das Profil in der Kundenprofildatenbank 60 auf unten besprochene Weise (wenn der Kontocode des neuen Teilnehmers ein geteilter Code ist, dann "verkettet" die Steuerung 55 effektiv den Profildatensatz des neuen Teilnehmers mit dem Profildatensatz, der mit dem Teilnehmer verbunden ist, der den Kontocode mit dem neuen Teilnehmer teilt). Zu diesem Zeitpunkt im Bestellungsprozeß werden Kontocode, verschiedene Etikette, assoziierte Telefonnummern, Zielwahlcode usw. des neuen Teilnehmers als ASCII-Text in der Datenbank 60 gespeichert.
Als letzter Schritt im Bestellungsvorgang weist der Bediener den neuen Teilnehmer an, wie er bestimmte Sprachlautäußerungen registrieren muß, die den Kontocode und auch die obenerwähnten Etikette kennzeichnen, so daß die Registrierung danach zur Überprüfung der Identität und von mündlichen Anforderungen des neuen Teilnehmers benutzt werden kann. Der Bediener sendet dahingehend über das Endgerät 15 und das LAN 30 eine Anforderung zum Aufrufen einer Sprachregistrierungssitzung zum Host 5, wobei die Anforderung den Kontocode und die Etikette des Teilnehmers enthält. Als Reaktion darauf veranlaßt der Host 5, daß die Vermittlung 10 die Bestellungskennzeichnungseinheit (SIU - Subscription Identification Unit) 21 auf die Verbindung der Vermittlung 10 zwischen der ankommenden Rufverbindung des Teilnehmers und dem Bedienerendgerät 15 aufschaltet, um für den neuen Teilnehmer einen Registrierungsvorgang durchzuführen. Darüber hinaus führt der Host 5 den Kontocode und die Etikette des neuen Teilnehmers über das LAN 30 der SIU 21 zu.
Die SIU 21 enthält insbesondere unter anderem eine Anzahl von digitalen Signalprozessoren wie beispielsweise den DSP 32 von AT & T, die eine Anzahl von verschiedenen Sprachverarbeitungsfunktionen mit, unter anderem, automatischer Spracherkennung und Text-Sprach- Verarbeitung zur Erzeugung von Sprachaufforderungen und mündlichen Nachbildungen der Etikette des neuen Teilnehmers durchzuführen. Insbesondere führt die automatische Spracherkennungsfunktion verbundene Ziffernerkennung und eine Auswertung von Lautäußerungen des Teilnehmers durch, die unter Verwendung von in der Spracherkennungstechnik wohlbekannten Verfahren Merkmalsvektoren von Autokorrelationskoeffizienten liefert.
Hinsichtlich der Auswertung von Lautäußerungen durch einen neuen Teilnehmer arbeitet die SIU 21 entsprechend dem in Fig. 3 dargestellten Flußdiagramm. Wie bei Schritt 600 der Fig. 3 gezeigt fordert die SIU 21 den neuen Teilnehmer auf, eine von einer vorbestimmten Anzahl von Ziffernketten (z. B. elf Ketten, die eine nach der anderen angesagt werden) zu sagen, die eine vorbestimmte Anzahl von Ziffern, z. B. fünf Ziffern umfassen. Beispielsweise fordert die SIU 21 den neuen Teilnehmer auf, die Ziffernkette 0,1,0,1,2 zu sagen. Wenn der neue Teilnehmer mit dem Sagen der vollständigen Kette antwortet, sammelt die SIU 21 die Lautäußerungen des neuen Teilnehmers zur Weiterverarbeitung ein.
Wie in Schritt 603 der Fig. 3 gezeigt führt die SIU 21 eine Formatwandlung der Ketten-Lautäußerung des neuen Teilnehmers von 8-Bit-impulscodemodulieren (PCM-)Digitalabtastwerten nach u-Kennlinie (dem aus dem öffentlichen Kommunikationsnetz 200 bereitgestellt en Digitalformat einer Lautäußerung des Teilnehmers) in ein Signal von linearen 16-Bit-PCM-Digitalabtastwerten durch. Danach hebt die SIU 21 wie bei Schritt 605 gezeigt das Digitalsignal durch Implementieren eines in der Technik wohlbekannten Differenzfilters erster Ordnung an.
Dann werden wie bei Schritt 610 gezeigt durch die SIU 21 Zeitscheiben des angehobenen Signals kennzeichnende Merkmalsvektoren gebildet. Die Zeitscheiben werden durch ein 45-Millisekunden-(ms)Hamming-Fenster bereitgestellt, das alle 15 ms verschoben wird (so überlappt eine gegebene 45-ms-Zeitscheiben benachbarte Zeitscheiben um 30 ms). Jede Zeitscheibe bildet die Grundlage eines Vektors von Autokorrelationskoeffizienten 10. Ordnung, die die Zeitscheibe darstellen. Dieser Vektor wird als Merkmalsvektor bezeichnet. Die durch die SIU 21 durchgeführte Merkmalsauswertung ist in der Technik wohlbekannt und wird ausführlicher durch C.-H. Lee et al., Acoustic Modeling for Large Vocabulary Speech Recognition [Akustische Modellierung für Spracherkennung eines großen Vokabulars], 4 Computer Speech and Language 127-65 (1990) beschrieben, die hiermit durch Bezugnahme als ob vollständig hier aufgeführt aufgenommen wird.
Danach segmentiert die SIU 21 wie bei Schritt 615 gezeigt die Merkmalsvektoren in Mengen von Vektoren, die die entsprechenden Ziffern der Lautäußerung darstellen. Segmentierung der Lautäußerungen des Teilnehmers in Ziffern wird unter Verwendung von sprecherunabhängiger Erkennung von Ziffern- und Nicht-Sprach- Signalen durchgeführt, die in der Technik wohlbekannt ist.
Die SIU 21 gibt die sich ergebenden segmentierten Autokorrelationskoeffizienten-Merkmalsvektoren, die ASCII-Darstellung der entsprechenden Ziffernkette und den Kontocode des Teilnehmers zur Signalweiterverarbeitung an die Steuerung 45 weiter, wie noch unten erläutert wird (siehe Schritt 620). Wie bei Schritt 625 gezeigt wird der obige Vorgang für jede des Rests der bei Schritt 600 aufgeforderten Kettenlautäußerungen wiederholt.
Zusätzlich zur Bereitstellung einer Grundlage zur Bewirkung von Sprecherüberprüfung wird zu dem Registrierungsverfahren auch eine Auswertung von Lautäußerungen zur Bereitstellung einer Grundlage für die Erkennung von Teilnehmeretiketten. Man nehme beispielsweise an, daß der neue Teilnehmer (a) "zu Hause anrufen" und "Büro anrufen" als Anrufetikette und (b) "VISA belasten" als übersteuerndes Gebührenabrechnungsetikett angegeben hat. Die SIU 21 registriert die Sprachdarstellung dieser Etikette durch den neuen Teilnehmer, indem sie das ASCII-Äquivalent (die Textversion) des ersten Anrufetiketts ("zu Hause anrufen") durch einen Text-Sprach-Prozessor durchführt und das Ergebnis zusammen mit einer Anforderung, das Etikett mündlich zu wiederholen, an den Teilnehmer überträgt. Auf die Lautäußerung dieses Etiketts durch den Teilnehmer reagierend segmentiert die SIU 21 die Sprachsignale des Teilnehmers in eine Reihe von Teilwort-Einheitsphoneme, die das interne Etikett kennzeichnen und assoziiert jedes derartige Teilwort- Einheitsphonem mit einem bestimmten Indexwert und bildet dadurch eine Reihe von Indizen bzw. Nummern. So wird eine bestimmte Lautäußerung eines Etiketts als eine Reihe von Indizen modelliert und im Speicher gespeichert. Danach kann die bestimmte Lautäußerung durch Erzeugen einer solchen Reihe von Teilwortindizen für die Lautäußerung - und Vergleichen der erzeugten Reihe mit jeder vorher gespeicherten Reihe von Indizen, die entsprechende Etikette kennzeichnen, gedeutet werden. Die gespeicherte Reihe, die mit der erzeugten Reihe vergleichbar ist, zeigt dann auf die durch die Lautäußerung gekennzeichnete Telefonnummer oder das Gebührenabrechnungskonto. Die 5113 21 gibt dann die sich ergebenden ASCII-Indizen, die entsprechende ASCII- Darstellung des Sprachetiketts und des Kontocodes des Teilnehmers über das LAN 30 an die Steuerung 45 weiter. Danach wiederholt die SIU 21 den obigen Vorgang für jedes der anderen Etikette des Teilnehmers.
Zu diesem Zeitpunkt hat die SIU 21 im wesentlichen ihren Teil im Registrierungsvorgang beendet. Ehe sie jedoch die Kontrolle des Telefonanrufs des Teilnehmers wieder dem Bediener 15 übergibt, wartet die SIU 21 auf eine Bestätigungsnachricht von der Steuerung 45, die anzeigt, daß Sprachüberprüfungsmodelle und Merkmalsvektoren der Sprachlautäußerungen des Teilnehmers in der Datenbank 50 gespeichert worden sind.
Die Steuerung 45 insbesondere gibt bei Empfang der ASCII-Darstellung der letzten Kette von Ziffern und resultierenden Merkmalsvektoren von Autokorrelationskoeffizienten diese Merkmalsvektoren und ihre entsprechenden Ziffernketten zum Sprachüberprüfungssystem (SVS - Speech Verification System) 40 zur Bestimmung von Hidden-Markow-Modellen und der Auswahl einer "Kohorte" für den neuen Teilnehmer weiter. Das SVS 40, das beispielsweise das von AT & T erhältliche System DSP 3 sein kann, enthält die Echtzeithost- (RTH - Real Time Host)Steuerung 41 und eine Mehrzahl von Digitalsignalprozessoren (DSP) 42-1 bis 42-P. Beispielsweise ist P = 128. RTH 41 dient als Schnittstelle zwischen DSP 42-1 bis 42-P und einem externen Prozessor wie beispielsweise der Steuerung 45, so daß bei Empfang einer Sprachverarbeitungsanforderung der RTH 41 feststellt, welcher der DSP 42-1 bis 42-P verfügbar (frei) ist und gibt die Anforderung zusammen mit den begleitenden Daten dorthin weiter. Angenommen, DSP 42-1 ist frei, dann gibt RTH 41 die elf-Ziffern- Ketten und entsprechenden Merkmalsvektoren von Auto korrelationskoeffizienten zur Verarbeitung an DSP 42-1 weiter.
In Fig. 4a-d ist ein Flußdiagramm von beispielhaften Prozessen dargestellt, mit denen DSP 42- 1 Hidden-Markow-Modelle (HMM) erzeugt und eine Kohorte auswählt.
Nach der Darstellung bei Schritt 501 in der Fig. 4a wandelt der DSP 42-1. Merkmalsvektoren von Autokorrelationskoeffizienten in. Merkmalsvektoren von 12 Cepstral- und 12 Delta-Cepstralkoeffizienten. Die 12 Delta-Cepstralkoeffizienten werden durch Anpassen einer Regressionslinie an eine Folge von fünf Cepstralkoeffizienten, die den jeweiligen aktuellen Cepstralkoeffizienten als Mittelpunkt haben, berechnet. Wie oben bei den Merkmalsvektoren von Autokorrelationskoeffizienten kennzeichnet jeder Merkmalsvektor von Cepstralkoeffizienten eine 15-ms-Zeitscheibe einer Lautäußerung eines Teilnehmers. Die oben beschriebene Umwandlung von Autokorrelationskoeffizienten in Cepstralkoeffizienten ist in der Technik wohlbekannt und ist ausführlicher in der oben aufgenommenen Bezugsschrift von C.-H. Lee et al., Acoustic Modeling for Large Vocabulary Speech Recognition, 4 Computer Speech and Language 127-65 (1990) beschrieben.
Als nächstes erzeugt DSP 42-1 wie bei Schritt 505 gezeigt ein sogenanntes Hidden-Markow-Modell (HMM), das die Lautäußerung der Ziffer Null des neuen Teilnehmers kennzeichnet, wobei das HMM auf Grundlage des Merkmalsvektors des zugehörigen Cepstralkoeffizienten, der die Ziffer Null für jedes Auftreten dieser Ziffer in den elf Ziffernketten kennzeichnen, erzeugt wird. Ähnlicherweise erzeugt DSP 42-1 ein HMM, das jede der anderen Ziffern, d. h. Ziffern 1 bis 9 und die Ziffer Null als "o" sofern vorhanden, kennzeichnet.
In der beispielhaften Ausführungsform der vorliegenden Erfindung wird jede Ziffer durch ein HMM mit acht Zuständen dargestellt. Die nominelle Anzahl von Mischungskomponenten pro Zustand M beträgt sechs, aber die eigentliche Anzahl kann in Abhängigkeit von der Anzahl von in jedem Zustand segmentierten Merkmalsvektoren geringer sein.
Zusätzlich zu den oben erwähnten HMM werden durch die Ausführungsform HMM bereitgestellt, die zwei Arten von Nicht-Sprach-Segmenten darstellen. Diese sind ein "Pausen-"Modell mit einem Zustand, das aus Hintergrundsegmenten im Registrierungsverfahren trainiert wird, und ein Artefaktmodell mit drei Zuständen, das aus vom Sprecher erzeugten Nicht-Sprach- Tönen wie beispielsweise "Keuch-" und "Knack-"Tönen trainiert wird.
Jedes vom DSP 42-1 erzeugte HMM ist ein von links nach rechts fortlaufendes Dichte-HMM der Art, die im US-Patent Nr. 4, 783, 804 beschrieben wird, das hiermit gemeinsam zugewiesen und durch Bezugnahme aufgenommen wird, als wenn es vollständig hier aufgeführt worden wäre. Die spektrale Beobachtungswahrscheinlichkeit für jeden Zustand eines HMMs ist eine als eine Mischung von M Gaußschen Dichten angegebene fortlaufende Dichtewahrscheinlichkeitsfunktion. Die Parameter der m-ten Mischungskomponente für den j-ten Zustand eines HMMs sind der mittlere Vektor ujm, die Kovarianzmatrix Ujm und das Mischungskomponentengewicht cjm. Die Matrix Ujm ist eine Kovarianzmatrix mit fester Diagonalen. Die Zustandsübergangswahrscheinlichkeiten aij eines HMMs sind so festgelegt, daß die Wahrscheinlichkeiten, im selben Zustand zu verbleiben und in den nächsten Zustand fortzuschreiten, gleich sind.
DSP 42-1 schätzt HMM-Parameter (bei Schritt 505) durch ein herkömmliches segmentales K-Mittel- Trainingverfahren wie das durch Rabiner et al., A Segmental K-Means Training Procedure tor Connected Word Recognition [Ein segmentales K-Mittel- Trainingsverfahren für Erkennung verbundener Wörter], Band 65, Nr. 3 AT & T Technical Journal 21-31 (Mai-Juni 1986) beschriebene, das hierdurch durch Bezugnahme aufgenommen wird, als wenn es vollständig hier aufgeführt worden wäre. Zusätzlich zu den Modellparametern wird bevorzugt, daß Wortdauermittelwerte und -varianzen aus den Registrierungslautäußerungen des Teilnehmers zur Verwendung - bei auf Überprüfungsbewertungen angewandten Wortdauerstraftermini berechnet werden.
Diese Mittelwerte und Varianzen können für jedes in den Traininglautäußerungen enthaltene Wort bestimmt werden. Die Bestimmung solcher Mittelwerte und Varianzen wird auf herkömmliche Weise wie beispielsweise der durch Rabiner, Wilpon und Juang beschriebenen, A Model Based Connected-Digit Recognition System Using Either Uidden Markov Models or Templates [Ein modellbasierendes Erkennungssystem verbundener Ziffern unter Verwendung von entweder Hidden-Markow-Modellen oder Schablonen], 1 Computer Speech and Language, 167-97 (198 E), das hierdurch durch Bezugnahme aufgenommen wird, als wenn es vollständig hier aufgeführt worden wäre. Diese Mittelwerte und Varianzstatistiken werden als Teil der Trainierungsdaten gespeichert.
Sobald HMM für den neuen Teilnehmer bestimmt worden sind, wird durch DSP 42-1 eine "Kohorte" fair diesen Teilnehmer bestimmt. Eine Kohorte ist eine Menge anderer Teilnehmer, deren HMM bei dem Überprüfungsvorgang für den gegebenen Teilnehmer benutzt werden. Diese anderen Teilnehmer werden nach einem Kohortenauswahlkriterium ausgewählt. Wie noch besprochen wird werden mit der Kohorte eines gegebenen Teilnehmers verbundene HMM dazu benutzt, einen Sprecherüberprüfungsvorgang bereitzustellen, der robuster gegenüber Änderungen von z. B. den Eigenschaften des Kanals ist, über den Registrierungs- und Überprüfungslautäußerungen oder Gesamtstimmaufwand (bzw. "Lautstärke") übermittelt werden.
Beispielsweise kann bei Registrierung bei VDCS 100 ein neuer Teilnehmer eine Heimfernsprechstelle 51 mit einem "Kohlemikrophonkapsel-"Mikrophon benutzen. Derartige Mikrophone weisen eine Frequenzkennlinie auf, die als Filter der zum Fernmeldeamt 225 (und schließlich zum VDSC 100) übermittelten Sprachlautäußerung wirkt. Bei der Bereitstellung von Lautäußerungen zwecks Sprecherüberprüfung als Teil der Verwendung von VDCS 100 benutzt der Teilnehmer jedoch unter Umständen eine andere Stelle mit einem unterschiedlichen Mikrophon, z. B. einem Elektret-Mikrophon. Der Frequenzgang eines Elektret-Mikrophons unterscheidet sich bedeutend von dem eines Kohlemikrophonkapsel-Mikrophons und bietet daher eine andere Filterwirkung für die Sprachlautäußerung des Teilnehmers. Unter diesen Umständen können sich die Eigenschaften des Kanals - der die Mikrophoneigenschaften einschließt - durch den die Lautäußerungen des Teilnehmers übermittelt werden, bedeutend verändern. Die Genauigkeit eines Sprecherüberprüfungssystems sowohl hinsichtlich der Abweisungsrate des wahren Sprechers (der sogenannte Fehler "Typ I") und der Annahmerate eines Betrügers (der sogenannte Fehler "Typ II") verschlechtert sich, wenn Registrierungs- (d. h. Trainings-) und Überprüfungslautäußerungen unterschiedlichen Kanaleigenschaften ausgesetzt sind. Die Verwendung von Kohorten im Überprüfungsprozeß trägt dazu bei, die von derartigen unterschiedlichen Kanaleigenschaften verursachten Genauigkeitsprobleme zu lindern.
Nach einem beispielhaften Kohortenauswahlkriterium ist eine Kohorte eine Menge von K anderen Teilnehmern, deren (vorher bestimmte) HMM denjenigen des in Frage stehenden Teilnehmers am nächsten liegen oder "die stärkste Konkurrenz" bieten. Eine Kohorte für einen neuen Teilnehmer kann durch DSP 42-1 durch paarweise Vergleiche der Registrierungslautäußerungen des Teilnehmers mit den HMM jedes einer Mehrzahl von (z. B. allen) anderen Teilnehmern und umgekehrt unter Verwendung herkömmlicher Viterbi-Bewertung bestimmt werden.
Die Kohorte für den neuen Teilnehmer wird wie bei Schritten 507-575 der Fig. 4a-d bestimmt. Bei Schritt 507 wird ein Zähler zum Verfolgen vorher registrierter Teilnehmer initialisiert (d. h. so daß ihre Lautäußerungen und HMM adressiert werden können).
Der Zähler zeigt daher auf den ersten einer Mehrzahl vorher registrierter Teilnehmer, die für Mitgliedschaft in der Kohorte eines neuen Teilnehmers in Betracht zu ziehen sind. Als nächstes werden bei Schritt S10 die HMM und Traininglautäußerungen für den in Betracht zu ziehenden ersten vorher registrierten Teilnehmer aus der Datenbank 50 abgerufen. Die abgerufenen HMM sind zur Verwendung bei dem Vergleich mit Traininglautäußerungen des neuen Teilnehmers bestimmt. Die abgerufenen Traininglautäußerungen sind zur Verwendung bei dem Vergleich mit den HMM des neuen Teilnehmers bestimmt.
Der Vergleich von HMM mit Traininglautäußerungen des neuen Teilnehmers beginnt mit der Initialisierung eines Zählers bei Schritt 512 in der Fig. 4b. Dieser Zähler zeigt auf die erste Lautäußerung des neuen Teilnehmers, die mit den HMM des vorher registrierten Teilnehmers zu vergleichen ist für diesen Vergleich bei Schritt 515 wird herkömmliche Viterbi-Bewertung benutzt. Mit der Bewertung wird die Mutmaßlichkeit (Likelihood) der Lautäußerung, die den HMM des vorher registrierten Teilnehmers erteilt wird, gemessen. Die HMM des vorher registrierten Teilnehmers werden zur Verwendung in dem Bewertungsvorgang auf Grundlage einer ASCII-Darstellung der Lautäußerung des neuen Teilnehmers, die von SIU 21 bereitgestellt wird, ausgewählt. Bei Schritt 520 wird die Bewertung für eine gegebene Lautäußerung, die bei Schritt 515 erzeugt wird, durch die Anzahl von Merkmalsvektoren geteilt, aus denen die Lautäußerung besteht. Diese Teilung erzeugt eine erste normierte Bewertungsziffer. Die erste normierte Bewertungsziffer wird in einem Akkumulator von DSP 42-1 bei Schritt 525 für die spätere Verwendung gesichert. Die Schritte 515, 520 und 525 werden für jede Trainierlautäußerung des neuen Teilnehmers wiederholt, bis die letzte derartige Lautäußerung nach Bestimmung durch den Entscheidungsschritt 530 bewertet worden ist. Wenn alle Trainierlautäußerungen bewertet worden sind, wird die im Schritt 525 bestimmte gesamte angesammelte erste normierte Bewertungsziffer durch die Gesamtzahl von bewerteten Lautäußerungen in Schritt 535 geteilt, um eine erste Durchschnittsbewertungsziffer zu bilden.
Als nächstes werden Vorgangsschritte 538-560 wie in Fig. 4c gezeigt durchgeführt. Diese Schritte sind den oben besprochenen Schritten 512-535 ähnlich. Die Schritte 538-560 bestimmen eine zweite Durchschnittsbewertungsziffer auf Grundlage von Vergleichungen der Trainierlautäußerungen des betrachteten vorher registrierten Teilnehmers und der HMM des neuen Teilnehmers. ASCII-Darstellungen vorher registrierter Teilnehmerlautäußerungen aus der Datenbank 50 werden zur Auswahl von HMM des neuen. Teilnehmers für den Vergleich benutzt.
Nach Durchführung der Schritte 538-560 wird im Schritt 565 der Fig. 4d auf Grundlage eines Durchschnittswertes der (in Schritten 535 und 560 bestimmten) ersten bzw. zweiten Durchschnittsbewertungsziffern eine Gesamtdurchschnittsbewertungsziffer für den vorher registrierten Teilnehmer bestimmt.
Der gesamte, oben in Schritten 510-565 beschriebene Vorgang wird für jeden der Mehrheit vorher registrierter Teilnehmer unter Steuerung des Entscheidungsschrittes 570 wiederholt. Sobald für jeden der vorher registrierten Teilnehmer eine Gesamtdurchschnittsbewertungsziffer bestimmt worden ist, kann für den neuen Teilnehmer eine Kohorte ausgewählt werden. Die Kohorte wird bei Schritt 575 als die K vorher registrierten Teilnehmer mit den höchsten Gesamtdurchschnittsbewertungsziffern ausgewählt. Beispielsweise beträgt K = 5.
Man beachte, daß in der oben beschriebenen und in Fig. 4a-d dargestellten Ausführungsform die Anzahl von Lautäußerungen jeder Ziffer gleich ist, so daß die Auswahl einer Kohorte nicht zugunsten gewisser Zifferlautäußerungen vorbelastet ist.
Man muß verstehen, daß das oben beschriebene Kohortenauswahlverfahten nur beispielhaft ist. Andere Verfahren zur Bildung von Kohorten eines Sprechers sind möglich einschließlich von Verfahren, die auf einer Wort-für-Wort-Grundlage anstatt einer Sprecher-für- Sprecher-Grundlage fungieren. Ein beispielhaftes Wort- für-Wort-Kohortenauswahlverfahren ähnelt dem oben beschriebenen, nur werden Durchschnittswerte für jedes Wort anstelle auf einer Grundlage einer Durchschnitts- Sprecherlautäußerung gebildet. Natürlich erfordern Wort-für-Wort-Kohortenverfahren unter Umständen mehr Speicherraum, da es für jedes Wort eines Sprechers und nicht für jeden Sprecher eine verschiedene Kohorte gibt. Bei einem anderen Kohortenauswahlverfahren wird eine Kohorte auf Grundlage einer zufallsmäßigen Auswahl von vorher registrierten Teilnehmern bezeichnet.
Eine Alternative der oben beschriebenen Kohortenauswahlverfahren ist eine, die einen direkten Vergleich der HMM des betroffenen Sprechers, z. B. des neuen Teilnehmers mit den HMM von möglichen Kohortenmitgliedern benutzt. Dieser direkte Vergleich von HMM kann auf Wort-für-Wort- oder Sprecher-für- Sprecher-Grundlage durchgeführt werden. Da bei der Bestimmung der Kohorte keine Sprecherlautäußerungen benutzt werden, ist dieses Verfahren weniger rechenintensiv und hat geringere Speichererfordernisse als die oben besprochenen Verfahren, da keine Lautäußerungsdaten gespeichert werden müssen.
Wie in dem durch Bezugnahme oben aufgenommenen US-Patent Nr. 4,783,804 besprochen kann die Beobachtungsmutmaßlichkeit für einen Zustand in einem HMM kontinuierlicher Dichte eines neuen Teilnehmers als gewichtete Summe normaler Gaußscher Dichten gekennzeichnet werden:
wobei bnew(Ot) die Mutmaßlichkeit einer Beobachtung, 0 zu einer Zeit t im Zustand j des HMM ist; N eine normale Gaußsche Dichtefunktion ist; cnew das "Mischungs-" Gewicht für den j -ten Zustand und die m-te Mischungskomponente ist; unew der Mittelwert der während des Trainierens bereitgestellten Merkmalsvektoren ist; Unew eine Kovarianzmatrix für die Merkmalsvektoren aus dem Trainieren ist.
Gleichermaßen kann die 12 Beobachtungsmutmaßlichkeit für einen Zustand in einem HMM kontinuierlicher Dichte eines vorher registrierten Teilnehmers folgendermaßen gekennzeichnet werden:
Zur Bestimmung eines log-Likelihood- Ähnlichkeitsmaßes R zwischen zwei HMM von neuen und vorher registrierten Teilnehmern werden der k-te Zustand des HMMs des vorher registrierten Teilnehmers und der j-te Zustand des HMMs des neuen Teilnehmers verglichen, indem uk1 im Ausdruck (1) für Ot eingesetzt und Cpre als gewichtete Darstellung der Prominenz (bzw. der Anzahl) von upre dargestellten Training- Merkmalsvektoren benutzt wird, wie folgt:
Zur Bestimmung eines Gesamt-Ähnlichkeitsmaßes zwischen den "new" und "pre" HMM werden die Zustand-zu- Zustand-Ähnlichkeitsmaße Rpre,new über Eine optimale Ausrichtung von "pre-"Zuständen mit "new-"Zuständen wie folgt angesammelt:
wobei k (j) eine optimale Abbildung des "pre-"Zustands k auf den "new" Zustand - j darstellt und Jnew die Anzahl von Zuständen in dem HMM des neuen Teilnehmers ist (z. B. Jnew = 8) Diese optimale Abbildung wird auf herkömmliche Weise unter Verwendung einer dynamischen Programmierungsausrichtung mit Itakura-Beschränkungen und ausgerichteten ersten und letzten HMM-Zuständen "pre" und "new" erreicht.
Das oben beschriebene Verfahren ist direkt auf Wort-für-Wort-Kohortenauswauswahl anwendbar, da eine Kohorte für ein gegebenes Wort eines neuen Teilnehmers als die K vorher registrierten Teilnehmer mit den höchsten Bewertungsziffern Rpre,new für das in Frage stehende Wort bestimmt werden kann. Weiterhin kann dieses Verfahren zur Bestimmung von Kohorten auf einer Sprecher-für-Sprecher-Grundlage benutzt werden, indem einfach die Ähnlichkeitsbewertungsziffern für einzelne HMM für alle HMM, die durch alle Registrierungslautäußerungen wie oben besprochen benötigt werden, gemittelt werden.
Wie beispielhaft oben unter Bezugnahme auf Fig. 4a-d besprochen beruht die Bestimmung einer Kohorte für einen gegebenen Teilnehmer unter anderem auf HMM von vorher registrierten Teilnehmern. Es ist jedoch zu beachten, daß Kohorten für einen gegebenen Teilnehmer nicht zur Zeit der Registrierung des Teilnehmers bestimmt werden müssen. Kohorten für Teilnehmer können nachfolgend bestimmt werden, nachdem mit allen Teilnehmern verbundene HMM bestimmt worden sind. Auch können Kohorten entsprechend einem Auswahlkriterium im Zeitverlauf aktualisiert werden.
Wenn der DSP 42-1 seine Aufgabe vollendet hat, gibt der RTH 41 die resultierenden HMM, Trainingsstatistiken und Kohorten-Teilnehmerkennzeichnungsinformationen an die Steuerung 45 weiter. Die Steuerung 45 speichert dann diese Informationen in einem Speicherdatensatz der Bezugsdatenbank 50, der indirekt durch den Kontocode des Teilnehmers indexiert wird (es wird darauf hingewiesen, daß, wenn dieser Code mit einem anderen Konto geteilt wird, die Steuerung 45 den Datensatz des neuen Teilnehmers in der Datenbank 50 effektiv an den mit - dem Teilnehmer, der sich den Kontocode mit dem neuen Teilnehmer teilt, "anhängt".
Ähnlicherweise notiert die Steuerung 45 diese Tatsache wie oben besprochen in dem letzteren Datensatz). Kohorten-Teilnehmerkennzeichnungsinformationen werden als Adressen der HMM jedes Teilnehmers der Kohorte gespeichert.
Die Steuerung 45 speichert auch in der Datenbank 50 die durch DSP 42-1 bestimmten Cepstral- Merkmalsvektoren der Traininglautäußerungen und auch die ASCII-Äquivalente dieser Lautäußerungen für den neuen Teilnehmer. Danach speichert die Steuerung 45 die ASCII-Teilwort-Einheit von Indizen, die die Lautäußerung des neuen Teilnehmers der Etiketten des Teilnehmers kennzeichnen, und auch deren ASCII- Äuivalente in dem oben erwähnten. Speicherdatensatz der Datenbank 50. Die Steuerung 45 benachrichtigt dann die SIU 21 über das LAN 30, daß die Verarbeitung der Teilnehmerdaten abgeschlossen ist. Die SIU 21 wiederum sendet eine ähnliche Nachricht zum Hostprozessor 5, der bewirkt, daß der Hostprozessor 5 die SIU 21 von der ankommenden Verbindung des Teilnehmers abschaltet. An dieser Stelle benachrichtigt der Bediener 15 den Teilnehmer, daß die Registrierung abgeschlossen ist.
Man sollte verstehen, daß das oben beschriebene Trainieren von HMM und die Kohortenauswahl ohne Aufrechterhalten einer Verbindung zwischen dem neuen Teilnehmer und dem System 100 stattfinden könnte, sobald der neue Teilnehmer Training-Lautäußerungen geliefert hat. Beispielsweise könnte das Training und die Kohortenauswahl rechnerunabhängig stattfinden.
Zu diesem Zeitpunkt kann ein Teilnehmer das System 100 "anwählen", seine/ihre Teilnehmernummer sagen und dann eine durch eines der vordefinierten Etikette des Teilnehmers gekennzeichnete Anruffunktion wie beispielsweise "zu Hause anrufen" aufrufen. Als Alternative kann der Teilnehmer anfordern, daß eine Verbindung zu einer Stelle eingeleitet wird, die nicht durch eines der vordefinierten Etikette des Teilnehmers definiert ist. Das heißt, der Teilnehmer kann die Telefonnummer einer Stelle sagen, die der Teilnerrmer anzurufen wünscht. Beispielsweise kann der Teilnehmer "908-555-6008" sagen, was beispielsweise die Stelle S2 kennzeichnet. Als Reaktion darauf decodiert das System 100 die Lautäußerung von 908-555-6008 des Teilnehmers und leitet eine abgehende Verbindung zu dieser Stelle ein und verbindet dann den Anruf des Teilnehmers mit dieser abgehenden Verbindung.
Insbesondere kann der Teilnehmer die Dienst- Telefonnummer des Systems 100, z. B. 1-800-838-5555 wählen, um eine Telefonverbindung zwischen der Stelle S1 und dem System 100 über CO 225 und das Netz 200 herzustellen. Die Zielvermittlungsstelle des Systems 200, die auf Empfang des Anrufs und die gerufene Telefonnummer reagiert, assoziiert diese Nummer mit einer bestimmten seiner abgehenden Leitungsbündel und bietet die Verbindung dem System 100 über eine freie Leitung (einen freien Anschluß) dieses Bündels an. Die auf die ankommende Verbindung reagierende Vermittlung 100 benachrichtigt den Host 5 über diese Tatsache über das LAN 30. Als Reaktion auf diese Benachrichtigung weist der Host 5 die Vermittlung 10 über das LAN 30 an, eine Verbindung zwischen der ankommenden Verbindung und einer freien der Anruferidentifikationseinheiten (CIU - Caller Identification Unit) 20-1 bis 20-N, z. B. CIU 20- 1 herzustellen. Die CIU 20-1 bis 20-N sind mit der SIU 21 identisch, nur sind die CIU nicht für die Darstellung des Registriervorgangs für einen neuen Teilnehmer programmiert.
Angenommen, die CIU 20-1 ist mit der Teilnehmerverbindung verbunden, dann überträgt diese CIU über die Verbindung eine Anfrage, die den Teilnehmer fragt: "Was ist Ihr Kontocode?" Der Teilnehmer hat die Wahl, seinen/ihren Kontocode (die Nummer) durch Sprechen derselben oder durch Eintasten derselben unter Verwendung der Tastatur der Stelle 51 einzugeben. Wenn der Teilnehmer die letztere Wahlmöglichkeit wählt und seinen/ihren Kontocode eintastet, dann sammelt die CIU 20-1 die "eingetasteten" Ziffern. Bei Empfang der letzten derartigen Ziffer überprüft die CIU 20-1 dann die Identität des Teilnehmers, indem sie eine Reihe von zufallsmäßig ausgewählten Ziffern erzeugt und über die Anrufverbindung überträgt und dann den Teilnehmer auffordert, die Reihe von Ziffern zu sagen.
Wenn der Teilnehmer seinen/ihren Kontocode sagt, dann sammelt die CIU 20-1 ähnlicherweise die Lautäußerungen des Teilnehmers und benutzt verbundene Zifferverarbeitung zum Segmentieren der hautäußerungen in Sprachsignale, die entsprechende Ziffern des Kontocodes kennzeichnen. Die CIU 20-1 wandelt dann jedes derartige Sprachsegment in Autokorrelationskoeffizienten um und identifiziert denn den Kontocode aber nicht den Anrufer auf Grundlage dieser Koeffizienten. Der Kontocode wird mit in der Technik wohlbekannter herkömmlicher sprecherunabhängiger Spracherkennung verbundener Ziffern identifiziert. Die CIU 20-1 speichert dann den Kontocode in ihrem lokalen Speicher. (Wenn der Teilnehmer den Kontocode über die Tastatur der Stelle 51 eingab, decodiert die CIU 20-1 die sich ergebende Reihe von Tönen (d. h. Mehrfrequenzdualsignale, d. h. MFW-Signale) in entsprechende Ziffernwerte und speichert sie als Kontocode. Danach überträgt die CIU 20-1 wie oben erwähnt die Reihe von zufallsmäßigen Ziffern und fordert den Teilnehmer auf, diese Ziffern zu wiederholen. Ähnlicherweise segmentiert die CIU 20-1 die Antwort des Anrufers und modelliert sie als Merkmalsvektoren von Autokorrelationskoeffizienten.)
Danach sendet die CIU 20-1 eine Nachricht mit dem empfangenen Kontocode und den. Merkmalsvektoren, die je nachdem den gesprochenen Kontocode des Anrufers (Teilnehmers) bzw. zufallsmäßige Ziffern zur Steuerung 45, um die Identität des Anrufers zu überprüfen. Als Reaktion darauf und unter Verwendung des empfangenen Kontocodes als Speicherindex lädt die Steuerung 45 den die Hidden-Markow-Modelle (HMM) der Lautäußerungen des Teilnehmers der entsprechenden Ziffern, die den zugehörigen Kontocode bilden, und die mit der Kohorte des mit dem Kontocode identifizierten Teilnehmers verbundenen HMM aus der Bezugsdatenbank bzw. dem Speicher 50 herab. Die Steuerung 45 sendet dann die herabgeladenen HMM und von der CIU 20-1 erzeugten Merkmalsvektoren über den Bus 46 zum RTH 41 zwecks Überprüfung, daß die Teilnehmer-HMM und Merkmalsvektoren von derselben Person gesprochene Sprachsignale darstellen (es ist anzumerken, daß wenn die Merkmalsvektoren die zufallsmäßigen Ziffern darstellen, die Steuerung 45 nur vorher für diese Ziffern für sowohl den Teilnehmer als auch die Kohorte gespeicherten HMM sendet).
Als Reaktion auf die Anforderung identifiziert der RTH 41 einen freien seiner ungehörigen DSP 41-1 bis 42-P, z. B. den DSP 42-P und liefert die von der Steuerung 45 empfangenen HMM und Merkmalsvektoren von Autokorrelationskoeffizienten an den DSP 42-P. Der DSP 42-P arbeitet entsprechend dem in Fig. 5 dargestellten Flußdiagramm.
Wie bei Schritt 705 der Fig. 5 gezeigt wandelt der DSP 42-P die Merkmalsvektoren von. Autokorrelationskoeffizienten wie oben beschrieben in Merkmalsvektoren von Cepstrum- und delta-Cepstrum-Koeffizienten um.
Als nächstes vergleicht der DSP 42-P die Merkmalsvektoren von Cepstral-Koeffizienten (die beispielsweise die gesprochene Lautäußerung der zufallsmäßigen Ziffernüberprüfung darstellen) mit den HMM des Teilnehmers, auf den Anspruch erhoben wird, und seiner/ihrer Kohorte. Dieser Vergleich wird bei Schritten 710-745 der Fig. 5 dargestellt. Der Vergleich erzeugt eine Bewertungsziffer, die die Mutmaßlichkeit anzeigt, daß die Überprüfungslautäußerung von dem Teilnehmer gesprochen worden war, auf den Anspruch erhoben wird (für Überprüfungszwecke beruhen Bewertungsziffern auf HMM von Sprachtönen und nicht denjenigen, die Nicht-Sprach-Töne darstellen). Die Bewertungsziffer S wird von DSP 42-P nach dem folgenden Ausdruck bestimmt (siehe Schritt 730):
S = log (O/I) - log (O/Ck(I))]. (5)
Die Mutmaßlichkeit (Likelihood) p wird durch DSP 42-P unter Verwendung einer in der Technik wohlbekannten rahmensynchronen Viterbi-Likelihood-Bewertungsprozedur ausgewertet, die beispielsweise durch Lee und Rabiner, A Frame-Synchronous Network Search Algorithm for Connected Word Recognition [Ein rahmensynchroner Netzsuchalgorithmus für Erkennung verbundener Worte], 37 IEEE Trans. Acoust., Speech, and Sig. Pro. 1649--58 (November 1989) beschrieben wird. Die Größe p(O/I) stellt die Mutmaßlichkeit dar, daß eine beobachtete Menge von Merkmalsvektoren O von einer Einzelperson I, auf die Anspruch erhoben wird und die durch HMM dargestellt wird, die von dieser Einzelperson trainiert wurden (siehe Schritt 710), erzeugt wurde. Größe p(O/Ck(I)) stellt die Mutmaßlichkeit dar, daß eine beobachtete Menge von Merkmalsvektoren O durch das k-te Mitglied der Kohorte erzeugt wurde, die mit der Einzelperson I,Ck(I) assoziiert ist (siehe Schritte 715- 720). Das Glied "stat[*]" bezieht sich auf einen statistischen Operator wie beispielsweise Minimum, Maximum oder Durchschnitts-Likelihood über alle Teilnehmer, die die Kohorte bilden (es gibt K Teilnehmer in der Kohorte). Der statistische Operator ist beispielsweise das Maximum (siehe Schritt 725).
Wenn der DSP 42-P feststellt, daß der Wert von S einen Schwellwert überschreitet, wird die Identität eines Teilnehmers, auf die Anspruch erhoben wird, angenommen (siehe Schritte 735-745). Infolge der Annahme können die Merkmalsvektoren von Cepstrum- und delta-Cepstrum-Koeffizienten zur "Aktualisierung" (bzw. Weitertrainierung) der HMM des Teilnehmers, auf den Anspruch erhoben wird und der überprüft wurde, benutzt werden (siehe Schritt 74 0). Bei gegebenen Merkmalsvektoren Ojm(t), t = 1, 2, ..., Tjm, die in einem Zustand j decodiert wurden, der am besten zu der Mischungskomponente m paßt, dann werden der Mittelwert der HMM, ujm und das Komponentengewicht cjm durch DSP 42- P wie folgt aktualisiert:
und
wobei Njm die Anzahl von Trainingvektoren ist, die zur Berechnung eines nichtaktualisierten Mittelwertes und Mischungskomponente benutzt werden. Danach wird die Vektorzählung Njm durch DSP 42-P wie folgt aktualisiert:
Danach liefert der DSP 42-P aktualisierte HMM und eine Markierung, die anzeigt, daß die Überprüfung wahr (d. h. positiv) ist an RTH 41 (siehe Schritt 745). Der RTH 41 wiederum liefert diese Informationen und den überprüften Kontocode des Teilnehmers an die Steuerung 45.
Sollte der DSP 42-P feststellen, daß der Wert S weniger gleich dem Schwellwert ist, wird die Identität eines Teilnehmers, auf die Anspruch erhoben wird, abgewiesen und eine Markierung, die eine Überprüfung falsch (d. h. negativ) anzeigt, wird zum RTH 41 geschickt (siehe Schritte 735, 75C). Unter diesen Umständen findet keine Aktualisierung des HMMs eines Teilnehmers durch DSP 42-P statt. Der Steuerung 45 wird die negative Überprüfungsinformation zugeführt.
Beispielsweise kann ein statischer Schwellwert benutzt werden. Ein solcher Schwellwert kann gleich Null gesetzt oder für ein System, das für Betrüger weniger oder mehr tolerant ist, auf über bzw. unter Null gesetzt werden. Es kann jedoch auch ein dynamischer Schwellwert benutzt werden. Ein solcher Schwellwert kann nach herkömmlichen Schwellwertberechnungsverfahren für Sprecherüberprüfung bestimmt werden, um ein gewünschtes Leistungsniveau zu erreichen. Siehe z. B. Rosenberg, Evaluation of an Automatic Speaker Verification System Over Telefone Lines [Auswertung eines automatischen Sprecherüberprüfungssystems über Fernsprechleitungen], 55 Beil System Technical Journal 723-44 (Juli-August 1976), das hierdurch durch Bezugnahme aufgenommen wird, als wenn es vollständig hier aufgeführt wäre.
Es wird darauf hingewiesen, daß der Ausdruck (5) in Verbindung mit anderen, z. B. herkömmlichen Bewertungsverfahren benutzt werden kann. So kann beispielsweise ein erstes Bewertungsverfahren das erste Glied auf der rechten Seite des Ausdrucks (5) umfassen. Wenn ein derartiges Verfahren eine Bewertungsziffer S&sub1; erzeugt, die einen Schwellwert T&sub1; überschreitet, dann kann das vollständige Bewertungsverfahren des Ausdrucks (5) zur Bestimmung einer zweiten Bewertungsziffer S&sub2; benutzt werden. Diese Bewertungsziffer S&sub2; kann dann mit einem zweiten Schwellwert T&sub2; verglichen werden. Eine Identität, auf die Anspruch erhoben wird, wird nur dann bestätigt, wenn S&sub1; > T&sub1; und S&sub2; > T&sub2;. Eine derartige Kombination von Bewertungsverfahren kann die Fähigkeit eines Überprüfungssystems, von Betrügern verursachte Fehler zu vermeiden, verbessern.
Die durch DSP 42-P durchgeführte Viterbi- Bewertung wird auf herkömmliche Weise durch eine Grammatik eingeschränkt, die wahlweise Nicht-Sprach- Segmente vor und nach der Lautäußerung und zwischen Worten zuläßt. Für Überprüfungsphrasen ist bevorzugt, daß die Viterbi-Likelihood-Bewertungsziffern durch Anwendung eines Dauer-Strafterms auf jede Wort- Likelihood nachverarbeitet werden.
Dieser Dauer-Strafterm spiegelt wider, um wieviel ein gegebenes Überprüfungs-Lautäußerungswort vom Mittelwert für ein solches Wort, der während des Registrierungstrainingverfahrens bestimmt wurde, abweicht. Die Abweichung zwischen der Dauer des überprüfungs-Lautäußerungswortes und dem Mittelwert für dieses Wort wird als Bruchteile von Standardabweichung der Wortdauer, die während des Registrierungstrainings bestimmt wurde, gemessen. Die Anwendung von Wortdauer- Straftermen ist herkömmlich und wird in der oben aufgenommenen Bezugsschrift von Rabiner, Wilpon und Juang beschrieben. Die Likelihood p (O/I) in (5) ist die Durchschnittslikelihood pro Rahmen (d. h. pro Merkmalsvektor) der Lautäußerung ausschließlich der Nicht-Sprach-Segmente.
Die Subtraktion der Statistik der log- Likelihood-Bewertungsziffern der Kohorte von der log- Likelihood-Bewertungsziffer für die Einzelperson, auf die Anspruch erhoben wird (nach der Darstellung in (5) und Durchführung bei Schritt 730 der Fig. 5) bietet einen "dynamischen Schwellwert" für die Überprüfung. Dieser Schwellwert bietet eine bedeutende Toleranz gegenüber veränderlichen Bedingungen. Wenn die wahre Sprecherbewertungsziffer durch eine Änderung der Bedingungen, z. B. veränderte Kanalzustände aufgrund von Unterschieden der bei der Registrierung (dem Training) und Überprüfung benutzten Mikrophone, neigt die Kohorten-Bewertungsziffer dazu, auf dieselbe Weise beeinflußt zu werden. Die Differenz der log-Likelihoods bleibt daher im wesentlichen stabil und die veränderten Bedingungen verursachen keine ernsthafte Begrenzung der Fähigkeit von DSP 42-P, eine Identität, auf die Anspruch erhoben wird, zu überprüfen.
Als Reaktion auf eine positive Überprüfungsmarkierung speichert die Steuerung 45 die aktualisierten HMM im Datensatz des Teilnehmers in der Datenbank 50. Danach sendet die Steuerung 45 die Markierung und Vorgabe-Gebührenberechnungsnummer zur CIU 20-1. Wenn die Überprüfungsmarkierung eine negative Überprüfung anzeigt, dann sendet die Steuerung 45 eine Anwortnachricht, die diese Tatsache anzeigt, über LAN 30 zur CIU 20-1 zurück. Die CIU 20-1 kann dann als Reaktion auf diese Antwortnachricht die Verbindung abschließen oder die Verbindung zum Bediener 15 leiten.
Wenn die Steuerung 45 feststellt, daß der Kontocode bzw. die Kennung, die sie von der CIU 20-1 erhält, mit einer Anzahl von Teilnehmerdatensätzen assoziiert ist, dann lädt die Steuerung 45 die entsprechenden HMM aus jedem dieser verketteten Datensätze herab und gibt die verschiedenen Mengen herabgeladener HMM und ihrer entsprechenden Datensatzadressen und auch die empfangenen Merkmalsvektoren von Koeffizienten zur Verarbeitung an RTH 41 weiter. RTH 41 wiederum verteilt die empfangenen Mengen von HM und eine Kopie der Merkmalsvektoren an entsprechende freie seiner zugehörigen DSP 41-1 bis 41-P. Als Reaktion darauf erzeugt jeder derartige DSP, z. B. DSP 41-1 eine Bewertungsziffer, die das Gewißheitsniveau, daß diese Merkmalsvektoren mit der Menge von HMM, die er vom RTH 41 empfängt, vergleichbar sind, und liefert diese Bewertungsziffer an RTH 41. RTH 41 wiederum wählt die höchste Bewertungsziffer aus den verschiedenen Bewertungsziffern, die er von seinen zugehörigen DSP empfängt, aus. Wenn RTH 41 feststellt, daß der Wert der höchsten Bewertungsziffer den Schwellwert überschreitet, bestätigt RTH 41 die Identität des Anrufers und assoziiert den Anrufer mit dem Teilnehmerdatensatz, dessen Adresse mit der höchsten Bewertungsziffer assoziiert ist. Danach bewirkt RTH 41, daß die mit dieser Adresse assoziierten HMM auf die oben besprochene Weise aktualisiert werden und liefert dann die aktualisierten HMM, die zugehörige Bewertungsziffer und Datensatzadresse und auch die oben erwähnte positive Markierung an die Steuerung 45. Als Reaktion darauf speichert die Steuerung 45 die aktualisierten HMM und sendet die oben erwähnte Antwortnachricht zur CIU 20-1 zurück und schließt darin den mit der oben erwähnten höchsten Bewertungsziffer assoziierten Teilnehmerdatensatz ein. Wenn der RTH 41 andererseits feststellt, daß der Wert der höchsten Bewertungsziffer weniger gleich dem Schwellwert ist, dann benachrichtigt der RTH 41 die Steuerung 45 darüber. Ähnlicherweise sendet die Steuerung 45 eine diese Tatsache anzeigende Nachricht wie oben besprochen zur CIU 20-1 zurück.
Angenommen, die Antwortnachricht der Steuerung 45 ist positiv, dann überträgt die CW 20-1 über die Rufverbindung eine Ansage, die z. B. anfordert "Welche Nummer wünschen Sie anzurufen?" Der Teilnehmer kann auf diese Anforderung reagieren, indem er (a) die Tastatur der Stelle S1 zum "Eintasten" einer bestimmten Telefonnummer, die der Teilnehmer anzurufen wünscht, z. B. 908-555-1234 benutzt; indem er (b) einen der vordefinierten Zielwahlcodes des Teilnehmers, z. B. 231# eintastet, indem er (c) die bestimmte Telefonnummer sagt, die der Teilnehmer anzurufen wünscht; oder indem er (d) eines der vordefinierten Anrufetikette des Teilnehmers, z. B. "zu Hause anrufen" oder "Büro anrufen" sagt.
Insbesondere decodiert die CIU 20-1 als Reaktion auf den Empfang von MFW-Signalen, die eine Telefonnummer kennzeichnen, diese Signale in entsprechende Ziffern in der Reihenfolge, in der die Signale über Vermittlung 10 und Netz 200 empfanden werden. Beim Decodieren der letzten dieser Telefonziffern sendet die CIU 20-1 eine Nachricht, die den Kontocode des Teilnehmers und die empfangene Telefonnummer enthält, zum Hostrechner 5. Der Hostrechner 5 erzeugt dann und speichert in seinem internen Speicher einen Gebührenberechnungsdatensatz, der unter anderem folgendes enthält: (a) die Dienstnummer des Teilnehmers und Gebührenberechnungstelefonnummer (z. B. die Heimtelefonnummer), (b) die Telefonnummer, die angerufen wird, und (c) das gegenwärtige Datum und die Zeit. Danach weist der Host 5 die Vermittlung 10 an, eine abgehende Telefonverbindung über Netz 200 einzuleiten und die Impulse der gerufenen Telefonnummer auszugeben. Auch weist der Host 5 die Vermittlung 10 an, die ankommende Verbindung des Teilnehmers mit der abgehenden Verbindung zu verbinden. Die CIU 20-1 bleibt als Mittel zur Erkennung der möglichen Anforderung eines Telefonbedieners durch den Teilnehmer auf die ankommende Verbindung des Teilnehmers aufgeschaltet. Das heißt jede der CIU 20-1 bis 20-N kann unter Verwendung der wohlbekannten Funktionalität unabhängiger Spracherkennung erkennen, daß ein Anrufer "Bediener" sagt. Wenn demnach die CIU 20-1 "erkennt", daß die Teilnehmer während der Bearbeitung eines zugehörigen Rufs das Wort "Bediener" sagen, dann sendet die CIU 20-1 eine dahingehende Nachricht zum Host 5 über das LAN 30. Der Host. 5 wiederum verbindet den Teilnehmer mit einer verfügbaren Bedienerstelle 15 über die Vermittlung 10. Sobald eine zugehörige Verbindung hergestellt worden ist, reagiert eine CIU jedoch nicht auf das Wort "Bediener". Zu diesem Zeitpunkt kann der Teilnehmer bestimmte Zeichen, z. B. das Pfund- (#) Zeichen als eine Weise zur Anforderung des Beistandes eines Bedieners eingeben. Das heißt wenn die Vermittlung 10 nach Herstellung der Verbindung diese bestimmten Zeichen erkennt, dann sendet die Vermittlung 10 die Bedieneranforderungsnachricht zum Host 5. Als Alternative kann der Teilnehmer zu jedem Zeitpunkt während des aktuellen Rufs bestimmte Zeichen, z. B. **9 al. a eine Weise zur Eingabe einer Anforderung zur Einleitung einer weiteren Verbindung eingeben. Wenn daher die Vermittlung 10 die Eingabe dieser Zeichen erkennt, dann gibt sie eine dieses anzeigende Nachricht zum Hast 5 weiter. Der Host 5 wiederum schließt die abgehende Verbindung der Vermittlung 10 ab und fordert dann den Anrufer zur Eingabe eines Anrufziels auf.
Wenn der Teilnehmer andererseits einen der Zielwahlcode des Teilnehmers eintastet, z. B. 231#, dann sendet die CIU 20-1 bei Empfang und Decodieren der diesen Code kennzeichnenden Zeichen eine Nachricht zur Steuerung 45, die die mit dem vom Teilnehmer eingegebenen Zielwahlcode assoziierte Telefonnummer anfordert. Bei Empfang der Nachricht fragt die Steuerung 45 den in der Datenbank 50 gespeicherten Datensatz des Teilnehmerprofils ab, um die angeforderte Telefonnummer zu erhalten. Die Steuerung 45 wiederum ladet die Telefonnummer aus der Datenbank 50 herab und sendet die Nummer, den assoziierten Zielwahlcode und die Kontocodenummer des Teilnehmers zur CIU 20-1 über das LAN 30. Die CIU 20-1 wiederum sendet eine diese Telefonnummer enthaltende Verbindungsanforderungsnachricht und eine Anforderung zur Herstellung einer Telefonverbindung damit zum Host 5. Der Host 5 wiederum stellt einen Gebührendatensatz her und leitet dann eine Telefonverbindung zur gewünschten Telefonnummer über die Vermittlung 10 und das Netz 200 ein.
Als Alternative kann der Teilnehmer die gewünschte Telefonnummer, z. B. 908-555-1234 sagen. Wenn der Teilnehmer dies tut, segmentiert die CIU 20-1 unter Verwendung von Segmentierung verbundener Ziffern die Sprachsignale des Teilnehmers, die die Ziffern dieser Telefonnummer kennzeichnen, und modelliert dann diese Sprachsegmente wie oben erwähnt in die schon erwähnten Merkmalsvektoren von Koeffizienten. Auf Grundlage dieser Merkmalsvektoren kann die CIU 20-1 die vom Teilnehmer gesprochenen Ziffern interpretieren (identifizieren). Eine derartige Interpretierung wird gewöhnlich als sprecherunabhängige automatische Spracherkennung bezeichnet. Infolge dieser Interpretierung identifiziert die CIU 20-1 demnach die, die gesprochene Telefonnummer bildenden Ziffern. Ähnlicherweise packt die CIU 20-1 dann diese Ziffern in eine Verbindungsanforderungsnachricht und sendet die Nachricht zum Host 5 über das LAN 30. Als Reaktion auf den Empfang dieser Nachricht stellt der Host 5 einen assoziierten Gebührendatensatz her und leitet wie oben besprochen eine Telefonverbindung zur empfangenen Telefonnummer ein.
Als weitere Alternative kann der Teilnehmer ein Anrufetikett sagen, z. B. "Büro anrufen", das vorher vom Teilnehmer definiert wurde. Als Reaktion darauf erzeugt die CIU 20-1 die oben erwähnten Teilworteinheitindizen aus den dieses Etikett kennzeichnenden Sprachsignalen des Teilnehmers. Wie oben erwähnt vergleicht dann die CIU 20-1 die erzeugte Reihe von Indizen mit den Teilworteinheitindizen der wie oben besprochen vorher in der Datenbank 50 gespeicherten Etikette des Teilnehmers.
Wenn die CIU 20-1 demnach die mit dem gesprochenen Etikett assoziierte Telefonnummeridentifiziert, dann bildet die CIU 20-1 eine Verbindungsanforderungsnachricht, die unter anderem die identifizierte Telefonnummer enthält, und sendet die Nachricht zum Host 5. Der Host 5 wiederum leitet die angeforderte Telefonverbindung auf die oben besprochene Weise ein. Jede CIU 20-1 bis 20-N ist zur Erkennung eines bestimmten Schlüsselwortes, z. B. des Wortes "löschen", angeordnet, das ein Teilnehmer äußern kann, um eine Telefonnummer zu löschen, die der Teilnehmer eingibt. Wenn der Teilnehmer beispielsweise das Wort "löschen" sagt, nachdem er eine Anzahl von Ziffern einer Telefonnummer eingegeben hat, dann verwirft die, den Ruf bedienende CIU, z. B. CIU 20-1, als Reaktion auf die Erkennung dieser Lautäußerung (unter Verwendung von sprecherunabhängiger Spracherkennung zur Erkennung dieses Wortes wie oben besprochen) die empfangenen Ziffern und wiederholt die oben erwähnte Ansage.
Man kann erkennen, daß das SVS 40 auf die Verarbeitung des gesprochenen Kontocodes des Teilnehmers eine nennenswerte Menge von Verarbeitungszeit aufwendet. Um diese Verarbeitung zu beschleunigen, so daß so bald wie möglich eine Antwort zur Steuerung 45 zurückgesandt werden kann, kann der RTH 41 so angeordnet werden, daß er die, den Kontocode bildenden Ziffern unter einer Anzahl freier DSP 42-1 bis 4 2-P aufteilt. Beispielsweise könnte der RTH 41 die gesprochenen Ziffern und auch die in der Datenbank 50 gespeicherten assoziierten HMM entsprechenden freien DSP 42-1 bis 42-P zuführen. Demnach würde, wenn neun solche DSP frei sind, jeder dieser DSP eine Ziffer des Kontocodes verarbeiten.
Wenn man sich nun den Fig. 6-8 zuwendet, ist dort in Flußdiagrammform ein Programm zur Implementierung der Funktion des Systems 100 dargestellt. Insbesondere wird in das Programm bei Block 400 als Reaktion auf eine neue, über Vermittlung 10 empfangene Verbindung eingetreten. Bei Block 400 schreitet das Programm zum Block 401 fort, wo es ein kurzes Dienstmeldesignal, z. B. einen Ton, überträgt und dann eine Dienstnamenansage, z. B.. "Sprache direkt" überträgt. An dieser Stelle beginnt das Programm, den Ruf auf Empfang des Wortes "Bediener" oder des Wortes "löschen" zu überwachen und schreitet auf die oben besprochene Weise fort, wenn es eines dieser Worte empfängt. Das Programm schreitet dann zum Block 402 fort, wo es den Anrufer auffordert, seinen/ihren Kontocode (Kennung) einzugeben. Als Reaktion auf die Aufforderung kann der Anrufer entweder die seine Kontonummer bildenden Ziffern sagen oder die Ziffern über die Tonwahltastatur des Fernsprechstellengeräts des Anrufers eingeben. Bei Block 403 bestimmt das Programm, ob ein mit der eingegebenen Kontonummer assoziierter Kundendatensatz in der Datenbank 50 (Fig. 1) gespeichert ist. Wenn die Bestimmung sich als wahr herausstellt, schreitet das Programm zum Block 404 fort. Wenn nicht, dann schreitet das Programm zum Block 405 fort.
Bei Block 405 überprüft das Programm, ob der zweite Versuch des Anrufers, einen gültigen Kontocode einzugeben, ebenfalls fehlgegangen ist und leitet den Ruf über Block 406 zu einem Bediener weiter, wenn dies der Fall ist. Im anderen Fall schreitet das Programm zum Block 407 fort, wo es den Anrufer wieder auffordert, seinen Kontocode einzugeben.
Bei Block 404 überprüft das Programm, ob der eingegebene Kontocode durch Sprachsignale gekennzeichnet ist (d. h. der Anrufer die Ziffern sprach) und schreitet zu Block 408 fort, wenn dies der Fall ist. Im anderen Fall schreitet das Programm zum Block 409 fort, wo es den Anrufer auffordert, eine Reihe von Zufallsziffern zu wiederholen (sagen). Das Programm sammelt die Antwort des Anrufers darauf, wertet die Antwort aus, um Merkmalsvektoren zu erzeugen, die die Antwort wie oben unter Bezugnahme auf Fig. 3 besprochen kennzeichnen, und schreitet zum Block 408 fort. Bei Block 408 überprüft das Programm die Identität des Anrufers wie oben unter Bezugnahme auf Fig. 5 besprochen. Wenn die Sprache des Anrufers nicht bestätigt werden kann, schreitet das Programm zu 407 fort. Im anderen Fall schreitet das Programm zum Block 410 fort, wo es den Anrufer auffordert, ein angerufenes Ziel einzugeben. Wie oben erwähnt kann ein Anrufer eine Verbindung einleiten, indem er (a) eine Telefonnummer oder ein Anrufetikett sagt oder (b) die Telefonnummer oder den Zielwahlcode über die Tastatur des Sprechstellengeräts des Anrufers, z. B. Stelle 51, eingibt. Das Programm wartet dann auf eine Eingabe und schreitet bei Empfang derselben zum Block 411 fort. Bei Block 411 schreitet das Programm zum Block 418 fort, wenn es feststellt, daß der Anrufer eine Telefonnummer unter Verwendung der Sprechstellengerättastatur eingab (d. h. die Nummer ist durch entsprechende MFW-Töne gekennzeichnet). Wenn dies nicht der Fall ist, dann schreitet das Programm zum Block 412 fort, um zu bestimmen, ob der Anrufer die Telefonnummer gesprochen hat. Wenn die letztere Bestimmung sich als wahr erweist, schreitet das Programm zum Block 416 fort, wo es bewirkt, daß die zugehörige CIU die Sprachsignale des Anrufers (wie oben besprochen) in eine Telefonnummer umsetzt und schreitet dann zum Block 417 fort. Wenn sich die Bestimmung bei Block 412 als falsch erweist, schreitet das Programm zum Block 413 fort, um zu bestimmen, ob der Anrufer einen Zielwahlcode eingegeben hat. Wenn das Programm feststellt, daß der Anrufer keinen Zielwahlcode eingegeben hat, schreitet es zum Block 414 fort, um zu bestimmen, ob der Anrufer ein gesprochenes Anrufetikett eingegeben hat. Wenn das Programm feststellt, daß der Anrufer entweder einen Zielwahlcode oder ein Anrufetikett eingegeben hat, schreitet das Programm zum Block 415 fort, wo es bewirkt, daß das SVS 40 die Eingabe des Anrufers wie oben besprochen in eine Telefonnummer umsetzt. Danach schreitet das Programm zum Block 417 fort, wo es die resultierende Telefonnummer zum Anrufer überträgt und schreitet dann zum Block 418 fort, wo es bewirkt, daß die Telefonnummer als Impulse zum Netz 200 ausgegeben wird.
Wenn das Programm bei Block 414 feststellt, daß der Anrufer kein Anrufetikett eingegeben hat, schreitet das Programm zum Block 419 fort, wo es bestimmt, ob die letzte Eingabe des Anrufers einen zweiten Versuch, eine gültige Eingabe vom Anrufer zu erhalten, darstellt. Wenn dies der Fall ist, dann leitet das Programm den Ruf zu einem Bediener weiter. Wenn nicht, dann schreitet das Programm zum Block 410 fort, um wieder eine Aufforderung zur Eingabe einer Telefonnummer zu tätigen.
Bei Block 418 leitet das Programm über das System 100 eine abgehende Verbindung ein und weist dann das System 100 an, die ankommende Verbindung mit der abgehenden Rufverbindung zu verbinden. Danach schreitet das Programm zum Block 421 fort, wo es den Ruf weiterhin auf Empfang einer Anforderung eines Bedieners oder einer Anforderung, eine weitere Verbindung einzuleiten, überwacht. In einer beispielhaften Ausführungsform der Erfindung kann der Teilnehmer eine derartige Anforderung an jeder Stelle in der Bearbeitung des Rufs, d. h. zwischen Blöcken 402 und 417 eingeben, indem er das Wort "Bediener" sagt oder bestimmte Zeichen eingibt, die beispielsweise 0# kennzeichnen, nachdem die Verbindung hergestellt worden ist, d. h. Blöcke 418 und 421. Ähnlicherweise kann der Teilnehmer zur Eingabe einer Anforderung, eine weitere Verbindung einzuleiten, **9 eingeben.
In der jüngsten Vergangenheit hat eine große Anzahl von Telefonteilnehmern einen Sprachmitteilungs dienst wie beispielsweise das in der Fig. 1 gezeigte Sprachmitteilungssystem 300 bestellt. Kurz zusammengefaßt ähnelt die durch System 300 bereitgestellte Funktionalität der von einem herkömmlichen Anrufbeantworter bereitgestellte. Das heißt wenn ein Teilnehmer des Systems 300, z. B. der mit der Stelle S1 assoziierte Teilnehmer aus irgendeinem Grund einen Telefonanruf nicht beantwortet, dann wird der anrufende Teilnehmer eingeladen, eine Sprachmitteilung beim System 300 zu hinterlassen. Wenn der gerufene Teilnehmer jedoch eine Verbindung zum System 300 einleitet, weiß er nicht, daß der rufende Teilnehmer eine Sprachmitteilung beim System 300 hinterlassen hat. Diese Situation wird durch eine Anzahl von Sprachmitteilungssystemen adressiert, indem bewirkt wird, daß als Anzeige dafür, daß eine oder mehrere Sprachmitteilungen auf den Teilnehmer warten, eine Lampe an dem Sprechstellengerät des Teilnehmers leuchtet. Bei dem System 100 wird ein anderer Ansatz unternommen.
Insbesondere wird, wenn der neue Teilnehmer mit einem Sprachmitteilungsdienst, z. B. dem System 300, assoziiert ist, während des Bestellungs- und Registrierungsvorgangs vom Bediener 15 (a) eine Markierung, die anzeigt, daß der Teilnehmer mit einem Sprachmitteilungsdienst assoziiert ist, (b) die Telefonnummer dieses Dienstes und. (c) der Mitteilungsdienst-Kontocode bzw. das Mitteilungsdienst- Paßwort des Teilnehmers in den Datensatz der Datenbank 60 und Datensatz der Datenbank 50 des Teilnehmers eingefügt. Wenn danach der neue Teilnehmer eine Verbindung zum System 100 beispielsweise zum Zweck der Einleitung einer abgehenden Verbindung einleitet, dann leitet der Host 5 eine Verbindung zum Sprachmitteilungsdienst 300 über die Vermittlung 10 und das Netz 200 ein, während eine zugehörige CIU, z. B. CIU 20-1, die Verbindungsanforderung des Teilnehmers bearbeitet. Wenn dieses System den Ruf beantwortet, überträgt der Host 5 die Telefonnummer des Teilnehmers, wartet eine vorbestimmte Zeitlang und überträgt dann den assoziierten Kontocode (das assoziierte Paßwort). Als Reaktion auf diese Informationen überträgt das System 300 den Status von im System 300 für den Teilnehmer gespeicherten Sprachmitteilungen, wobei dieser Status von keine Sprachmitteilungen zu eine Anzahl von Sprachmitteilungen reichen kann. Zusätzlich bewirkt der Host 5 nach Übertragung des Kontocodes, daß die Vermittlung 10 die ankommende Verbindung des Teilnehmers auf die zwischen Vermittlung 10 und dem System 300 über das Netz 200 hergestellte Telefonverbindung aufschaltet. So kann dem Teilnehmer automatisch der Status seiner Sprachmitteilungen des Systems 300 dargeboten werden.
Wenn man sich nun der Fig. 10 zuwendet, ist dort ein beispielhafter Aufbau der Bezugsdatenbank 50 dargestellt. Insbesondere enthält die Datenbank 50 ein Paar Datensätze, z. B. 50-1 und 50-2, für jeden Teilnehmer des Systems 100. Ein Datensatz des Paars, z. B. Datensatz 50-1, enthält die Hidden-Markow-Modelle der die Ziffern null bis neun (und möglicherweise "o"), Adressen von Kohorten-HMM, Anrufetiketten und assoziierten Gebührenberechnungsetiketten kennzeichnenden Sprachsignale des Teilnehmers. Auch enthält der Datensatz verschiedene Statistiken, die auf die Überprüfung der Identität eines anrufenden Teilnehmers aus seinen Sprachsignalen bezogen sind. Beispielsweise können derartige Statistiken zur Aktualisierung von assoziierten Sprachschablonen oder Modellen benutzt werden und enthalten wieviel Male das System 100 eine derartige Überprüfung durchgeführt hat, wieviel Male diese Überprüfung erfolglos war, Mittelwerte und Varianzen von Lautäußerungswortdauern der Überprüfung und verschiedene Schwellwerte, die auf diese Überprüfung und die Erkennung von, durch den assoziierten Teilnehmer gesprochenen Ziffern und Etiketten bezogen sind. Der andere Datensatz des Paars, z. B. Datensatz 50-2, enthält die ASCII-(Text)Versionen der in Datensatz 50-1 enthaltenen Informationen und auch die zugehörigen Telefonnummern und Zielwahlcodes. Aus dieser Figur ist ersichtlich, daß jeder derartige Datensatz der Paare ein Feld für den assoziierten Kontocode enthält. Das Kontocodefeld enthält auch (nicht gezeigte) Teilfelder, die belegt sind, wenn der Kontocode mit einem oder mehreren Teilnehmern geteilt wird. Das heißt, der Inhalt der Teilfelder verkettet den zugehörigen Datensatz wie oben besprochen mit den anderen Datensätzen.
Wie in Fig. 11 gezeigt ist der Aufbau der Datenbank 60 etwas unterschiedlich. Wie oben erwähnt wird die Datenbank 60 zur Speicherung von Teilnehmer- Bestellungsinformationen benutzte wobei diese Informationen über eine Anzahl von Tabellen der Datenbank 60 gespeichert werden. Eine derartige Tabelle, die Tabelle 60-1, wird aus einer Mehrzahl von Datensätzen (CUS. PROF_1 bis CUS. PROF_N) gebildet, die jeweils für einen entsprechenden Teilnehmerspezifische Informationen enthalten. Solche spezifischen Informationen schließen beispielsweise den Namen und die Adresse, die Kontonummer, die Kreditgrenze, die Vorgabe-Gebührenberechnungskontonummer, die Gebührenberechnungsadresse und eine Anzahl von Adressen (Zeigern) der Datenbank 60, die auf Einträge in anderen Tabellen wie beispielsweise der Tabelle 60-4, zeigen, ein. (Auch enthält das Kontonummernfeld eine Anzahl von Teilfeldern, um den assoziierten Datensatz mit anderen Datensätzen zu verketten, wenn der assoziierte Kontocode mit anderen Teilnehmern geteilt wird.) Tabelle 60-4 wird ebenfalls aus einer Mehrzahl von Datensätzen (CUS. ID_1 bis CUS. ID_N) gebildet, die jeweils persönliche Informationen eines entsprechenden Teilnehmers enthalten, die vom Bediener 15 zur Überprüfung der Identität eines Teilnehmers benutzt werden. Diese Identitätsinformationen können beispielsweise die Sozialversicherungsnummer, den Geburtsort, den Mädchennamen der Mutter usw. eines Teilnehmers enthalten.
Von den in der Figur gezeigten Tabellen sind Tabellen 60-1 und 60-3 unter Verwendung der Kontonummer eines Teilnehmers indexiert. Insbesondere ist die Tabelle 60-3 aus einer Mehrzahl von Einträgen (CUS.LL_1 bis CUS.LBL_N) gebildet, wobei jeder derartige Eintrag die ASCII-Versionen von Anrufetiketten, assoziierten Telefonnummern, assoziierten Etikett-Gebührenberechnungskonten und entsprechenden Gebührenkontonumrnern enthält, die von einem entsprechenden Teilnehmer angegeben wurden. Jede derartige Gebührenkontonummer zeigt wiederum auf einen Eintrag in der Tabelle 60-1, wobei der Eintrag herkömmliche Gebührenberechnungsinformationen für die assoziierte Gebührenkontonummer enthält. Solche Gebühreninformationen schließen beispielsweise den Namen und die Adresse der Instanz (bzw. Person) ein, die für einen assoziierten Ruf, Gebührenberechnungszyklus (z. B. monatlich oder vierteljährlich), usw. ein.
Auch enthält die Datenbank 60 die Tabelle 60-5, die die elf Sätze von Ziffern enthält, die das System 100 während der Trainingphase einer Bestellung wie oben besprochen benutzt.
Wenn man sich nunmehr den Fig. 12 und 13 zuwendet, ist dort in Blockschaltbildform eine alternative Ausführungsform dargestellt, die die vom System 100 der Fig. 1 durchgeführten. Bestellungs- und Sprecherüberprüfungsfunktionalitäten zentralisiert und ein hochratiges Frame-Relais-Paketnetz zum Zusammenschalten dieser Funktionalitäten miteinander benutzt. Vorteilhafterweise kann mit jedem Bediener- Dienststellensystem (OSPS - Operator Service Position System) des Netzes 200, von denen eins, nämlich OSPS 205, in der Figur gezeigt ist, eine kleinere "abgespeckte" Version des sprachgeführten Systems 100 assoziiert sein. Auf diese Weise kann ein Teilnehmer leicht über ein OSPS auf eine sprachgeführte Kommunikationssystemplattform (VDCSP - Voice Directed Communications System Platform) zugreifen, indem er einen Telefonbediener-Zugriffscode, beispielsweise die Ziffern "00" wählt. Wenn ein Teilnehmer dies tut, beispielsweise der mit dem Sprechstellengerät S1 assoziierte Teilnehmer, dann leitet das OC 225 als Reaktion auf den Empfang dieser Ziffern den Ruf zum Netz 200 weiter, das wiederum den Ruf zu einem seiner OSPS, z. B. OSPS 205, weiterleitet.
Als Reaktion auf Empfang des Rufes bietet das OSPS 205 dem Anrufer die Wahl, einen Fernsprechbediener oder die von der VDCSP 100-1 bereitgestellten Dienste auszuwählen. Wenn der Teilnehmer die letztere Wahlmöglichkeit wählt, dann führt das OSES 205 die den Ruf führende Telefonverbindung zur Vermittlung 10 der VDCSP 100-1 weiter. Dabei liefert das OSPS 205 die Kennzeichnung der Leitung, die zur Verbindung des Rufes mit der Vermittlung 10 benutzt wird, über den Zeichengabesatz 13 zum Host 5. An dieser Stelle bearbeitet die VDSCP 100-1 unter Leitung des Hosts 5 den Ruf auf die oben in Verbindung mit der Fig. 1 besprochene Weise.
Aus der Figur ist ersichtlich, daß die kleinere VDCSP 100-1 immer noch den Hostprozessor 5, die Vermittlung 10, CIU 20-1 bis 20-N und das LAN 30 einschließt, die auf die oben besprochene Weise arbeiten. Auch enthält sie den Router 65-1, cier beispielsweise ein von Cisco Systems Inc. Menlo Park, Kalifornien erhältlicher herkömmlicher LAN/WAN-Router sein kann. Insbesondere bietet der Router 65-1 eine Schnittstelle zwischen seinem zugehörigen modifizierten System 100 und dem hochratigen Paketnetz 700, das beispielsweise das Frame-Relais-Netz Interspan von AT & T sein kann. Das heißt, der Router 65-1 entnimmt dem LAN 30-1 eine entweder an das zentrale Sprecherüberprüfungssystem (CSVS - Central Speaker Verification System) 500 oder an das Bestellungssystem 600 adressierte Nachricht und formatiert die Nachricht in ein Paket, so daß sie dem wohlbekannten Frame- Relais-Protokoll entspricht und liefert das Paket an eine Knotenstelle des zugehörigen Netzes 700 zur Abgabe an das beabsichtigte Ziel (es ist zu bemerken, daß Router 65-2 und 65-3 eine ähnliche Funktion ausüben).
Wenn das beabsichtigte Ziel das CSVS 500 ist, dann empfängt der Router 65-2 (der dem Router 65-1 ähnlich sein kann) ähnlicherweise das Paket von einer Knotenstelle des zugehörigen Paketnetzes 700, ändert das Format des empfangenen Pakets, so daß es dem wohlbekannten Nachrichtenprotokoll TCP/IP entspricht, und liefert die Nachricht zu ihrem zugehörigen LAN 30-2 zur Abgabe an die Steuerung 70. (In den Fig. 12 und 13 können LAN 30-1, 30-2 und 30-3 auch das wohlbekannte Ethernet-Netz sein). Die Steuerung 70 wiederum liefert die Nachricht an eine ihrer zugehörigen Sprachüberprüfungseinheiten (VVU - Voice Verification. Units) 400-1 bis 400-M auf Grundlage eines vorbestimmten Auswahlschemas, beispielsweise der in der Nachricht enthaltenen Teilnehmerkennung (dem Kontocode). Das heißt, VVU 400-1 bis 400-M sind mit entsprechenden Bereichen von Teilnehmerkennungen bzw. Kontocodes, z. B. 500.000 Kennungen, assoziiert. So werden mit einem ersten Bereich von Kennungen assoziierte Teilnehmerdatensätze in Bezugsdatenbank 50 der VVU 400-1 gespeichert. Mit einem zweiten Bereich von Kennungen assoziierte Teilnehmerdatensätze werden in Bezugsdatenbank 50 von VVU 400-2 gespeichert und so weiter.
Angenommen, die in der Nachricht enthaltene Kennung liegt innerhalb des ersten Bereichs von Kennungen, dann liefert die Steuerung 70 die Nachricht an Steuerung 45 der VVU 400-1. (Es ist zu bemerken, daß jede VVU 400-1 bis 400-M auf die oben in Verbindung mit Fig. 1 besprochene Weise arbeitet). Angenommen, die Nachricht ist eine Sprecherüberprüfungsanforderung, dann ladet die Steuerung 45 von VVU 400-1 (hiernach die Steuerung 45) wie oben besprochen die HMM und Kohorteninformationen, die mit der in der Nachricht enthaltenen Kennung assoziiert sind, aus ihrer assoziierten Bezugsdatenbank 50 herab. Dann liefert die Steuerung 45 die aus der Datenbank 50 herabgeladenen HMM und Kohorteninformationen und die in der Nachricht enthaltenen Sprachmodelle zur zugehörigen RTH 41 zur Bearbeitung. Danach bildet die Steuerung 45 die Ergebnisse dieser Bearbeitung in eine an den Urheber der über das Netz 700 empfangenen Nachricht adressierte Nachricht und überträgt die neu gebildete Nachricht über das LAN 30-2. Zusätzlich lädt die Steuerung 45 die Sprachschablonen der mit der empfangenen Kennung assoziierten Anruf- und Gebührenberechnungsetiketten aus der zugehörigen Bezugsdatenbank 50 herab und fügt diese Schablonen in die gebildete Nachricht ein, die sie über das LAN 30-2 überträgt. Die Steuerung 70 wiederum entnimmt die Nachricht aus dem LAN 30-2 und bietet sie dem Router 65-2 an. Auf ähnliche Weise formatiert der Router 65-2 die Nachricht vom TCP/IP- Protokoll in das Frame-Relais-Protokoll um und liefert die umformatierte (n) Paketnachricht(en) an die Knotenstelle seines zugehörigen Netzes 700 zur Abgabe an die VDCSP 100-1. Der Router 65-1 nimmt auf ähnliche Weise die Paketnachricht aus der Knotenstelle seines zugehörigen Netzes 700 an, formatiert die Nachricht(en) um, so daß sie dem TCP/IP-Protokoll entspricht und liefert die Ergebnisse an LAN 30-1 zur Abgabe an ein bestimmtes der Elemente der VDCSP 100-1, z. B. CIU 20-1. Die CIU 20-1 wiederum lädt die Überprüfungsergebnisse aus der Nachricht herab und schreitet auf die oben besprochene Weise fort. Auch lädt die CIU 20-1 die oben erwähnten Schablonen herab und speichert sie in ihrem lokalen Speicher. Mit diesen Schablonen versehen kann die CIU 20-1 dann selbst die zugehörige Lautäußerung eines Anrufetiketts und/oder Gebührenberechnungsetiketts des anrufenden Teilnehmers bearbeiten, wodurch sich die Notwendigkeit der Durchführung dieser Funktionalität in Verbindung mit CSVS 500 über das Netz 700 erübrigt.
Aus der Figur ist ersichtlich, daß der Bestellungsteil des oben besprochenen Systems 100 (Fig. 1) nunmehr das Bestellungssystem 600 bildet. Wie das System 100 enthält das Bestellungssystem 600 die Bedienerstelle 15 (die eine Mehrzahl derartiger Stellen darstellt), den Host 5, die Vermittlung 10, die SIU 21, die Steuerungen 25 und 55 und die Datenbank 60, die auf die oben in Verbindung mit Fig. 1 besprochene Weise miteinander zusammenwirken. Das Bestellungssystem 600 wirkt immer noch auf die oben besprochene Weise mit einer Steuerung 45 zusammen. Diese Zusammenwirkung findet jedoch nunmehr über seinen zugehörigen Router 65-3 und das Netz 700 statt.

Claims

1. Verfahren zur Überprüfung eines, durch eine Einzelperson erhobenen Identitätsanspruchs auf der Grundlage eines, eine durch die Einzelperson bereitgestellte Lautäußerung darstellenden Signals, mit folgenden Schritten:

a. Auswerten des die Lautäußerung darstellenden Signals, um mehrere Merkmalssignale zu bilden, die die Lautäußerung kennzeichnen;

b. Bilden eines ersten Likelihoodsignals auf der Grundlage der mehreren Merkmalssignale und eines oder mehrerer Hidden-Markow-Modelle, die unter Verwendung von Lautäußerungen trainiert worden sind, die durch eine Person gesprochen worden sind, auf deren Identität Anspruch erhoben wird, wobei das erste Likelihoodsignal eine Wahrscheinlichkeit widerspiegelt, daß die Lautäußerung der Einzelperson durch die Person gesprochen wurde, auf deren Identität Anspruch erhoben wird;

c. Bilden von einem oder mehreren anderen Likelihoodsignalen auf der Grundlage der mehreren Merkmalssignale und eines oder mehrerer Hidden-Markow- Modelle, die unter Verwendung von Lautäußerungen trainiert worden sind, die von einer Menge von einem oder mehreren anderen Sprechern gesprochen worden sind, die der Person, auf deren Identität Anspruch erhoben wird, akustisch ähnlich sind, wobei der besagte eine oder die besagten mehreren anderen Sprecher, die der Person, auf deren Identität Anspruch erhoben wird, akustisch ähnlich sind, aus einem Universum von Sprechern auf der Grundlage eines Kriteriums akustischer Ähnlichkeit ausgewählt worden sind, wobei das Kriterium auf dem einen oder den mehreren Hidden- Markow-Modellen der Person, auf deren Identität Anspruch erhoben wird, beruht, wobei das Universum von Sprechern einen oder mehrere Sprecher einschließt, die der Person, auf deren Identität Anspruch erhoben wird, akustisch nicht ähnlich sind, auf der Grundlage des Kriteriums akustischer Ähnlichkeit, wobei die anderen Likelihoodsignale Wahrscheinlichkeiten widerspiegeln, daß die Lautäußerung durch den besagten einen oder die besagten mehreren anderen Sprecher gesprochen worden ist, die der Person, auf deren Identität Anspruch erhoben wird, akustisch ähnlich sind; und

d. Bilden eines Überprüfungssignals auf der Grundlage des ersten Likelihoodsignals und eines oder mehrerer der anderen Likelihoodsignale und nicht auf der Grundlage von Hidden-Markow-Modellen, die unter Verwendung von Lautäußerungen, die von mindestens einem der besagten ein oder mehreren Sprecher gesprochen worden sind, trainiert worden sind, die der Person, auf deren Identität Anspruch erhoben wird, akustisch nicht ähnlich sind, wobei das besagte Überprüfungssignal anzeigt, ob die Einzelperson die Person ist, auf deren Identität Anspruch erhoben wird.

2. Verfahren nach Anspruch 1, wobei die Einzelperson zur Bereitstellung der Lautäußerung aufgefordert wird.

3. Verfahren nach Anspruch 2, wobei die Lautäußerung eine Reihe von Ziffern ist.

4. Verfahren nach Anspruch 3, wobei die Ziffern in der Reihe zufallsmäßig gewählt werden.

5. Verfahren nach Anspruch 1, wobei die Lautäußerung eine vorbestimmte Menge von einem oder mehreren Worten ist.

6. Verfahren nach Anspruch 1, wobei die durch die Einzelperson bereitgestellte Lautäußerung mit Verwendung eines Kommunikationskanals mit einer ersten Kennlinie bereitgestellt wird und wobei zum Trainieren der Hidden-Markow-Modelle der Person, auf deren Identität Anspruch erhoben wird, benutzte Lautäußerungen mit Verwendung eines Kommunikationskanals mit einer zweiten Kennlinie bereitgestellt werden.

7. Verfahren nach Anspruch 6, wobei der Kommunikationskanal mit einer ersten Kennlinie ein Mikrophon mit einer ersten Mikrophonkennlinie umfaßt und wobei der Kommunikationskanal mit einer zweiten Kennlinie ein Mikrophon mit einer zweiten Mikrophonkennlinie umfaßt.

8. Verfahren nach Anspruch 1, wobei der Schritt des Auswertens des Signals den Schritt des Segmentierens der Merkmalsignale in Gruppen von Merkmalsignalen umfaßt, die im wesentlichen Worte der Lautäußerung darstellen.

9. Verfahren nach Anspruch 8, wobei der Schritt des Segmentierens unter Verwendung eines Spracherkennungssystems durchgeführt wird.

10. Verfahren nach Anspruch 1, wobei das erste und andere Likelihoodsignale auf der Grundlage einer Viterbi-Einstufung gebildet werden.

11. Verfahren nach Anspruch 1, wobei das Kriterium akustischer Ähnlichkeit das Bestimmen eines Maßes an akustischer Ähnlichkeit zwischen der Person, auf deren Identität Anspruch erhoben wird, und einer anderen Person auf der Grundlage von

a. einem Vergleich von Signalen, die Lautäußerungen darstellen, die durch die Person gesprochen worden sind, auf deren Identität Anspruch erhoben wird, und von Hidden-Markow-Modellen der anderen Person; und

b. einem Vergleich von Signalen, die Lautäußerungen darstellen, die durch die andere Person gesprochen worden sind, und von Hidden-Markow-Modellen der Person, auf deren Identität Anspruch erhoben wird, umfaßt.

12. Verfahren nach Anspruch 1, wobei der Schritt des Bildens eines Überprüfungssignals den Schritt des Bildens eines Signals, das eine Statistik von einem oder mehreren anderen Likelihoodsignalen widerspiegelt, umfaßt.

13. Verfahren nach Anspruch 12, wobei das Überprüfungssignal anzeigt, daß die Einzelperson die Person ist, auf deren Identität Anspruch erhoben wird, als Reaktion darauf, daß das erste Likelihoodsignal die Statistik der anderen Likelihoodsignale überschreitet.

14. Verfahren nach Anspruch 12, wobei das erste und die anderen Likelihoodsignale logarithmische Likelihood-Wahrscheinlichkeiten widerspiegeln.

15. Verfahren nach Anspruch 14, wobei der Schritt des Bildens eines Überprüfungssignals weiterhin den Schritt des Bildens eines Signals, das Eine Differenz zwischen dem ersten Likelihoodsignal und dem eine Statistik von einem oder mehreren anderen Likelihoodsignalen widerspiegelnden Signal widerspiegelt, umfaßt.

16. Verfahren nach Anspruch 12, wobei der Schritt des Bildens eines Überprüfungssignals weiterhin den Schritt des Bildens eines Signals, das ein Verhältnis zwischen dem ersten Likelihoodsignal und dem eine Statistik von einem oder mehreren anderen Likelihoodsignalen widerspiegelnden Signal widerspiegelt, umfaßt.