DE60214850T2

DE60214850T2 - Für eine benutzergruppe spezifisches musterverarbeitungssystem

Info

Publication number: DE60214850T2
Application number: DE2002614850
Authority: DE
Inventors: Peter Beyerlein
Original assignee: Philips Intellectual Property and Standards GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2001-06-06
Filing date: 2002-06-05
Publication date: 2007-05-10
Anticipated expiration: 2022-06-06
Also published as: DE60214850D1; JP4837887B2; WO2002099785A1; EP1402518B1; US9009043B2; ATE340399T1; DE10127559A1; US20120310647A1; US9424838B2; US20040148165A1; US20150179164A1; EP1402518A1; JP2004529390A

Description

Die vorliegende Erfindung bezieht sich auf ein Musterverarbeitungssystem und insbesondere auf ein Sprachverarbeitungssystem. Musterverarbeitungssysteme und insbesondere solche mit Spracherkennung werden an vielen Stellen und für viele Anwendungen eingesetzt. Beispiele sind die über Telefon erreichbaren automatischen Auskunfts- und Transaktionssysteme, z. B. die automatische Fahrplanauskunft der niederländischen Openbaar Vervoer Reisinformatie (OVR) oder die Telefonbankingsysteme vieler Banken, sowie die in der Stadt Wien aufgestellten Informationskioske der Firma Philips, an denen ein Benutzer mit Hilfe von Tastatur- und Spracheingaben z. B. Informationen über die Wiener Sehenswürdigkeiten und Hotels erhalten kann.
Sollen Musterverarbeitungssysteme von vielen Benutzern verwendet werden, werden in der Regel für die Musterverarbeitung so genannte benutzerunabhängige Musterverarbeitungsdatensätze verwendet, d. h., bei der Verarbeitung von Mustern unterschiedlicher Benutzer wird kein Unterschied zwischen den Benutzern gemacht; im Falle der Spracherkennung werden so z. B. für alle Sprecher dieselben akustischen Referenzmodelle verwendet. Dem Fachmann ist jedoch bekannt, dass die Qualität der Musterverarbeitung durch die Verwendung benutzerspezifischer Musterverarbeitungsdatensätze verbessert wird. Z. B. steigt die Genauigkeit von Spracherkennungssystemen, wenn man für einen Sprecher eine speziell auf ihn abgestimmte Vokaltraktlängennormierung seiner sprachlichen Äußerungen durchführt.
Derartige sprecherabhängigen Spracherkennungssysteme werden auch bereits weitgehend in Anwendungen mit kleinen Benutzerzahlen eingesetzt. Beispiele sind persönliche Diktiersysteme, z. B. FreeSpeech von Philips, oder die professionellen Diktiersysteme für geschlossene Benutzergruppen, z. B. SpeechMagic von Philips für den Bereich der Röntgenologie. Einer Übertragung dieser Techniken auf Musterverarbeitungssysteme mit vielen Benutzern stehen jedoch verschiedene Hemmnisse im Wege.
Zum einen würde die große Zahl der Benutzer eines derartigen Systems zu einem hohen Speicherbedarf für die benutzerspezifischen Musterverarbeitungsdatensätze führen. Zum anderen muss davon ausgegangen werden, dass eine größere Zahl der Benut zer nicht bereit wäre, den Trainingsaufwand für die Erstellung ihrer benutzerspezifischen Musterverarbeitungsdatensätze auf sich zu nehmen. Da sich nämlich die Musterverarbeitungssysteme der einzelnen Hersteller und teilweise auch die einzelnen Produkte eines Herstellers voneinander unterscheiden, und daher die benutzerspezifischen Musterverarbeitungsdatensätze nicht zwischen den Systemen austauschbar sind, wäre dieser Trainingsaufwand für nahezu jedes System nötig, das ein Benutzer verwenden will.
Eine Lösung für dieses Problem, die in dem Dokument US 5.895.447 A vorgeschlagen wird, besteht darin, in Hinblick auf die Spracherkennungsleistung für einen Benutzer Sprechergruppen zu bilden und für jede Gruppe ein einzelnes sprecherklassenabhängiges Modell zu trainieren. Wenn die Sprechergruppen ausreichend verfeinert und gut trainiert sind, kann man eine Spracherkennungsleistung erhalten, die mit der von sprecherabhängigen Systemen vergleichbar ist. Wenn jedoch ein Benutzer ein derartiges System benutzen möchte, muss das System zuerst herausfinden, welcher Sprechergruppe der Benutzer zugewiesen werden sollte. Bevor der Benutzer also tatsächlich mit der Benutzung des Systems mit dem ihm zugewiesenen sprecherklassenabhängigen Modell beginnen kann, muss er dem System zunächst einige Trainingsäußerungen liefern, die das System dann verwendet, um den Benutzer einer Sprecherklasse zuzuweisen. Diese anfängliche Trainingszeit wird für jede neue Benutzung des Systems benötigt und ist daher sehr unpraktisch für den Benutzer.
Um dieses Problem zu lösen, wurde daher in der Veröffentlichung „Improving Speech Recognition Accuracy With Multiple Phonetic Models. IBM Technical Disclosure Bulletin, IBM Corp. New York, US, Band 38, Nr. 12, 1. Dezember 1995 (1995-12-01), Seite 73, XP000588077, ISSN: 0018-8689" die Bildung von phonetischen Modellen ausschließlich anhand von a priori Kriterien vorgeschlagen, d. h. ohne Berücksichtigung der Spracherkennungsleistung für einen Benutzer, jedoch a priori jedem möglichen Benutzer des Systems bekannt. Beispiele für derartige phonetische a priori Modelle sind diejenigen, die auf Akzent oder Dialekt (Sprecher aus verschiedenen Regionen der Vereinigten Staaten oder der Welt mit leichten oder starken Akzenten), Alter (Erwachsene, Jugendliche und Kinder) und Geschlecht (männlich und weiblich) beruhen.
Das Problem dieser Vorgehensweise besteht darin, dass phonetische a priori Modelle nur in Hinblick auf die durchschnittliche Spracherkennungsleistung der Mitglieder ausgewählt werden können, die zu einem derartigen phonetischen a priori Modell gehören, d. h. für einen „typischen" Benutzer eines derartigen Modells. Es kann also der Fall eintre ten, dass ein spezifischer Benutzer, obwohl a priori zu einem spezifischen phonetischen Modell gehörend, weil er z.B. männlich ist, bei einem anderen phonetischen Modell wie z.B. dem weiblichen phonetischen Modell eine bessere Erkennungsleistung haben wurde, was in diesem Beispiel – männlich versus weiblich – typischerweise der Fall bei Männern ist, die eine hohe Stimme haben. Je verfeinerter die phonetischen a priori Modelle sind, desto markanter werden diese Probleme. Für das Beispiel der auf dem Akzent basierenden phonetischen a priori Modelle wird in der obigen Veröffentlichung daher vorgeschlagen, nicht a priori einen Benutzer bezüglich seines Akzentgrads (stark oder leicht) zu fragen, sondern auf Sprechergruppierungsverfahren analog derjenigen zurückzugreifen, die in dem Dokument US 5.895.447 A für die Bestimmung eines verfeinerten phonetischen Modells vorgeschlagen wurden.
Als Konsequenz müssen derartige phonetischen a priori Modelle relativ grob sein und erreichen somit bei isolierter Verwendung, d.h. ohne mit Sprechergruppierungsverfahren kombiniert zu werden, neben dem Problem einer geringen Spracherkennungsleistung für untypische Benutzer, die a priori zu dem phonetischen Modell gehören, selbst für typische Benutzer, die zu diesem phonetischen Modell gehören, niemals eine Spracherkennungsleistung, die mit der eines sprecherabhängigen phonetischen Modells vergleichbar ist.
In den Patent Abstracts of Japan, JP 08-123461 A wird daher vorgeschlagen, dass ein Benutzer eine persönliche Informationskarte (individual information card) bei sich trägt, welche die für ihn charakteristischen Daten (individual information data) aufnimmt. Um dann die Sprachverarbeitung (speech processing) eines entsprechenden Systems (speech interface system) auf sich zu spezialisieren (specializing the system for the individual), schiebt er z. B. seine Informationskarte in einen Schlitz des Systems. Dieses liest seine Daten von der Karte und führt mit ihnen eine benutzerabhängige Verarbeitung seiner sprachlichen Äußerungen durch.
Die Verwendung einer persönlichen Informationskarte löst also die Problematik des hohen Speicherbedarfs und des mehrfachen Erstellens benutzerspezifischer Daten, vorausgesetzt die Hersteller der Sprachverarbeitungssysteme unterstützen die Verwendung der Karte in ihren Systemen. Sie schafft jedoch die Notwendigkeit, dass ein Benutzer seine Karte zur Systemnutzung stets bei sich führen und jedes System eine Eingabevorrichtung für die Karte vorsehen muss. Beispielsweise ist sie für die Nutzung eines telefonischen Auskunftssystems nicht einsetzbar.
Aufgabe der Erfindung ist es daher, ein Musterverarbeitungssystem, insbe sondere ein Sprachverarbeitungssystem, der eingangs genannten Art mit einer den benutzerspezifischen Musterverarbeitungssystemen vergleichbaren Qualität zu schaffen, das die Problematik des hohen Speicherbedarfs und des mehrfachen Erstellens benutzerspezifischer Daten löst, ohne dass der Benutzer zur Systembenutzung zusätzlicher Ausrüstung wie z. B. einer Informationskarte bedarf, und das auch mit bisherigen Benutzerterminals wie z. B. dem Telefon benutzt werden kann.
Diese Aufgabe wird gelöst einerseits durch ein Verfahren zur Musterverarbeitung, insbesondere zur Sprachverarbeitung mit den Verfahrensschritten:

– Entgegennahme einer eindeutigen Kennzeichnung einer für den Benutzer in Hinblick auf die Mustererkennungsleistung für den Benutzer in einer Definitionsphase festgelegten Benutzergruppe und
– Verwendung eines für die genannte Benutzergruppe spezifischen Musterverarbei tungsdatensatzes für die Verarbeitung einer Mustereingabe des Benutzers, und andererseits durch ein Musterverarbeitungssystem, insbesondere ein Sprachverarbeitungssystem, das
– zur Entgegennahme einer eindeutigen Kennzeichnung einer für den Benutzer in Hinblick auf die Musterverarbeitungsleistung für den Benutzer in einer Definitionsphase festgelegten Benutzergruppe und
– zur Verwendung eines für die genannte Benutzergruppe spezifischen Musterverarbeitungsdatensatzes für die Verarbeitung einer Mustereingabe des Benutzers vorgesehen ist.

Durch die Einteilung der Benutzer in Benutzergruppen wird die Problematik des hohen Speicherbedarfes vermieden. Darüber hinaus können die benutzergruppenspezifischen Musterverarbeitungsdatensätze auch auf zentralen Datenspeichern untergebracht und über ein Netzwerk den Musterverarbeitungsvorrichtungen zur Verfügung gestellt werden. Damit ergeben sich durch die Vermeidung mehrfacher Datenhaltung weitere Möglichkeiten der Speicherersparnis. Die Mehrfachverwendung der benutzergruppenspezifischen Musterverarbeitungsdatensätze in mehreren Systemen vermeidet die Problematik einer mehrfachen Festlegung der Benutzergruppe für den Benutzer.
Zur Benutzung des benutzergruppenspezifischen Musterverarbeitungssystems muss ein Benutzer dem System nur seine Benutzergruppe z. B. durch eine Nummer oder einen symbolischen Namen mitteilen. Während die Benutzergruppeninformation auch auf einer Chipkarte untergebracht werden kann, genügt es zur Benutzung z. B. eines telefo nischen Auskunftssystems auch, dem System die Benutzergruppe verbal mitzuteilen oder z. B. bei einer numerischen Codierung die Nummer über die Tastatur eines DTMF-fähigen Telefons einzugeben. Damit lässt sich ein solches benutzergruppenspezifisches Musterverarbeitungssystem auch ohne zusätzliche Ausrüstung wie z. B. einer Informationskarte und auch mit bisherigen Benutzerterminals wie z. B. einem Telefon benutzen.
Die Festlegung der Benutzergruppe für einen Benutzer kann, wie in Anspruch 2 beansprucht, in einer Trainingsphase erfolgen, in welcher der Benutzer z. B. einen vorgegebenen Text sprechen muss, den ein Trainingssystem aufnimmt und zur Bestimmung der Benutzergruppe verwendet. Diese Trainingsphase kann unabhängig von einer Benutzung eines benutzergruppenspezifischen Musterverarbeitungssystems erfolgen. Sie kann jedoch einem „neuen" Benutzer, d. h. einem Benutzer, dem noch keine Benutzergruppe zugewiesen wurde, auch bei Benutzung des Systems angeboten werden. Weiter ist es denkbar, die während der Systembenutzung anfallenden Mustereingaben des Benutzers, die vielleicht zunächst mit einer benutzerunabhängigen Musterverarbeitung behandelt wurden, für die erstmalige oder auch die Neufestlegung der Benutzergruppe zu verwenden. Letzteres könnte sich ergeben, wenn sich die Mustercharakteristik des Benutzers oder die Benutzergruppen des Systems verändert haben.
Dem Fachmann sind z. B. aus der Literatur zahlreiche Verfahren aus dem Bereich der Benutzeradaption bekannt, um eine solche Festlegung der Benutzergruppe vorzunehmen. Manche dieser Verfahren wie z. B. die Sprechergruppierung (engl. „speaker clustering") aus der Spracherkennung führen dabei unmittelbar zu einer Benutzergruppe. Andere wie z. B. „adaptive speaker clustering", MLLR oder MAP aus der Spracherkennung oder auch die „eigenfaces" aus der Bilderkennung werden üblicherweise eingesetzt, um benutzerspezifische Musterverarbeitungsdatensätze zu erhalten. Durch eine Quantelung, d. h. durch eine Beschränkung der benutzerspezifischen Adaptionsparameter auf bestimmte Stufen, lässt sich jedoch die Auflösung der Adaptionsverfahren so weit vergröbern, dass sich die gewünschte Anzahl an Benutzergruppen einstellt.
Im Anspruch 3 wird definiert, wie die Festlegung der Benutzergruppe für den Benutzer durch den Benutzer beeinflussbar ist. Es ist dabei z. B. denkbar, dass ein System Benutzergruppen unterschiedlicher Güte anbietet. So kann ein System beispielsweise Benutzergruppen hoher Güte anbieten, indem es für diese Gruppen z. B. sehr fein aufgelöste akustische Referenzmodelle anbietet und sich in einer solchen Benutzergruppe nur Benutzer sehr ähnlicher Sprech- und Verhaltensweisen befinden. Dadurch könnten einer sol chen Benutzergruppe z. B. bei einer Spracherkennung annähernd gute Erkennungsgenauigkeiten geboten werden, wie dies bei benutzerabhängigen Systemen der Fall wäre. Der dazu im System notwendige höhere Aufwand könnte über eine entsprechende Preistarifstruktur an die Benutzer weitergegeben werden.
Die abhängigen Ansprüche 4 und 5 beziehen sich auf zwei vorteilhafte Möglichkeiten der Benutzereingabe. Zum einen können Benutzereingaben an einem öffentlichen Benutzerterminal wie z. B. einem eingangs erwähnten Informationskiosk oder aber einem Bankautomaten gemacht werden. Zum anderen kann ein Benutzer ein Telefon oder auch einen PC oder Laptop benutzen, wobei seine Eingaben über ein Netzwerk, z. B. das Telefonnetz oder das Internet, übermittelt werden.
Der abhängige Anspruch 6 spezifiziert einige mögliche Bestandteile eines benutzergruppenspezifischen Musterverarbeitungsdatensatzes:

– eine benutzergruppenspezifische Sprache und/oder Dialekt,
– eine benutzergruppenspezifische Merkmalsextraktion, insbesondere eine benut zergruppenspezifische Vokaltraktlängennormierung,
– ein benutzergruppenspezifisches akustisches Referenzmodell,
– ein benutzergruppenspezifisches Vokabular,
– ein benutzergruppenspezifisches Sprachmodell und/oder
– ein benutzergruppenspezifisches Dialogmodell.

Dies sind typische Bestandteile eines solchen Datensatzes, der beispielsweise für eine benutzergruppenspezifische Spracherkennung verwendet werden kann. Dabei können die akustischen Referenzmodelle z. B. in der Form so genannter Hidden-Markov-Modelle für die Laute einer Sprache vorliegen. Benutzergruppenspezifische Vokabularien enthalten z. B. die typischerweise von einer Benutzergruppe für eine Anwendung verwendeten Wörter. Sprachmodelle können alle Beziehungen zur Bildung einer Wortfolge also beispielsweise auch grammatische Regeln oder semantische Präferenzen der Benutzergruppe umfassen, während Dialogmodelle die kennzeichnenden Muster der Interaktion zwischen dem System und Benutzern einer Benutzergruppe angeben.
Neben der Spracherkennung umfasst die Erfindung auch andere Arten der benutzergruppenspezifischen Musterverarbeitung wie beispielsweise die benutzergruppenspezifische Sprachcodierung, z. B. durch Verwendung benutzergruppenspezifischer Codebücher. Aber auch die benutzergruppenspezifische Handschrifterkennung und Mimikverarbeitung, z. B. in Systemen zum „Online-Chatten" mit animierten Charakteren, so genannten Avataren, fällt in den Bereich der Erfindung.
In Anspruch 7 wird beansprucht, das System zur Beschaffung von Informationen wie z. B. Fahrplan- oder touristischen Auskünften zu benutzen. Weiter wird beansprucht, das System zu verwenden für die Vergabe von Aufträgen wie z. B. für das Tätigen von Einkäufen an einem Automaten oder das Erledigen von Bankgeschäften über das Internet.
Diese und weitere Aspekte und Vorteile der Erfindung werden im Folgenden unter Bezugnahme auf die Ausführungsbeispiele und insbesondere unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert. Es zeigen:
die 1 und 2 Ausführungsformen des erfindungsgemäßen benutzergruppenspezifischen Musterverarbeitungssystems,
3 eine schematische Darstellung des Inhalts eines Datenspeichers für die benutzergruppenspezifischen Musterverarbeitungsdatensätze,
4 den Ablauf einer Benutzung eines erfindungsgemäßen benutzergruppenspezifischen Musterverarbeitungssystems in Form eines Ablaufplans.
1 zeigt eine Ausführungsform des erfindungsgemäßen benutzergruppenspezifischen Musterverarbeitungssystems, das für die Benutzereingaben ein öffentliches Benutzerterminal 10 vorsieht. Typische Anwendungen einer solcher Ausführungsform der Erfindung sind die Erledigung von Bankgeschäften an Bankautomaten 10, der Abruf von Informationen an den eingangs erwähnten Informationskiosken 10 oder auch der Kauf von Fahrkarten an Fahrkartenautomaten 10.
Das öffentliche Benutzerterminal 10 verfügt über eine graphische Ausgabeeinheit (Display) 11, eine Eingabetastatur 12, ein Mikrofon 13 zur Eingabe sprachlicher Äußerungen eines Benutzers und einen Eingabeschlitz 14 für eine benutzereigene Chipkarte 70, z. B. eine EC- oder Kundenkarte. Weiterhin enthält es eine lokale Spracherkennungsvorrichtung 42, die über einen lokalen Datenspeicher 32 zur Speicherung von benutzergruppenspezifischen Musterverarbeitungsdatensätzen zur benutzergruppenspezifischen Sprachverarbeitung verfügt. Auf der benutzereigenen Chipkarte 70, die zur Benutzung des Systems in den Eingabeschlitz 14 eingeschoben wird, befindet sich z. B. ein Chip 71 zur Speicherung für die Anwendung typischer Daten, beispielsweise für eine Bankkarte die Kontonummer des Girokontos, sowie ein weiterer Chip 72 zur Speicherung einer eindeutigen Kennzeichnung der für die benutzergruppenspezifische Sprachverarbeitung festgeleg ten Benutzergruppe des Benutzers.
Eine derartige eindeutige Kennzeichnung kann z. B. aus einer Nummer bestehen, denkbar ist aber auch ein symbolischer Name, beispielsweise der Name einer öffentlich bekannten Person, die ebenfalls zu dieser Benutzergruppe gehört, so dass ihre Sprachverarbeitungscharakteristik typisch für die Benutzergruppe ist. Einen derartigen symbolischen Name aber auch eine Nummer kann sich ein Benutzer gut merken, so dass eine derartige eindeutige Kennzeichnung dem Musterverarbeitungssystem auch ohne Hilfe einer Chipkarte z. B. über das Mikrofon 13 oder die Eingabetastatur 12 übermittelt werden kann. In diesem Fall entfiele dann der Chip 72 auf der Chipkarte 70. Weiter können alle Informationen auf der Chipkarte 70 inklusive einer eventuellen Benutzergruppenkennzeichnung auch auf einem einzigen Chip 71 untergebracht werden.
Speichert man alle benutzergruppenspezifischen Musterverarbeitungsdatensätze auf dem lokalen Datenspeicher 32, so kann die lokale Spracherkennungsvorrichtung 42 vollständig unabhängig lokal arbeiten. Ein derartiger „Stand alone"-Automat eignet sich z. B. besonders gut für den Verkauf von Zigaretten oder anderen direkt im Automaten verfügbaren Waren. Das öffentliche Benutzerterminal 10 kann aber auch über ein Netzwerk 20 mit weiteren Datenspeichern 30 ... 31 zur Speicherung von benutzergruppenspezifischen Musterverarbeitungsdatensätzen zur benutzergruppenspezifischen Spracherkennung verbunden werden. Bei dem Netzwerk 20 kann es sich dabei z. B. um ein privates MAN (Metropolitan Area Network), beispielsweise das Netzwerk einer Bank, handeln. Das Netzwerk 20 kann aber auch durch ein öffentliches Netzwerk und insbesondere durch das Internet realisiert werden. Als Mischform sind auch beispielsweise auf Basis des Internets verwirklichte VPNs (Virtual Private Networks) möglich.
2 zeigt eine weitere Ausführungsform des erfindungsgemäßen benutzergruppenspezifischen Musterverarbeitungssystems. Wie in 1 sind wieder das Netzwerk 20 und die daran angeschlossenen Datenspeicher 30 ... 31 dargestellt. Im Gegensatz zu 1 sind jedoch auch die Spracherkennungsvorrichtungen 40 ... 41 an das Netzwerk 20 angeschlossen. Die Benutzereingaben erfolgen hier an einem öffentlichen Benutzerterminal 10, das jedoch im Gegensatz zu 1 über keine lokale Spracherkennungsvorrichtung 42 mit lokalem Datenspeicher 32 verfügt, oder über ein Telefon 60 oder auch über einen PC, Laptop oder dergleichen 50, die alle dafür am Netzwerk 20 angeschlossen sind bzw. dazu damit verbunden werden können. Diese und andere Eingabemöglichkeiten wie z. B. das in 1 gezeigte öffentliche Benutzerterminal 10 mit lokaler Spracherkennungs vorrichtung können in einem benutzergruppenspezifischen Musterverarbeitungssystem alle oder auch nur teilweise verwirklicht werden.
Die in den 1 und 2 dargestellten Szenarien unterscheiden sich also vor allem in der Anordnung der Spracherkennungsvorrichtung 42 bzw. 40 ... 41, in der die Erkennung der sprachlichen Äußerungen eines Benutzers erfolgt. Die in 1 lokal im öffentlichen Benutzerterminal 10 untergebrachte Spracherkennungsvorrichtung 42 eignet sich besonders für den Fall, dass nur einfache Kommandos erkannt werden müssen und das öffentliche Benutzerterminal 10 hauptsächlich von immer denselben Kunden benutzt wird. In diesem Fall genügt eine relativ einfache und kostengünstige Spracherkennungsvorrichtung 42 und zur benutzergruppenspezifischen Spracherkennung können die benutzergruppenspezifischen Musterverarbeitungsdatensätze der Hauptnutzer auf dem lokalen Datenspeicher 32 der Spracherkennungsvorrichtung 42 gehalten werden. Weitere benutzergruppenspezifischen Musterverarbeitungsdatensätze, die z. B. von durchreisenden Benutzern benötigt werden und die nicht lokal im Datenspeicher 32 vorhanden sind, werden von den über das Netzwerk 20 angeschlossenen Datenspeichern 30 ... 31 geladen. Dadurch ergibt sich insgesamt nur eine geringe Belastung des Netzwerkes 20.
In 2 erfolgt die Spracherkennung der sprachlichen Äußerungen eines Benutzers in den über das Netzwerk angeschlossenen Spracherkennungsvorrichtungen 40 ... 41. Dies ist sinnvoll bei komplexeren Sprachäußerungen, die eine hohe Erkennungsleistung erfordern und/oder bei ständig wechselnden Benutzern. Durch die Bündelung der Spracherkennungsaufgaben und der Datenhaltung ergeben sich Vorteile in der Maschinenauslastung, dem benötigten Speicherplatz und dem nötigen Datenverkehr über das Netzwerk 20. So kann es z. B. sinnvoll sein, innerhalb des Netzwerkes 20 die Spracherkennungsvorrichtungen 40 ... 41 untereinander und mit den Datenspeichern 30 ... 31 mit einem breitbandigen Subnetz zu verbinden. Auch kann es gegebenenfalls von Vorteil sein, die Erkennung der sprachlichen Äußerungen einzelner Benutzer möglichst immer derselben Spracherkennungsvorrichtung 40 ... 41 zuzuweisen, die dann die benutzergruppenspezifischen Musterverarbeitungsdatensätze dieser Benutzer wieder in lokalen Datenspeichern halten kann.
Neben den gerade erwähnten Ausführungsbeispielen des Systems sind für den Fachmann je nach Einsatzgebiet auch viele weitere Varianten ohne weiteres ausführbar. Hier soll daher nur noch die Technik der gespiegelten Datenhaltung erwähnt werden, die hinreichend aus der Lehre der verteilten Datenbanken bekannt ist. Dabei werden die Daten eines Benutzers, d. h. hier einer Benutzergruppe, in mehreren, in der Regel räumlich weit getrennten Datenspeichern, z. B. in 1 in den Speichern 32 und 30 ... 31, gehalten, um dem Benutzer auch bei hoher Belastung des Netzwerkes 20 schnellen Zugriff auf seine Daten zu gestatten. Die Konsistenz der Datenhaltung in den einzelnen Speichern wird dann durch geeignete Synchronisationsprozeduren sichergestellt, die weniger zeitkritisch sind und ggf. zu Zeiten geringerer Netzwerkbelastung abgearbeitet werden können.
Eine nächste Ausführungsform der Erfindung ergibt sich, wenn die benutzergruppenspezifischen Musterverarbeitungsdatensätze zur benutzergruppenspezifischen Musterverarbeitung nicht in systemeigenen Datenspeichern gehalten werden, sondern beispielsweise von einem dritten Provider oder auch von einem Benutzer selbst (für seine eigene Benutzergruppe) zur Verfügung gestellt werden. Im ersten Fall können sich dritte Unternehmen auf das Erstellen, Verwalten und/oder Aktualisieren der benutzergruppenspezifischen Musterverarbeitungsdatensätze spezialisieren, um diese dann z. B. gegen Lizenzgebühren den Betreibern der benutzergruppenspezifischen Musterverarbeitungssysteme zur Verfügung zu stellen. Dritte Unternehmen können sich aber auch um die Festlegung der Benutzergruppenzugehörigkeit für die Benutzer kümmern.
Im zweiten Fall würde ein Benutzer selbst die benutzergruppenspezifischen Musterverarbeitungsdatensätze seiner Benutzergruppe z. B. aus einem der Datenspeicher 32, 30 ... 31 eines benutzergruppenspezifischen Musterverarbeitungssystems herunterladen. Bei Benutzung eines anderen benutzergruppenspezifischen Musterverarbeitungssystems, das nicht selbst über die benutzergruppenspezifischen Musterverarbeitungsdatensätze seiner Benutzergruppe verfügt, kann er diese Daten dann auf dem Laptop 50 dem System zur Verfügung stellen. Allgemein kann er sie jedoch auch über einen an das Netzwerk 20, also insbesondere an das Internet angeschlossenen PC zur Verfügung stellen, wobei er dann dem System die Adresse dieses PCs mitteilen würde. In diesem Szenario übernimmt damit die Mitteilung der Adresse des PCs oder Laptops 50 die Aufgabe des Mitteilens der eindeutigen Kennzeichnung der Benutzergruppe.
Während in den obigen Ausführungsbeispielen als Benutzerendgeräte zum Systemzugang öffentliche Benutzerterminals 10 mittlerer Komplexität, Telefone 60 und PCs oder Laptops 50 benutzt wurden, sind auch andere Lösungen möglich. Beispiele sind Mobiltelefone und Informationskioske mit komplexen multimedialen Interaktionsmöglichkeiten wie Touchscreens, Kameras, Lautsprechern, etc.
3 zeigt eine schematische Darstellung des Inhalts eines Datenspeichers 30 für die benutzergruppenspezifischen Musterverarbeitungsdatensätze 80 ... 81. Bei dem Datenspeicher 30, der hier stellvertretend steht sowohl für die lokalen Datenspeicher 32 wie auch für die am Netzwerk 20 angeschlossenen weiteren Datenspeicher 30 ... 31, handelt es sich um einen bekannten Computerdatenspeicher, z. B. eine Festplatte. Die benutzergruppenspezifischen Musterverarbeitungsdatensätze 80 ... 81 können in Form einzelner Dateien vorliegen, die in für das benutzergruppenspezifische Musterverarbeitungssystem geeigneter Weise z. B. binär codiert sind. Möglich ist aber auch eine Organisation in Form einer Datenbank oder dergleichen.
4 zeigt einen möglichen Ablauf einer Benutzung eines erfindungsgemäßen benutzergruppenspezifischen Musterverarbeitungssystems in Form eines Ablaufplans. Dabei wird nur auf die Vorgänge eingegangen, die für die benutzergruppenspezifische Musterverarbeitung von Bedeutung sind, während anwendungsspezifische Aktionen wie z. B. das Mitteilen einer Kontonummer und einer PIN für eine Bankanwendung hier nicht dargestellt sind.
Nach dem Startblock 101 fordert das benutzergruppenspezifische Musterverarbeitungssystem einen Benutzer im Prozessblock 102 auf, ihm seine Benutzergruppe bekannt zu geben, d. h. dem System eine eindeutige Kennzeichnung der für den Benutzer festgelegten Benutzergruppe für die benutzergruppenspezifische Musterverarbeitung zu übergeben. Nach dem Entscheidungsblock 103 verzweigt die weitere Bearbeitung, je nachdem, ob dem Benutzer seine Benutzergruppe bekannt ist oder nicht.
Kennt der Benutzer seine Benutzergruppe, so teilt er diese im Block 104 dem System mit, indem er z. B. in den Szenarien der 1 und 2 die Chipkarte 70 in den Eingabeschlitz 14 eines öffentlichen Benutzerterminals 10 schiebt, die Eingabetastatur 12 oder das Mikrofon 13 des öffentlichen Benutzerterminals 10 benutzt oder die Benutzergruppe über ein Telefon 60 oder einen Laptop 50 dem System bekannt gibt. Das System sucht dann im Block 105 den zur Benutzergruppe des Benutzers gehörigen benutzergruppenspezifischen Musterverarbeitungsdatensatz in einem Datenspeicher 32, 30 ... 31 auf und stellt ihn einer Musterverarbeitungsvorrichtung 42, 40 ... 41 zur Verfügung.
Kennt dagegen der Benutzer seine Benutzergruppe nicht, so fragt ihn das System im Block 106, ob er möchte, dass das System jetzt eine Benutzergruppe für ihn festlegen soll. Möchte er dies, so sammelt das System im Block 107 Trainingsmustereingaben des Benutzers und verarbeitet diese zur Festlegung einer Benutzergruppe für den Benutzer. Im Block 108 wird dem Benutzer die so festgelegte Benutzergruppe mitgeteilt und die Kon trolle geht über an den schon beschriebenen Block 105, in dem der zur Benutzergruppe des Benutzers gehörige benutzergruppenspezifische Musterverarbeitungsdatensatz in einem Datenspeicher 32, 30 ... 31 aufgesucht und einer Musterverarbeitungsvorrichtung 42, 40 ... 41 zur Verfügung gestellt wird.
Möchte der Benutzer jetzt aber keine Benutzergruppe für sich festlegen lassen, z. B. weil er dazu jetzt keine Zeit hat oder weil ihm bereits eine Benutzergruppe zugewiesen wurde, deren eindeutige Kennzeichnung er jedoch im Moment nicht zur Verfügung hat, so verzweigt die Kontrolle nach Block 106 zu Block 109. Dort wird ein benutzerunabhängiger Musterverarbeitungsdatensatz in einem Datenspeicher 32, 30 ... 31 aufgesucht und einer Musterverarbeitungsvorrichtung 42, 40 ... 41 zur Verfügung gestellt, so dass die nachfolgenden Musterverarbeitungsschritte dann unabhängig von den speziellen Charakteristika des Benutzers durchgeführt werden.
Der der Musterverarbeitungsvorrichtung 42, 40 ... 41 in einem der Blöcke 105 bzw. 109 zur Verfügung gestellte benutzergruppenspezifische bzw. benutzerunabhängige Musterverarbeitungsdatensatz kann dabei noch von weiteren Bedingungen abhängen. So kann beispielsweise für unterschiedliche Anwendungen, unterschiedliche Umgebungsbedingungen, also z. B. unterschiedliche Hintergrundgeräusche bei Spracherkennung, oder unterschiedliche Terminals für die Benutzereingaben, wie Mikrofontyp bei Spracheingabe oder Kameratyp bei Gestikerkennung, ein jeweils daran angepasster Musterverarbeitungsdatensatz verwendet werden.
Nach den jeweiligen Blöcken 105 bzw. 109 erfolgt im Block 110 die Verarbeitung einer Mustereingabe des Benutzers, d. h. der Benutzer wird zu einer Mustereingabe aufgefordert und die Mustereingabe wird aufgenommen und verarbeitet. Bei solchen Mustereingaben kann es sich um über ein Mikrofon 13 oder ein Telefon 60 eingegebene sprachliche Äußerungen handeln. Möglich sind aber auch Eingaben von handschriftlichem Text und/oder Zeigeereignissen zur Auswahl eines auf dem Display 11 angebotenen Menüpunktes. Dazu ließe sich beispielsweise das Display 11 des öffentlichen Benutzerterminals 10 als Touchscreen ausführen und/oder man könnte das öffentliche Benutzerterminal 10 mit einer Kamera ausrüsten.
Optional können die im Block 110 gemachten Mustereingaben des Benutzers auch zwischengespeichert und z. B. zur Überprüfung der Benutzergruppenfestlegung für den Benutzer herangezogen werden. Sind ausreichend Benutzereingaben für eine solche Überprüfung gesammelt worden und wird festgestellt, dass die momentane Benutzergrup penfestlegung für den Benutzer unter Musterverarbeitungsgesichtspunkten nicht optimal ist, so kann das System in Absprache mit dem Benutzer einen besser geeigneten benutzergruppenspezifischen Musterverarbeitungsdatensatz in eine Musterverarbeitungsvorrichtung 42, 40 ... 41 laden, um damit die weiteren Musterverarbeitungsschritte durchzuführen. Ein derartiges Vorgehen ist z. B. auch dann durchführbar, wenn die bisherige Musterverarbeitung mit einem benutzerunabhängigen Musterverarbeitungsdatensatz durchgeführt wurde.
Im Block 111 werden die der Mustereingabe des Benutzers entsprechenden Aktionen durchgeführt, so z. B. bei einer Bankanwendung Kontostände auf dem Display 11 des öffentlichen Benutzerterminals 10 dargestellt. Gegebenenfalls können aber auch Rückfragen an den Benutzer gestellt werden. Auch kann der Benutzer zu weiteren Eingaben wie z. B. einer fehlenden Bankleitzahl aufgefordert werden.
Im Block 112 wird entschieden, ob die Interaktion mit dem Benutzer beendet ist. Ist dies nicht der Fall, so kehrt die Kontrolle wieder zu Block 110 zurück, um die nächste Mustereingabe des Benutzers zu verarbeiten. Ist die Interaktion mit dem Benutzer dagegen beendet, so wird jede neue bzw. veränderte Benutzergruppe für den Benutzer in den Datenspeichern 32, 30 ... 31 gespeichert, sofern diese Daten bisher beispielsweise nur lokal in einer der Spracherkennungsvorrichtungen 42, 40 ... 41 gehalten wurden. Danach beendet das System im Block 114 die Bearbeitung der Benutzereingaben.
Die Beendigung der Interaktion mit dem Benutzer im Block 112 kann z. B. durch die Erkennung einer bejahenden Antwort des Benutzers im Block 110 auf eine entsprechende vorherige Systemfrage erfolgen. Alternativ oder zusätzlich kann man jedoch auch eine Abbruchtaste auf der Eingabetastatur 12 des öffentlichen Benutzerterminals 10 vorsehen, die zu jedem Zeitpunkt der Mensch-Maschine-Kommunikation betätigt werden kann. Weitere, für den Fachmann nahe liegende Abwandlungen sind denkbar.
In den Blöcken 107 und 113 wurde die Möglichkeit vorgesehen, eine Benutzergruppenfestlegung für den Benutzer während einer derartigen Mensch-Maschine-Kommunikation neu zu erstellen, sowie in den Blöcken 110 und 113 eine derartige Benutzergruppenfestlegung zu modifizieren. Die Erstellung oder Modifikation der Benutzergruppenfestlegung muss aber nicht im Rahmen einer Benutzung des Systems z. B. zur Erledigung von Bankgeschäften erfolgen, sondern kann auch separat für sich vorgenommen werden.
Diese Möglichkeit erscheint z. B. besonders interessant für eines der in 2 dargestellten Szenarien, in dem ein Benutzer in Ruhe von zu Hause aus seine Benutzer gruppe festlegen lassen kann. Dabei kann er dann beispielsweise von einem Systembetreiber zur Verfügung gestellte Software lokal auf seinem Laptop 50 einsetzen und/oder die z. B. über das Internet erreichbare Infrastruktur des Betreibers wie Prozessoren, Programme und/oder Datenspeicher benutzen. Aber auch das in 4 beschriebene Szenario der Benutzergruppenfestlegung direkt am öffentlichen Benutzerterminal 10 hat seine Berechtigung, da diese Festlegung besser an die Benutzungsverhältnisse dieser Maschine wie z. B. Mikrofon- oder Kameraeigenschaften oder Umgebungsgeräusche angepasst ist.
Während in 4 wesentliche Aspekte eines erfindungsgemäßen Verfahrens zur benutzergruppenspezifischen Musterverarbeitung erläutert wurden, ist es für den Fachmann offensichtlich, dass ein derartiges Verfahren in der Praxis noch weitere Mechanismen beispielsweise zur Behandlung von Fehlersituationen enthalten muss. So kann es z. B. vorkommen, dass einem System die von einem anderen System festgelegte Benutzergruppe eines Benutzers nicht bekannt ist. Dann kann das System sich zur Fehlerbehandlung beispielsweise genauso verhalten wie in dem ab Block 106 beschriebenen Fall, dass dem Benutzer seine Benutzergruppe z. Z. nicht bekannt ist.

Claims

Verfahren zur Musterverarbeitung, insbesondere zur Sprachverarbeitung, mit den Verfahrensschritten: – Entgegennahme (104) einer eindeutigen Kennzeichnung einer für den Benutzer in Hinblick auf die Mustererkennungsleistung für den Benutzer in einer Definitionsphase festgelegten Benutzergruppe und – Verwendung (105) eines für die genannte Benutzergruppe spezifischen Musterverarbeitungsdatensatzes (80 ... 81) für die Verarbeitung (110) einer Mustereingabe des Benutzers.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Definitionsphase in einer Trainingsphase erfolgt.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Festlegung der Benutzergruppe für den Benutzer durch den Benutzer beeinflussbar ist.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass Benutzereingaben an einem öffentlichen Benutzerterminal (10), insbesondere einem Bankterminal, einem Fahrkartenautomaten oder einem Informationskiosk, gemacht werden.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass Benutzereingaben über ein Netzwerk (20), insbesondere das Internet, übermittelt werden.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass zu einem benutzergruppenspezifischen Musterverarbeitungsdatensatz (80 ... 81) zur benutzergruppenspezifischen Spracherkennung – eine benutzergruppenspezifische Sprache und/oder Dialekt, – eine benutzergruppenspezifische Merkmalsextraktion, insbesondere eine benutzergruppenspezifische Vokaltraktlängennormierung, – ein benutzergruppenspezifisches akustisches Referenzmodell, – ein benutzergruppenspezifisches Vokabular, – ein benutzergruppenspezifisches Sprachmodell und/oder – ein benutzergruppenspezifisches Dialogmodell gehören.
Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 6 zur Beschaffung von Informationen und/oder zur Vergabe von Aufträgen, insbesondere zur Erledigung von Bankgeschäften.
Musterverarbeitungssystem, insbesondere ein Sprachverarbeitungssystem, das – zur Entgegennahme (104) einer eindeutigen Kennzeichnung einer für den Benutzer in Hinblick auf die Musterverarbeitungsleistung für den Benutzer in einer Definitionsphase festgelegten Benutzergruppe und – zur Verwendung (105) eines für die genannte Benutzergruppe spezifischen Musterverarbeitungsdatensatzes (80 ... 81) für die Verarbeitung (110) einer Mustereingabe des Benutzers vorgesehen ist.