DE69029188T2 - Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung - Google Patents

Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung

Info

Publication number
DE69029188T2
DE69029188T2 DE69029188T DE69029188T DE69029188T2 DE 69029188 T2 DE69029188 T2 DE 69029188T2 DE 69029188 T DE69029188 T DE 69029188T DE 69029188 T DE69029188 T DE 69029188T DE 69029188 T2 DE69029188 T2 DE 69029188T2
Authority
DE
Germany
Prior art keywords
probability
character
candidate
cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69029188T
Other languages
English (en)
Other versions
DE69029188D1 (de
Inventor
Lawrence A Spitz
Lynn D Wilcox
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Application granted granted Critical
Publication of DE69029188D1 publication Critical patent/DE69029188D1/de
Publication of DE69029188T2 publication Critical patent/DE69029188T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf Techniken zum Erkennen von Zeichen. Genauer gesagt bezieht sich die Erfindung auf Techniken, die einen Satz Wahrscheinlichkeitszeichen-Idenditäten verwenden, um ein unbekanntes Eingangszeichen zu erkennen.
  • Kundu, A., und Bahl, P., "Recognition of Handwritten Script: A Hidden Markov Model Based Approach", International Conference on Acoustics, Speech, and Signal Processing, New York, April 1988, Seiten 928-931, beschreiben eine auf Buchstaben basierende Worterkennungseinrichtung, deren Ausgang entweder das korrekt erkannte Wort oder ein kleiner Satz von Wörtern ist, der das korrekte Wort als eine seiner Hypothesen umfaßt. Seite 929 beschreibt einen Satz von Merkmalen, für die, mit Abtastbuchstaben, optimale Symbole erzeugt werden, und zwar unter Verwendung eines Vektor-Quantisier- Algorithmus und eines ungewichteten, euklidischen Abstands als die Abstandsmessung. Die Merkmalsvektoren jedes Buchstabens werden dann als eines der Symbole gemaß einem minimalen Abstandskriterium, der nahesten Nachbarregel, klassifiziert, und eine Wahrscheinlichkeit wird dann in Bezug auf das Symbol bestimmt. Diese Symbole werden dann zur Erkennung in Verbindung mit einem verdeckten Markov-Model verwendet. Goshtasby, A., und Ehrich, R.W., "Contextual Word Recognition Using Probabilistic Relaxation Labeling", Pattern Recoanition, Vol 21, No. 5,1988, Seiten 455462, beschreiben eine textabhängige Worterkennungstechnik, die eine wahrscheinlichkeitsmäßige Relaxationskennzeichnung verwendet. Wie in Bezug auf Fig. 1 dort beschrieben ist, umfaßt ein textabhängiges Worterkennungssystem ein Zeichenerkennungseinrichtungsmodul, das jedem Eingabezeichen 26 Zahlen zuordnet, die die Annahmen darstellen, daß das Zeichen in dem Eingang Kennzeichnungen von a bis z besitzt. Die Annahmen werden dann zu Wahrscheinlichkeiten transformiert. Der Ausgang der Zeichenerkennungseinrichtung ist tatsächlich eine Sequenz aus Sätzen, die als Substitutionssätze bezeichnet werden, wobei jeder davon die Alternativen für ein bestimmtes Zeichen mit einer Nicht-Null-Wahrscheinlichkeit enthält. Alle möglichen Worte würden durch Auswahl eines Zeichens von jedem der Substitutionssätze erhalten werden, allerdings ist nur eines der Worte, die von den Substitutionssätzen gebildet werden können, das korrekte Wort. Ein Nach-Prozessor identifiziert das korrekte Wort von der Sequenz der Substitutionssätze unter Verwendung textabhängiger Informationen aus der Sprache. Abschnitt 2, der auf Seite 456 beginnt, betrachtet die Haupt-Nach-Verarbeitungstechniken. Die Abschnitte 3 und 4 führen in Ergebnisse ein und beschreiben sie, die durch einen vorgeschlagenen Nach-Prozessor produziert sind, der Übergangswahrscheinlichkeiten von Zeichen verwendet, um die Kennzeichnungswahrscheinlichkeiten in einem Wort iterativ zu verbessern, bis die Wahrscheinlichkeiten konvergieren und ein einziges Wort bestimmen. Fig. 5 stellt dar, wie der Nach-Prozessor auf Ähnlichkeitsmessungen eines Eingabeworts arbeitet, die Messungen mit geringer Ähnlichkeit auf Null setzen und die verbleibenden Ähnlichkeiten zu Wahrscheinlichkeitswerten transformieren, auf die ein Relaxations-Prozeß iterativ angewandt wird, bis die am meisten konsistente Kennzeichnung erhalten ist.
  • Die US-A 4,773,099 beschreibt Musterklassifikationstechniken, die unbekannte Eingabezeichen klassifizieren. Während einer Vorverarbeitungsphase werden Referenzdaten analysiert, um "Ringcluster" für jede Klasse von Eingangsdaten zu bilden. Wenn die Eingangsdaten Zeichen sind, wird ein Satz Ringcluster jeder Zeichenklasse zugeordnet. Diese Ringcluster werden so gebildet, daß sie später während der Klassifikation eines unbekannten Eingabezeichens verwendet werden können. Wie in Bezug auf die Fig. 12-13 und den darauffolgenden Figuren dargestellt und beschrieben ist, produziert das Klassifikationsmodul einen Möglichkeitssatz, der eine Liste von Zeichen ist, die die unbekannten Zeichen sein könnten, mit zugeordneten Mnahmen. Wie zu Beginn in Spalte 23, Zeile 32, beschrieben ist, kann ein Möglichkeitssatz, der keine Zeichen-Kandidaten umfaßt, für eine Nachverarbeitung zu einem Buchstabierkorrekturmodul geschickt werden, das textabhängige Informationen verwendet, um es mit einem einzelnen Zeichen- Kandidaten zu ersetzen. Ein Möglichkeitssatz, der mehr als einen Zeichen-Kandidaten umfaßt, kann weiter zu anderen Modulen geschickt werden, wie beispielsweise eine Unterlinienprüfeinrichtung und ein Kontextmodul, so daß nur ein Zeichen-Kandidat in dem Möglichkeitssatz, nachdem diese Nachverarbeitung vervollständigt ist, verbleibt. Die Annahmen können dazu verwendet werden, um Zeichen zu kennzeichnen, die nicht mit Sicherheit wiedererkannt wurden, so daß sie durch einen Wortverarbeitungsoperator geprüft werden können. Die Annahmewerte können auch durch die Nachverarbeitungsmodule verwendet werden, um beim Auswählen eines der Zeichen-Kandidaten zu unterstützen.
  • Die US-A 3V969,698 beschreibt ein Clusterspeichergerät für eine Nachbehandlungsfehlerkorrektur in einer Zeichen- und Phonem-Wiedererkennung. Wie in Bezug auf Fig. 6 dargestellt und beschrieben ist, gibt ein Clusterspeichergerät Gruppen von gültigen Alpha-Worten als potentielle Kandidaten für die korrekte Form eines fehlerkannten Worts aus. Eine Übertragungsfunktion wird gemessen, um die Neigung für eine Fehllesung zu bestimmen und wird als eine Reihe von Gleichungen ausgedrückt wobei jede eine Wahrscheinlichkeit eines Zeichens darstellt, daß es zu einem falschen Ausgabezeichen verwechselt ist. Wie in Bezug auf Fig. 7 dargstellt und beschrieben ist, liefert ein Clusterspeichergerät eine Gruppe korrekter Worte, die dieselbe Wahrscheinlichkeit dahingehend besitzt, daß sie mit einem ungültigen Wort zu einem regionalen Kontextgerät verwechselt worden ist. Das regionale Kontextgerät führt eine konditionsmäßige Wahrscheinlichkeitsanalyse aus, um zu bestimmen, welches der korrekten Worte am ehesten dem ungültigen Wort entspricht.
  • Kahan, 5., Pavlidis, T., und Baird, H.S., "On the Recognition of Printed Characters of Any Font and Size", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol PAMI-9, No. 2, März 1987, Seiten 274-288, beschreiben eine Omnifont-Zeichenerkennung mit variabler Größe. Abschnitt III beschreibt einen primären Klassifizierer, der ein Zeichen von einer strukturellen Beschreibung mit einem statistischen Bayesian-Klassifizierer erkennt, der binäre Merkmale benutzt. Ein Merkmal definierende Bereiche in einem Parameterraum werden durch einen automatischen Clusterbildungsalgorithmus ausgewählt, der Cluster produziert, wie dies in Fig. 5 dargestellt ist. Die Cluster werden zu etwa 100 Clustern mit bestimmtem Hub gestrichen bzw. gestrafft, wobei 30 davon in Fig. 8 dargestellt sind. Der Ausgang des primären Klassifizierers ist eine kurze Liste von Klassifikationen, in abfallender Reihenfolge einer geschätzten a posterion Wahrscheinlichkeit. Abschnitt I, beschreibt, wie eine Konturanalyse auch verwendet wird, wenn das Ergebnis einer Klassifikation in eine von wenigen suspekten Konfusionsgruppen fällt.
  • Abschnitt VI beschreibt eine Feldanordnung von Strukturen, wobei jede aus einer Bondingbox und den ersten k-Auswahlen des Klassifizierers besteht, wobei jede Auswahl aus einem Namen und einer Figur einer Übertragungsgüte proportional zu dem Logarithmus der Posterior-Wahrscheinlichkeit besteht. Ein Layout-Kontext und ein linguistischer Kontext werden dann verwendet, um eine eindeutige Aussage zu machen, wobei der linguistische Kontext Buchstabierungs-Grammatik- und Punktuationsregeln umfaßt. Abschnitt VII beschreibt eine Buchstabierkorrektur falsch buchstabierter Worte.
  • Nagy, G., "Optical Character Recognition--Theory and Practice" in Krishnaiah, P.R., und Kanal, L.N., eds., Handbook of Statistics. Vol 2, North-Holland, 1982, Seiten 621 und 633-643, präsentieren eine Übersicht von Zeichenerkennungstechniken. Die Seiten 634-639 beschreiben verschiedene Maßnahmen für eine Zeichenklassifikation und besprechen die konditionsmäßigen Wahrscheinlichkeitsfunktionen P(v/ak) eines Beobachtens des Signals v, wenn die Klasse des Musters, die betrachtet wird, ak ist. Seite 634 erwähnt die Möglichkeit einer Zurückweisung eines Zeichens, d.h. ein Nichtzuordnen von diesem zu irgendeiner Klasse, wie dies in Fig. 5 dargestellt ist, als eine "Zurückweisungs-" Entscheidung; Seite 634 erwähnt auch, daß die optimale Entscheidung aus einer Auswahl der Klasse ak besteht, für die eine a posterion Wahrscheinlichkeit P(ai/v) die größte ist, und liefert eine Baye'sche Formel zur Berechnung der a posterion Klassenwahrscheinlichkeiten. Die Seiten 639-643 beschreiben Erkennungstechniken, die textabhängige Informationen verwenden.
  • Bozinovic, R., und Srihari, S.N:, "Knowledge-based Cursive Script Interpretation". Seventh International Conference on Pattern Recognition. Montreal. Canada. July 30-August 2.1984. Proceedings, Vol 2, Seiten 774-776, beschreiben eine auf einer Kenntnis basierende Maßnahme für eine Wortniveau-Offline-Kursiv- Schriftart-Erkennung. Wie in Abschnitt I in Bezug auf Fig. 1 dargestellt und beschrieben ist, umfaßt der Gesamtprozeß eine Vorsegmentierung, eine Lexikon-Durchsicht und ein Buchstabenhypothesieren und führt zu einem ASCII-Wort. Abschnitt III beschreibt eine Vorsegmentierung, eine Buchstaben-Hypothesierung und eine lexikale Darstellung, wobei das Lexion in der Form eines Baums organisiert ist.
  • Die US-A-3,643,215 beschreibt eine Mustererkennungsvorrichtung, in der ein Muster, das zur Klassifizierung präsentiert ist, anfänglich gesucht wird und Deskriptoren produziert werden, wie dies in Bezug auf die Fig. 1 und 3 dargestellt und beschrieben ist. Die Deskriptoren werden dazu verwendet, eine Liste aus Merkmalsnamen zu erhalten, und um daraufhin eine Klassennamen-Vorhersage zu erhalten. Der Klassenname wird dann verwendet, ein Merkmal vorherzusagen. Ein Annahmekoeffizient bzw. -pegel wird gemäß dem Erfolg der Vorhersagen variiert, bis er einen Akzeptanzschwellwert übersteigt, wobei in diesem Fall der Klassenname geliefert wird, wie dies in Bezug auf die Fig. 2 und 3 dargestellt und beschrieben ist.
  • Burton, D.K., Shore, J.E. und Buck, J.T., "Isolated-Wort Speech Recognition Using Multisection Vector Quantization Codebooks", IEEE Transactions on Acoustics. Speech. and Signal Processing, Vol ASSP-33, No. 4, August 1985, Seiten 837-849, beschreiben eine Maßnahme für eine Spracherkennung isolierter Worte unter Verwendung einer Vektor-Quantisierung (VQ). Seite 837 beschreibt eine frühere Maßnahme, in der ein VQ-Codebuch für jedes Wort in dem Erkennungsvokabular durch Anwenden einer iterativen Clustertechnik zu einer Trainingssequenz erzeugt wird, die verschiedene Wiederholungen des Vokabularworts enthält. Der Clusterprozeß stellt jedes Vokabularwort als einen Satz unabhängiger Spektren dar. Das neue Verfahren beschreibt in dem Artikel eingearbeitete Zeitsequenzinformationen mittels einer Sequenz der VQ-Codebücher, die als Multisektions-Codebücher bezeichnet sind, was in weiterem Detail auf Seite 839 beschrieben ist. Wie auf Seite 838 beschrieben ist, werden neue Worte unter Durchführen einer VQ und eines Auffindens des Vielfachabschnitt-Codebuchs, das die kleinste durchschnittliche Verzerrung erreicht, klassifiziert.
  • Die US-A-4,783,804 beschreibt die Verwendung von Markow-Modellsprachmusterschablonen in einer Spracherkennung. Die Fig. 4-6 stellen Schritte bei der Formation von Markov-Modellschablonen dar und Fig. 5 stellt Schritte beim Separieren von Rahmenmerkmalssignalen in Clustern dar.
  • Die US-A-4,837,831 beschreibt Techniken zum Erzeugen und zum Verwenden von Vielfachwortklangmodellen in einer Spracherkennung. Ein Bereich einer akustischen Beschreibung einer Aussprache wird gegen Clustermodelle, die ähnliche Klänge von unterschiedlichen Worten darstellen, bewertet. Die sich ergebende Bewertung für jedes Cluster wird dazu verwendet, eine Wortbewertung für jedes Wort zu berechnen, das durch dieses Cluster dargestellt ist. Ein Untersatz von Vokabular-Worten wird für einen längeren Vergleich gegenüber der Aussprache ausgewählt.
  • Die vorliegende Erfindung liefert Techniken zum Erkennen eines Zeichen-Kandidaten basierend auf einer Zwischenerkennung eines Clusters aus Zeichenwahrscheinlichkeiten. Weiterhin schafft die Erfindung Techniken zum Verwenden einer Zeichenwahrscheinlichkeits-Clusteridentifiziereinrichtung bei einer Erkennung. Zum Beispiel kann die Clusteridentifiziereinrichtung dazu verwendet werden, nach Daten zu suchen, die Zeichenwahrscheinlichkeiten eines Clusters definieren.
  • Gemäß einem Aspekt der Erfindung wird ein Verfahren zum Identifizieren, welches verschiedener Zeichenwahrscheinlichkeitscluster am nahesten zu einem Zeichen-Kandidaten ist, geschaffen, wobei der Zeichen-Kandidat ein Teil eines Textes ist und separat zur Identifikation präsentiert wird, wobei das Verfahren die Schritte aufweist: Erhalten eines Satzes Wahrscheinlichkeitswerte für einen Zeichen-Kandidaten, wobei der Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden eines Satzes von Zeichen-Typen umfaßt, wobei jeder Wahrscheinlichkeitswert eines Zeichen-Typs eine Wahrscheinlichkeit anzeigt, daß der Zeichen-Kandidat ein Fall des Zeichen-Typs ist; und Verwenden des Satzes Wahrscheinlichkeitswerte, um zu identifizieren, welcher einer Zahl Zeichenwahrscheinlichkeitscluster am nahesten zu dem Kandidaten ist, wobei die Zeichenwahrscheinlichkeitscluster-Bereiche eines Raums sind, wobei die Zeichen- Kandidaten in Bezug auf ihren Wahrscheinlichkeitswert für jeden Zeichen-Typ die Position des Zeichen-Kandidaten in der Dimension des Zeichen-Typs anzeigen, so daß der Satz der Wahrscheinlichkeitswerte die Position des Zeichen-Kandidaten in dem Zeichenwahrscheinlichkeitsraum definiert.
  • Gemäß einem anderen Aspekt der Erfindung wird ein System zum Verarbeiten von Daten geschaffen, das aufweist: einen Klassifizierer zum Liefern eines Satzes Wahrscheinlichkeitswerte für einen Zeichen-Kandidaten, wobei der Zeichen-Kandidat ein Teil eines Textes ist und separat zur Identifizierung präsentiert wird, wobei der Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden eines Satzes Zeichen- Typen umfaßt, wobei jeder Wahrscheinlichkeitswert eines Zeichen-Typs eine Wahrscheinlichkeit anzeigt, daß der Zeichen-Kandidat ein Fall des Zeichen-Typs ist; eine Wahrscheinlichkeitscluster-Identifiziereinrichtung zum Verwenden des Satzes Wahrscheinlichkeitswerte, um Daten zu produzieren, die identifizieren, welcher einer Anzahl Zeichenwahrscheinlichkeitscluster am nahesten zu dem Zeichen-Kandidaten ist, wobei die Zeichenwahrscheinlichkeitscluster Bereiche eines Raums sind, wobei der Raum eine jeweilige Dimension für jeden der Zeichen-Typen umfaßt, wobei der jeweilige Wahrscheinlichkeitswert des Zeichen-Kandidaten für jeden Zeichen-Typ die Position des Zeichen-Kandidaten in der Dimension des Zeichen-Typs anzeigt, so daß der Satz Wahrscheinlichkeitswerte die Position des Zeichen-Kandidaten in dem Raum definiert; und eine Einschränkungs-Erfüllungseinrichtung zum Liefern von Daten, die einen Zeichen-Typ des Zeichen-Kandidaten basierend auf den das Cluster identifizierenden Daten von der Wahrscheinlichkeitscluster-Identifiziereinrichtung identifizieren.
  • Die Erfindung basiert auf der Erkennung eines fundamentalen Problems bei herkömmlichen Maßnahmen für eine Zeichen- und Phonemerkennung. Jeder Zeichen-Kandidat wird typischerweise als ein Fall eines einzelnen Zeichen-Typs klassifiziert; von einer kurzen Liste von Zeichen- oder Phonem-Typen, entweder einer festgelegten Länge oder die Wahrscheinlichkeiten besitzen, die einen festgelegten Schwellwert übersteigen; oder als ein fragwürdiges Zeichen, ein Zeichen, bei dem eine Schlußfolgerung nicht erreicht werden kann, da vielleicht keine der Möglichkeiten einen festgelegten Schwellwert übersteigt. Das Ergebnis einer Klassifikation wird zu einer Nachklassifiziereinrichtung oder einem Nachprozessor übertragen, bevor zu dem nächsten Kandidat in der Sequenz fortgefahren wird. Allerdings rangiert eine Klassifizierung auf diese Art und Weise nutzlos Informationen über andere Zeichen-Typen aus, die auf den Kandidaten angewandt werden können, Informationen, die oftmals bei der Erkennung nützlich sind. Die Erfindung basiert weiterhin auf der Erkenntnis, daß dieses Problem durch Heranziehen einer unterschiedlichen Maßnahme gelöst werden kann. Im Gegensatz zu einem Klassifizieren jedes Kandidaten als ein Fall eines einzelnen, wahrscheinlichsten Typs oder einer kurzen Liste wahrscheinlichster Typen identifiziert eine Technik gemäß der Erfindung, welcher eine einer Anzahl von Zeichenwahrscheinlichkeitsclustern am nahesten zu dem Kandidaten kommt, und zwar basierend auf einem vollständigen Satz von Wahrscheinlichkeiten für den Kandidaten. Die Wahrscheinlichkeitscluster werden in einem Zeichenwahrscheinlichkeitsraum definiert, wobei jeder Cluster eine jeweilige Wahrscheinlichkeit für jeden Zeichen-Typ in einem Satz von Zeichen-Typen besitzt. Deshalb liefert eine Identifizierung, welcher Cluster am nahesten zu einem Kandidaten kommt, relativ akkurate Informationen über seine Wahrscheinlichkeit für irgendeinen Typ.
  • Ein anderer Aspekt der Erfindung basiert auf der Erkennung eines fundamentalen Problems in der Architektur herkömmlicher Zeichenerkennungssysteme. Solche Systeme halten herkömmlich alle Informationen über einen Kandidaten zurück, bis der Kandidat als ein Fall eines einzelnen, wahrscheinlichsten Typs oder eines einer kleinen Zahl von wahrscheinlichsten Typen klassifiziert ist. Daten, die den wahrscheinlichsten Typ oder die Typen anzeigen, können dann zu einer Nachklassifiziereinrichtung oder einem Nachprozessor geliefert werden. Um vollständige Informationen über einen Kandidaten zwischen Prozessen oder Prozessoren zu übertragen, würde eine höhere Bandbreite erfordern, die mit der herkömmlichen, niedrigen Bandbreitenverbindung zwischen einer Klassifiziereinrichtung und einer Nachklassifiziereinrichtung in Wechselwirkung treten würde, die für eine Modularisierung notwendig ist. Eine Modularisierung ist wichtig, da sie ermöglicht, daß unterschiedliche Nachklassifiziereinrichtungen mit einer gegebenen Klassifiziereinrichtung verwendet werden können, und ermöglicht auch, daß unterschiedliche Klassifiziereinrichtungen mit einer gegebenen Nachklassifiziereinrichtung verwendet werden können. Kurz gesagt ist es schwierig, ein System zu schaffen, das modular ist und das vollständige Informationen zu einer Nachklassifiziereinrichtung oder einem Nachprozessor liefert.
  • Dieser Aspekt basiert weiterhin auf der Erkenntnis, daß die Verbindung mit geringer Bandbreite zwischen Modulen eines Erkennungssystems nicht die Übertragung relativ vollständiger Informationen über jeden Kandidaten ausschließt. Anders ausgedrückt kann ein eingangsseitiges Modul eines Erkennungssystems relativ vollständige Informationen über jeden Kandidaten zu einem ausgangsseitigen Modul liefern, das eine weitere Verarbeitung durchführt.
  • Diese Lösung kann durch Vorsehen, und zwar für jeden Kandidaten, von Daten, die einen Wahrscheinlichkeitscluster identifizieren, der am nahesten zu dem Kandidaten in dem Zeichenwahrscheinlichkeitsraum ist und der eine jeweilige Wahrscheinlichkeit für jeden Erkennungstyp besitzt, ausgeführt werden. Die Datenidentifizierung jedes Clusters (nachfolgend hier als ein "Cluster"ID" bezeichnet) kann selbst dazu verwendet werden, um Daten zu erhalten, die einen Zeichen-Typ (nachfolgend als ein "Zeichen-ID" bezeichnet) über irgendeine geeignete Einschränkungs-Erfüllungstechnik identifizieren. Falls es notwendig ist, eine Übereinstimmung zu erzielen, kann das Cluster-ID dazu verwendet werden, eine jeweilige Wahrscheinlichkeit des Clusters für irgendeinen oder mehrere Typen zu suchen, geeignete Daten über die Wahrscheinlichkeiten, die während einer vorherigen Trainingsphase für ein Suchen während einer darauffolgenden Identifikationsphase gespeichert sind.
  • Diese Ausführung ermöglicht eine Modularität zwischen einer Wahrscheinlichkeitscluster-Identifiziereinrichtung und einer Einschränkungs-Erfüllungseinrichtung, und zwar mit einer Verbindung einer niedrigen Bandbreite zwischen ihnen zum Übertragen von Cluster-ID's. Während einer Trainingsphase speichert die Clusteridentifiziereinrichtung Daten über die Zeichenwahrscheinlichkeiten für jedes Cluster und während einer Identifikationsphase kann die Einschränkungs-Erfüllungseinrichtung ein Cluster-ID verwenden, um die entsprechenden Wahrscheinlichkeitsdaten zu suchen. Ein Vorteil dieser Lösung ist derjenige, daß während einer Identifikation die Einschränkungs-Erfüllungseinrichtung von der Wahrscheinlichkeitscluster-Identifiziereinrichtung nur abhängt, um eine Sequenz aus Cluster-ID's zu liefern. Als Folge kann die Einschränkungs-Erfüllungseinrichtung über einen willkürlich großen Kontext mit relativ vollständigen Informationen über jeden Kandidaten innerhalb dieses Kontextes arbeiten, wobei die Informationen in einer kompakten Form von den Cluster-ID's erhalten werden. Die Wahrscheinlichkeitscluster-Identifiziereinrichtung und die Einschränkungs-Erfüllungseinrichtung können unabhängig auf einem einzelnen Prozessor arbeiten oder können auf parallelen Prozessoren arbeiten, und in jedem Fall wird die Verwendung von Cluster-ID's eine relativ niedrige Bandbreiten-Verbindung zwischen den Prozessen ermöglichen.
  • Die vorliegende Erfindung wird nun beispielhaft unter Bezugnahme auf die beigefügten Zeichnungen beschrieben werden, in denen:
  • Fig. 1 zeigt ein schematisches Blockdiagramm, das einige funktionale Komponenten eines Erkennungssystems gemäß der Erfindung darstellt;
  • Fig. 2 zeigt ein Flußdiagramm, das Schritte darstellt, die durch eine Wahrscheinlichkeitscluster-Identifiziereinrichtung und eine Einschränkungs-Erfüllungseinrichtung der Fig. 1 durchgeführt werden;
  • Fig. 3 zeigt ein Flußdiagramm, das Schritte darstellt, die während einer Trainingsphase einer Wahrscheinlichkeitscluster-Identifiziereinrichtung durchgeführt werden;
  • Fig. 4 zeigt ein Flußdiagramm, das Schritte darstellt, die während einer Identifikationsphase durch eine Wahrscheinlichkeitscluster-Identifiziereinrichtung durchgeführt werden, und
  • Fig. 5 zeigt ein schematisches Diagramm, das die Komponenten eines Systems darstellt, das die Schritte in den Fig. 3 und 4 durchführen kann.
  • A. Konzeptmäßiger Aufbau
  • Der folgende, konzeptmäßige Aufbau ist zum Verstehen der Erfindung hilfreich und die Ausdrücke, die nachfolgend definiert sind, besitzen Bedeutungen, die durch diese Beschreibung hinweg angegeben sind, einschließlich der Ansprüche.
  • Ein "Wort" ist die kleinste Einheit einer Bedeutung in einer Sprache. "Geschriebene Worte" bedeutet Worte, die in der Form von diskreten Elementen, wie beispielsweise alphabetische, numerische oder piktogrammartige Elementen, aufgezeichnet sind. "Gesprochene Worte" oder "Sprache" bedeuten Worte, die in einer kontinuierlichen Form wie beispielsweise als Äußerung eines Sprechers, aufgenommen werden. Worte, die in kontinuierlicher Form aufgezeichnet sind, wie beispielsweise eine aufgezeichnete Sprache, sind deshalb nicht geschriebene Worte, sondern gespochene Worte, wenn sie abgespielt werden. Ein "isoliert gesprochenes Wort" ist ein gesprochenes Wort, das von irgendwelchen vorhergehenden oder nachfolgenden Worten diskret empfangen wird. Ein "Text" ist eine Anordnung von geschriebenen Worten, gewöhnlich eine Sequenz. Ein Text kann demzufolge Null oder mehr Worte umfassen, jedes mindestens mit einem diskreten Element.
  • Ein "Zeichen" bedeutet ein diskretes Element, das in einem Text erscheint. Zeichen können demzufolge nicht nur alphanumerische Elemente umfassen, sondern auch Punktuations-Markierungen, diakritische Zeichen und andere Elemente, die in einem Text enthalten sind. Ein "Zeichen-Typ" ist eine Kategorie, aus der ein Zeichen ein Fall sein kann, wie beispielsweise ein Buchstaben oder eine Zahl.
  • Ein "Zeichen-Kandidat" ist irgendein Teil eines Textes, der separat einem System zur Klassifikation oder Identifikation präsentiert wird. In typischen Zeichenerkennungssystemen ist ein Zeichen-Kandidat ein Teil des Textes, der auf der Basis von Kriterien segmentiert worden ist, die anzeigen, daß der Zeichen-Kandidat ein Zeichen ist. Ein "Kandidat" bedeutet ein Zeichen-Kandidat.
  • Ein "Zeichenwahrscheinlichkeitsraum", ist ein mathematischer Raum, in dem jede Dimension die Wahrscheinlichkeit anzeigt, daß ein Kandidat ein Fall eines spezifischen Zeichen-Typs ist.
  • Ein "Zeichenwahrscheinlichkeitscluster" ist ein statistisch definierter Bereich eines Zeichenwahrscheinlichkeitsraums, in dem Zeichen oder Zeichen-Kandidaten auftreten. Ein Zeichenwahrscheinlichkeitscluster kann zum Beispiel mittels der Wahrscheinlichkeiten der Zeichen und Zeichen-Kandidaten definiert werden, die in ihm oder durch ein anderes statistisches Maß seiner Mitte auftreten. Es könnte weiterhin durch die Varianz der Wahrscheinlichkeiten der Zeichen und Kandidaten definiert werden, die in ihm auftreten, oder durch ein anderes statistisches Maß seiner Form oder Größe.
  • Ein "Cluster" bedeutet ein Zeichenwahrscheinlichkeitscluster.
  • Ein "Cluster-ID" sind Daten, die einen eines Satzes von Clustern anzeigen. Ein "Zeichen-ID" sind Daten, die einen eines Satzes von Zeichen-Typen anzeigen. Der "Abstand" zwischen einem Cluster und einem Kandidaten kann durch den euklidischen Abstand zwischen Kandidatenwahrscheinlichkeiten oder irgendeinem anderen statistischen Maß eines Abstands definiert werden. Einer einer Zahl von Clustern ist "am nächsten" zu einem Kandidat, wenn der Abstand zwischen dem Cluster und dem Kandidaten kleiner als der Abstand zwischen irgendeinem der anderen Cluster und dem Kandidaten ist.
  • Eine "Einschränkungs-Erfüllungseinrichtung" ist irgendeine Komponente eines Systems, die bestimmt, ob Daten, die ihr präsentiert sind, einen Satz von Einschränkungen erfüllen. Eine Einschränkungs-Erfüllungseinrichtung könnte ein Prozeß, ein Prozessor oder irgendeine andere Komponente sein, die zum Bestimmen geeignet ist, ob Daten Einschränkungen erfüllen. Sie könnte die Einschränkungen in irgendeiner geeigneten Form handhaben, einschließlich Regeln oder Mustern oder irgendeiner Kombination von Regeln und Mustern.
  • B. Allgemeine Merkmale
  • Allgemeine Merkmale der Erfindung können anhand der Fig. 1 und 2 verstanden werden. Fig. 1 stellt einige Komponenten eines Systems, das Merkmale der Erfindung umsetzt, dar. Fig. 2 stellt Schritte dar, die durch Komponenten des Systems der Fig. 1 durchgeführt werden.
  • Fig. 1 stellt einige Komponenten eines Zeichenerkennungssystems 10 dar. Das System 10 kann auch andere, herkömmliche Komponenten, die nicht dargestellt sind, umfassen, wie beispielsweise eine Komponente, die Daten über einen Text, dessen Zeichen erkannt werden sollen, in Zeichen-Kandidaten segmentiert, und eine Komponente, die Daten enthält, die sich auf jeden Kandidaten bezieht, umfassen. Die Wahrscheinlichkeitscluster-Identifiziereinrichtung 12 empfängt Daten über jeden Kandidaten in einer Sequenz und die Daten, die sie empfängt, könnten, wie dargestellt ist, Wahrscheinlichkeitsdaten sein, die, für jeden erkennbaren Zeichen-Typ, die Wahrscheinlichkeit anzeigen, daß der Kandidat von diesem Typ ist. Die Identifiziereinrichtung 12 bestimmt, welcher einer Zahl von Clustern am nahesten zu jedem Kandidat ist, und die Cluster können Zeichenwahrscheinlichkeitscluster sein, wie dies vorstehend definiert ist. Unter Bestimmung, daß ein gegebenes Cluster am nahesten zu einem Kandidat ist, liefert die Identifiziereinrichtung 12 das entsprechende Cluster-ID als sein Ausgang.
  • Die Einschränkungs-Erfüllungseinrichtung 14 empfängt die Cluster-ID's von der Identifiziereinrichtung 12 und sucht nach relevanten Daten aus dem Speicher 16. Der Speicher 16 speichert illustrativ Regeln/Muster-Daten 181 die sich auf Regeln und Muster beziehen,die die Einschränkungs-Erfüllungseinrichtung 14 zum Bestimmen verwenden kann, ob eine Sequenz der Cluster-ID's relevante Beschränkungen erfüllt. Der Speicher 16 speichert auch Zeichen/Wahrscheinlichkeitsdaten 20, auf die basierend auf einem Cluster-ID zugegriffen werden kann, um die jeweilige Wahrscheinlichkeit eines spezifischen Zeichen-Typs für diesen Cluster zu erhalten. Basierend auf den gesuchten Daten und den Cluster-ID's erhält die Einschränkungs-Erfüllungseinrichutng 14 eine Sequenz von Zeichen-ID'S, die sie als ihren Ausgang liefert. Die Einschränkungs-Erfüllungseinrichtung 14 könnte alternativ Wort-Identifizierer als ihren Ausgang liefern.
  • Fig. 2 stellt Schritte dar,die durch die Wahrscheinlichkeitscluster-Identifiziereinrichtung 12, angezeigt durch die Buchstaben "CI" und die Einschränkungs-Erfüllungseinrichtung 14, angezeigt durch die Buchstaben "CS", durchgeführt werden.
  • In dem Kasten 30 empfängt die Identifiziereinrichtung 12 Daten für den nächsten Kandidaten, wie beispielsweise Wahrscheinlichkeitsdaten für die Zeichen-Typen,wie dies vorstehend besprochen ist. In dem Kasten 32 wird das naheste Cluster identifiziert und in dem Kasten 34 wird seine Cluster-ID ausgegeben, bevor zurückgekehrt wird, um Daten für den nächsten Kandidaten in dem Kasten 30 zu empfangen.
  • In dem Kasten 40 empfängt die Einschränkungs-Erfüllungseinrichtung 14 das nächste Cluster-ID von der Identifiziereinrichtung 12. In dem Fall eines Durchführens einer Einschränkungs-Erfüllung wird die Verzweigung in dem Kasten 42 basierend darauf, ob Daten über die jeweilige Wahrscheinlichkeit eines spezifizierten Zeichen-Typs in Bezug auf das Cluster-ID benötigt werden, durchgeführt. Falls dies der Fall ist, sucht der Schritt in dem Kasten 44 die erforderlichen Wahrscheinlichkeiten. Die Verzweigung in dem Kasten 46 hängt davon ab, ob eine Einschränkungs-Erfüllung erfolgreich ist; falls dies der Fall ist, liefert die Einschränkungs-Erfüllungseinrichtung 14 die identifizierten Zeichen- ID's als Ausgang in dem Kasten 48; falls dies nicht der Fall ist, kehrt sie zurück, um das nächste Cluster-ID in dem Kasten 40 zu empfangen.
  • C. Eine Ausführung
  • Die Erfindung könnte in einer Vielfalt von Arten und Weisen ausgeführt werden. Die Fig. 3-5 stellen eine Ausführung dar, die für einen einzelnen,seriellen Prozessor geeignet ist. Fig. 3 stellt Schritte in der Trainingsphase der Clusteridentifiziereinrichtung dar und Fig. 4 stellt Schritte in deren Identifikationsphase dar. Fig. 5 stellt Komponenten eines Systems dar, das die Schritte in den Fig. 3 und 4 ausführt.
  • Die Trainingsphase in Fig. 3 folgt allgemein den Schritten des Isodata-Algorithmus, der in Tou, J.T., und Gonzalez, R.C., Pattern Recognition Principles, Addison-Wesley, London, 1974, Seiten 97-100, beschrieben ist. Wie dort angemerkt ist, ist der Isodata-Algorithmus ähnlich im Prinzip zu einer K-Bedeutungsclusterbildung. Eine K-Bedeutungsclusterbildung oder irgendein anderer geeigneter Algorithmus könnten in der Trainingsphase verwendet werden, vorausgesetzt, daß das Ergebnis einen Satz von Clustern in einem Zeichen- oder Phonem-Wahrscheinlichkeitsraum ist, jeder mit einem jeweiligen Satz Wahrscheinlichkeiten und einem Cluster-ID. Die Koordinaten der Bedeutung oder einer anderen statistischen Mitte jedes Clusters können zum Beispiel als seine Wahrscheinlichkeiten dienen.
  • In dem Schritt im Kasten 100 wählt der Benutzer Anfangswahrscheinlichkeitsclusterzentren und -parameter, wie im Schritt I, des Isodata-Algorithmus aus. Diese Anfangsclusterzentren könnten zufällig ausgewählt werden. Die Zahl der Clusterzentren die erwünscht ist, könnte dreimal der Zahl der erkennbaren Zeichen sein. Die minimale Zahl der Proben pro Cluster könnte fünf sein. Die Standardabweichungsparameter könnten auf die minimale Komponente der Abtaststandardabweichung für alle Trainingsdaten eingestellt sein. Der Klumpenbildungsparameter könnte auf ein Drittel des Standardabweichungsparameters eingestellt werden. Die maximale Zahl der Paare der Clusterzentren, die zusammengeballt werden können, könnte auf zwei eingestellt werden. Die Zahl der Iterationen, die zugelassen ist, könnte anfänglich auf 100 eingestellt werden, abhängig davon, daß sie erhöht werden, wie dies eine Konvergenz und Computerzeit zuläßt.
  • Der Schritt in dem Kasten 102 dustert dann einen Satz Abtastwahrscheinlichkeitslisten und führt darauf bezogene Berechnungen durch, wie in den Schritten 2 bis 6 des Isodata-Algorithmus. Die Abtastwahrscheinlichkeitslisten sollten von demselben Klassifizierer erhalten werden,wie derjenige, der in der Identifikationsphase verwendet wird. Der Klassifizierer kann ein Entscheidungsbaum oder irgendein anderer, herkömmlicher Klassifizierer sein, der eine vollständige Wahrscheinlichkeitsliste für einen Kandidaten liefert. Um die Abtastwahrscheinlichkeitslisten für ein Clustern in dem Kasten 102 zu liefern, sollte der Klassifizierer auf einem Text oder einer Sprache arbeiten, die völlig für den Text oder die Sprache, die in der Identifikationsphase identifiziert werden soll, repräsentativ ist. Das Ergebnis eines Clusterns wird ein neuer Satz von Clusterzentren sein, jeder mit einem entsprechenden Zentrum, dessen Koordinaten eine vollständige Wahrscheinlichkeitsliste definieren.
  • Wenn eine Clusterbildung abgeschlossen ist, verzweigt sich die Trainingsphase in einen Kasten 110, basierend darauf, ob die abschließende Iteration durchgeführt worden ist. Falls dies nicht der Fall ist, spaltet der Schritt in dem Kasten 112 die Clusterzentren auf, klumpt Clusterzentren, falls geeignet, zusammen, ermöglicht dem Benutzer, neue Parameter einzustellen, und führt darauf bezogene Berechnungen, wie in den Schritten 7-13 des Isodata-Algorithmus, durch. Dann kehrt die Trainingsphase zurück, um die Abtastwahrscheinlichkeitslisten wieder zu dustern, und zwar in dem Kasten 102. Wenn die abschließende Iteration durchgeführt worden ist, speichert der Schritt in dem Kasten 114 für jedes abschließende Cluster sein ID und die Koordinaten seines Zentrums, die eine entsprechende Wahrscheinlichkeitsliste definieren. Dies vervollständigt die Trainingsphase.
  • Die Identifikationsphase in Fig. 4 beginnt in einem Kasten 120 durch Empfangen eines Satzes von Kandidatenwahrscheinlichkeitslisten zur Identifikation. Diese Wahrscheinlichkeitslisten sollten durch denselben Klassifizierer geliefert werden, der die Abtastwahrscheinlichkeitslisten liefert, die in dem Kasten 102 in Fig. 3 zusammengeklumpt wurden, und könnten asynchron von dem Klassifizierer durch einen Puffer oder eine pufferende Datenstruktur empfangen sein.
  • Der Schritt in dem Kasten 122 beginnt eine iterative Schleife, die jede der Kandidatenwahrscheinlichkeitslisten von dem Puffer in Folge handhabt. Der Schritt in dem Kasten 124 vergleicht die nächste Kandidatenwahrscheinlichkeitsliste mit den Wahrscheinlichkeitslisten der abschließenden Cluster, wie sie in dem Kasten 114 in Fig. 3 gespeichert sind, um das naheste Cluster zu finden. Dieser Vergleich könnte mit einem euklidischen Abstand oder mit einem Mahalanolis-Abstand vorgenommen werden. Wenn das naheste Cluster gefunden ist, wird sein Cluster-ID in dem Kasten 126 ausgegeben, und die Identifikationsphase kehrt dann zu dem Schritt in dem Kasten 122 zurück, was fortfährt, bis keine Kandidaten, die gehandhabt werden müssen, verbleiben, wobei zu diesem Zeitpunkt die Identifiaktionsphase abgeschlossen ist.
  • Die Schritte in Fig. 4 entsprechen den Schritten, die durch die Clusteridentifiziereinrichtung in Fig. 2 durchgeführt werden. Der Kasten 120 entspricht dem Kasten 30; der Kasten 124 entspricht dem Kasten 32 und der Kasten 126 entspricht dem Kasten 34.
  • Fig. 5 stellt ein System 150 zum Durchführen der Schritte in den Fig. 3 und 4 dar. Das System 150 umfaßt einen Prozessor 152, eine Workstation-CPU oder einen anderen geeigneten Prozessor. Der Prozessor 152 empfängt Eingänge über Eingabevorrichtungen 154, die eine Text-Abtasteinrichtung, eine Sprachempfangseinrichtung, ein Tastenfeld mit einer Maus und andere geeignete Vorrichtungen umfassen können. Der Prozessor 152 liefert Ausgänge über die Ausgabevorrichtung 156, die eine CRT oder eine andere Anzeige umfassen kann. Der Prozessor greift auch auf einen Speicher 158 während seiner Betriebsweisen zu.
  • Der Speicher 158 umfaßt erläuternd einen Programmspeicher 160 und einen Datenspeicher 170, obwohl der Speicher 158 in irgendeiner geeigneten Art und Weise gehandhabt werden könnte. Der Programmspeicher 160 umfaßt einen Klassifizierer 162, ein Clusteridentifiziereinrichtungs-Trainingsprogramm 164, das so ausgeführt werden könnte, wie in Fig. 3, ein Cluster-Identifikationsprogramm 166, das so ausgeführt werden könnte, wie in Fig. 4, und eine Einschränkungs-Erfüllungseinrichtung 168. Der Datenspeicher 170 umfaßt Regel/Muster-Daten 172 für die Einschränkungs-Erfüllungseinrichtung 168, Trainingsabtastungen 174 und Traningsparameter 176 für das Trainingsprogramm 164, Clusterwahrscheinlichkeitslisten/ID's 178, die durch das Trainingsprogramm 164 gespeichert sind und auf die durch das Identifikationsprogramm 166 zugegriffen wird, und einen zusätzlichen, temporären Speicher für Daten, wie beispielsweise den Kandidatenwahrscheinlichkeitslistenpuffer. Der Datenspeicher 170 umfaßt auch irgendwelche Daten, die durch den Klassifizierer 162 erforderlich sind, und kann deshalb Bit-Tafeln, Schablonen bzw. Modelle oder andere Darstellungen von Kandidatenzeichen umfassen.
  • Die Ausführung der Fig. 5 umfaßt eine Komponente entsprechend jeder der Komponenten in Fig. 1. Das Identifikationsprogramm 166 entspricht der Clusteridentifiziereinrichtung 12; die Einschränkungs-Erfüllungseinrichtung 168 entspricht der Einschränkungs- Erfüllungseinrichtung 14; die Regeln/Musterdaten 172 entsprechen den Regeln/Musterdaten 18; und die Clusterwahrscheinlichkeitslisten/ID's 178 entsprechen den Zeichen/Wahrscheinlichkeitsdaten 20. Die Einschränkungs-Erfüllungseinrichtung 168 kann demzufolge ein Cluster-ID verwenden, um auf eine entsprechende Wahrscheinlichkeitsliste in den Clusterwahrscheinlichkeitslisten/ID's 178 zuzugreifen, falls dies notwendig ist, um ein Zeichen zu erkennen.
  • D. Verschiedenes
  • Die Erfindung könnte auf viele andere Arten und Weisen ausgeführt werden.
  • Die vorstehend beschriebene Ausführung könnte so modifiziert werden, um einen optimalen Gebrauch von der verfügbaren Bandbreite zwischen der Wahrscheinlichkeitscluster-Identifiziereinrichtung und der Einschränkungs-Erfüllungseinrichtung zu machen Eine mögliche Einstellung ist diejenige, die Zahl der Wahrscheinlichkeitscluster so auszuwählen, daß die Cluster-ID's einer gegebenen, fixierten Länge verwendet werden können. Eine andere Einstellung ist diejenige, kurze Cluster-ID's für Hochfrequenzcluster und längere Cluster-ID's für Niederfrequenzcluster vorzusehen.
  • Eine Einschränkungs-Erfüllungseinrichtung zur Verwendung in der Erfindung könnte irgendeine einer breiten Vielfalt von Formen annehmen. Allgemein könnte eine auf eine Anwendung zugeschnittene Vielfachfach-Kontext- oder dynamische Kontext-Kenntnis dazu gebracht werden, sich auf einen Erkennungsprozeß durch die Einschränkungs-Erfüllungseinrichtung zu beziehen. Vielfachbedeutungsprüfer könnten für vielfache Sprachen verwendet werden. Eine für ein Formfeld spezifische Grammatik, die Buchstabierbzw. Bedeutungszeichen steuert, könnte auch verwendet werden. Prozesse, die dazu geeignet sind, den Vorteil einer minimalen Redundanz in einer spezialisierten Eingabe wahrzunehmen, wie beispielsweise Finanz-, zeitorientierte oder Teilelisteninformationen, könnten verwendet werden. Zusätzlich zu einer Zeichenerkennung könnte die Einschränkungs-Erfüllungseinrichtung eine Worterkennung und eine Schrifttypenerkennung anwenden, um einen Inhalt der Cluster-ID's zu extrahieren.
  • Die Ausführung, die vorstehend beschrieben ist, setzt einen einzelnen, seriellen Prozessor für eine Wahrscheinlichkeitsclusteridentifikation und für eine Einschränkungs-Erfüllung ein. Diese Funktionen könnten allerdings gleichzeitig durch parallele Prozessoren oder in irgendeiner anderen geeigneten Art und Weise durchgeführt werden und jede Funktion könnte ähnlich auf einem Multiprozessor oder irgendeiner anderen, geeigneten Archtitektur ausgeführt werden. Weiterhin könnten, wenn ein einzelner, serieller Prozessor verwendet wird, herkömmliche Techniken, wie beispielsweise ein Multitasking, angewandt werden.

Claims (11)

1. Verfahren zum Identifizieren, welches verschiedener Zeichenwahrscheinlichkeitscluster am nahesten zu einem Zeichen-Kandidaten ist, wobei der Zeichen- Kandidat ein Teil eines Textes ist und separat zur Identifikation präsentiert wird, wobei das Verfahren die Schritte aufweist:
Erhalten eines Satzes Wahrscheinlichkeitswerte für einen Zeichen-Kandidaten, wobei der Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden eines Satzes von Zeichen-Typen umfaßt, wobei jeder Wahrscheinlich keitswert eines Zeichen-Typs eine Wahrscheinlichkeit anzeigt, daß der Zeichen- Kandidat ein Fall des Zeichen-Typs ist; und
Verwenden des Satzes Wahrscheinlichkeitswerte, um zu identifizieren, welcher einer Zahl Zeichenwahrscheinlichkeitscluster am nahesten zu dem Kandidaten ist wobei die Zeichenwahrscheinlichkeitscluster Bereiche eines Raums sind, wobei der Raum eine jeweilige Dimension für jeden der Zeichen-Typen besitzt, wobei der jeweilige Wahrscheinlichkeitswert des Zeichen-Kandidaten für jeden Zeichen-Typ die Position des Zeichen-Kandidaten in der Dimension des Zeichen-Typs anzeigt, so daß der Satz der Wahrscheinlichkeitswerte die Position des Zeichen-Kandidaten in dem Zeichenwahrscheinlichkeitsraum anzeigt.
2. Verfahren nach Anspruch 1, das weiterhin einen Schritt eines Speicherns jeweiliger Wahrscheinlichkeitsdaten für jedes der Zeichenwahrscheinlichkeitscluster vor dem Schritt einer Verwendung des Satzes der Wahrscheinlichkeitswerte aufweist.
3. Verfahren nach Anspruch 2, wobei der Speicherschritt eine Clusterbildung von Abtastwahrscheinlichkeitsdaten aufweist, um die Zeichenwahrscheinlichkeitscluster zu erhalten.
4. Verfahren nach Anspruch 2 oder 3, das weiterhin einen Schritt eines Erkennens des Kandidaten basierend auf den jeweiligen Wahrscheinlichkeitsdaten für das identifizierte, naheste Wahrscheinlichkeitscluster aufweist.
5. Verfahren nach einem der Ansprüche 2 bis 4, wobei die jeweiligen Wahrscheinlichkeitsdaten jedes Clusters ein Satz von Wahrscheinlichkeitswerten ist, wobei der Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden eines Satzes erkennbarer Zeichen-Typen umfaßt.
6. Verfahren nach einem vorhergehenden Anspruch, wobei der Schritt einer Verwendung des Satzes Wahrscheinlichkeitswerte einen Unterschritt eines Erhaltens von Daten, die das naheste Wahrscheinlichkeitscluster identifizieren, aufweist, wobei das Verfahren weiterhin den Schritt eines Erhaltens von Daten aufweist, die einen Zeichen-Typ des Kandidatenzeichens identifizieren, und zwar basierend auf den Daten, die das naheste Cluster identifizieren.
7. System zum Verarbeiten von Daten, das aufweist:
einen Klassifizierer zum Liefern eines Satzes Wahrscheinlichkeitswerte für einen Zeichen-Kandidaten, wobei der Zeichen-Kandidat ein Teil eines Textes ist und separat zur Identifizierung präsentiert wird, wobei der Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden eines Satzes Zeichen-Typen umfaßt, wobei jeder Wahrscheinlichkeitswert eines Zeichen-Typs eine Wahrscheinlichkeit anzeigt, daß der Zeichen-Kandidat ein Fall des Zeichen-Typs ist;
eine Wahrscheinlichkeitscluster-Identifiziereinrichtung (12) zum Verwenden des Satzes Wahrscheinlichkeitswerte, um Daten zu produzieren, die identifizieren, welcher einer Anzahl Zeichenwahrscheinlichkeitscluster am nahesten zu dem Zeichen-Kandidaten ist, wobei die Zeichenwahrscheinlichkeitscluster Bereiche eines Raums sind, wobei der Raum eine jeweilige Dimension für jeden der Zeichen-Typen umfaßt, wobei der jeweilige Wahrscheinlichkeitswert des Zeichen-Kandidaten für jeden Zeichen-Typ die Position des Zeichen-Kandidaten in der Dimension des Zeichen-Typs anzeigt, so daß der Satz Wahrscheinlichkeitswerte die Position des Zeichen-Kandidaten in dem Raum definiert; und
eine Einschränkungs-Erfüllungseinrichtung (14) zum Liefern von Daten, die einen Zeichen-Typ des Zeichen-Kandidaten basierend auf den das Cluster identifizierenden Daten von der Wahrscheinlichkeitscluster-Identifiziereinrichtung identifizieren.
8. System nach Anspruch 7, das weiterhin gespeicherte Wahrscheinlichkeitsdaten aufweist, die jeweilige Wahrscheinlichkeitsdaten für jedes der Zeichenwahrscheinlichkeitscluster umfassen, wobei die Einschränkungs-Erfüllungseinrichtung die das Cluster identifizierenden Daten verwendet, um auf jeweilige Wahrscheinlichkeitsdaten des identifizierten, nahesten Clusters zuzugreifen.
9. System nach Anspruch 8, wobei die jeweiligen Wahrscheinlichkeitsdaten für jedes Cluster einen jeweiligen Satz von Wahrscheinlichkeitswerten für das Cluster umfassen, wobei jeder jeweilige Satz von Clustern der Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden der Zeichen-Typen umfaßt.
10. System nach Anspruch 7 bis 9, wobei die Klassifiziereinrichtung auch jeweilige Wahrscheinlichkeitsdaten für einen Satz von Abtastzeichen liefert; und wobei das System weiterhin einen Trainer zum Speichern der jeweiligen Wahrscheinlichkeitsdaten für jedes der Zeichenwahrscheinlichkeitscluster basierend auf jeweiligen Wahrscheinlichkeitsdaten für die Abtastzeichen aufweist.
11. System nach Anspruch 10, wobei der Trainer dazu geeignet ist, die Zeichenwahrscheinlichkeitscluster und die jeweiligen Wahrscheinlichkeitsdaten für jedes der Cluster durch Clusterbildung der Wahrscheinlichkeitsdaten für die Abtastzeichen zu erhalten.
DE69029188T 1989-10-25 1990-10-25 Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung Expired - Fee Related DE69029188T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/427,148 US5075896A (en) 1989-10-25 1989-10-25 Character and phoneme recognition based on probability clustering

Publications (2)

Publication Number Publication Date
DE69029188D1 DE69029188D1 (de) 1997-01-02
DE69029188T2 true DE69029188T2 (de) 1997-03-20

Family

ID=23693682

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69029188T Expired - Fee Related DE69029188T2 (de) 1989-10-25 1990-10-25 Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung

Country Status (4)

Country Link
US (1) US5075896A (de)
EP (1) EP0425290B1 (de)
JP (1) JP2991473B2 (de)
DE (1) DE69029188T2 (de)

Families Citing this family (192)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2836159B2 (ja) * 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
JPH0481988A (ja) * 1990-07-24 1992-03-16 Sharp Corp クラスタリング方式
EP0498978A1 (de) * 1991-02-13 1992-08-19 International Business Machines Corporation Automatische Erkennung von Zeichen in Kursivschrift
US5392367A (en) * 1991-03-28 1995-02-21 Hsu; Wen H. Automatic planar point pattern matching device and the matching method thereof
US5257323A (en) * 1991-05-29 1993-10-26 Canon Kabushiki Kaisha Selection agent for a symbol determination system with multiple character recognition processors
KR950008022B1 (ko) * 1991-06-19 1995-07-24 가부시끼가이샤 히다찌세이사꾸쇼 문자처리방법 및 장치와 문자입력방법 및 장치
JP3118725B2 (ja) * 1991-09-11 2000-12-18 株式会社日立製作所 自動分類方法
US5343537A (en) * 1991-10-31 1994-08-30 International Business Machines Corporation Statistical mixture approach to automatic handwriting recognition
US5483650A (en) * 1991-11-12 1996-01-09 Xerox Corporation Method of constant interaction-time clustering applied to document browsing
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US5544257A (en) * 1992-01-08 1996-08-06 International Business Machines Corporation Continuous parameter hidden Markov model approach to automatic handwriting recognition
US5325445A (en) * 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
JPH064093A (ja) * 1992-06-18 1994-01-14 Matsushita Electric Ind Co Ltd Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置
JP2611904B2 (ja) * 1992-10-19 1997-05-21 株式会社エイ・ティ・アール視聴覚機構研究所 文字認識装置
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
ATE195605T1 (de) * 1993-03-12 2000-09-15 Stanford Res Inst Int Verfahren und vorrichtung für sprachunterricht mittels interaktiver sprachsteuerung
JPH0773190A (ja) * 1993-04-29 1995-03-17 Matsushita Electric Ind Co Ltd ペンベースコンピューターシステム用絵文字ネーミング
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
DE69427525T2 (de) * 1993-10-15 2002-04-18 At&T Corp., New York Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes
EP0654755B1 (de) * 1993-11-23 2000-08-02 International Business Machines Corporation Anlage und Verfahren zur automatischen Handschrifterkennung mittels eines benutzerunabhängigen chirographischen Labelalphabets
US6304675B1 (en) 1993-12-28 2001-10-16 Sandia Corporation Visual cluster analysis and pattern recognition methods
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
JP3260979B2 (ja) * 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
EP0694862A3 (de) * 1994-07-22 1996-07-24 At & T Corp Erkennung von degradierten, graustufenförmigen Dokumenten mittels zweidimensionalen versteckten Pseudo-Markovmodellen und N-best-Hypothesen
US5768423A (en) * 1994-09-02 1998-06-16 Panasonic Technologies Inc. Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing
US5802205A (en) * 1994-09-09 1998-09-01 Motorola, Inc. Method and system for lexical processing
US5854855A (en) * 1994-09-09 1998-12-29 Motorola, Inc. Method and system using meta-classes and polynomial discriminant functions for handwriting recognition
DE4436408C1 (de) * 1994-10-12 1995-12-07 Daimler Benz Ag Mustererkennungsverfahren
US5642440A (en) * 1994-12-08 1997-06-24 Grumman Aerospace Corporation System using ergodic ensemble for image restoration
US5982926A (en) * 1995-01-17 1999-11-09 At & T Ipm Corp. Real-time image enhancement techniques
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JPH08293028A (ja) * 1995-04-24 1996-11-05 Matsushita Electric Ind Co Ltd 並列画像クラスタリング装置
US6044171A (en) * 1995-05-09 2000-03-28 Polyakov; Vladislav G. Method and apparatus for pattern recognition and representation using fourier descriptors and iterative transformation-reparametrization
US5659771A (en) * 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5774576A (en) * 1995-07-17 1998-06-30 Nec Research Institute, Inc. Pattern recognition by unsupervised metric learning
US6282324B1 (en) * 1995-08-31 2001-08-28 Northrop Grumman Corporation Text image deblurring by high-probability word selection
US5778095A (en) * 1995-12-20 1998-07-07 Xerox Corporation Classification of scanned symbols into equivalence classes
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US5982933A (en) * 1996-01-12 1999-11-09 Canon Kabushiki Kaisha Information processing method, information processing apparatus, and storage medium
US5742522A (en) * 1996-04-01 1998-04-21 General Electric Company Adaptive, on line, statistical method and apparatus for detection of broken bars in motors by passive motor current monitoring and digital torque estimation
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
US5828999A (en) * 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US5850480A (en) * 1996-05-30 1998-12-15 Scan-Optics, Inc. OCR error correction methods and apparatus utilizing contextual comparison
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
CN1110775C (zh) * 1996-12-10 2003-06-04 许文星 平面图形点的自动对比方法及装置
JP3969775B2 (ja) * 1996-12-17 2007-09-05 キヤノン株式会社 手書き情報入力装置および手書き情報入力方法
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6298158B1 (en) * 1997-09-25 2001-10-02 Babylon, Ltd. Recognition and translation system and method
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
CN1343337B (zh) * 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
US6662180B1 (en) * 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6618697B1 (en) 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US6631211B1 (en) * 1999-07-08 2003-10-07 Perkinelmer Las, Inc. Interactive system for analyzing scatter plots
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
JP3689670B2 (ja) * 1999-10-28 2005-08-31 キヤノン株式会社 パターン整合方法及び装置
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
US7343041B2 (en) * 2001-02-22 2008-03-11 International Business Machines Corporation Handwritten word recognition using nearest neighbor techniques that allow adaptive learning
US7139755B2 (en) 2001-11-06 2006-11-21 Thomson Scientific Inc. Method and apparatus for providing comprehensive search results in response to user queries entered over a computer network
US7167587B2 (en) * 2002-08-30 2007-01-23 Lockheed Martin Corporation Sequential classifier for use in pattern recognition system
US7366352B2 (en) * 2003-03-20 2008-04-29 International Business Machines Corporation Method and apparatus for performing fast closest match in pattern recognition
NZ548445A (en) * 2003-12-31 2009-05-31 Thomson Reuters Glo Resources Systems, methods, interfaces and software for extending search results beyond initial query-defined boundaries
JP4172584B2 (ja) * 2004-04-19 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識結果出力装置、文字認識装置、その方法及びプログラム
NO20052966D0 (no) * 2005-06-16 2005-06-16 Lumex As Monsterkodede ordboker
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
KR100933707B1 (ko) * 2008-05-30 2009-12-24 고려대학교 기술지주 (주) 사용자 필적 조합 시스템
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9244612B1 (en) 2012-02-16 2016-01-26 Google Inc. Key selection of a graphical keyboard based on user input posture
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9471220B2 (en) 2012-09-18 2016-10-18 Google Inc. Posture-adaptive selection
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8782549B2 (en) 2012-10-05 2014-07-15 Google Inc. Incremental feature-based gesture-keyboard decoding
US8701032B1 (en) 2012-10-16 2014-04-15 Google Inc. Incremental multi-word recognition
US8850350B2 (en) 2012-10-16 2014-09-30 Google Inc. Partial gesture text entry
US8843845B2 (en) 2012-10-16 2014-09-23 Google Inc. Multi-gesture text input prediction
US8819574B2 (en) 2012-10-22 2014-08-26 Google Inc. Space prediction for text input
US8832589B2 (en) 2013-01-15 2014-09-09 Google Inc. Touch keyboard using language and spatial models
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9081500B2 (en) 2013-05-03 2015-07-14 Google Inc. Alternative hypothesis error correction for gesture typing
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10924478B2 (en) 2018-07-02 2021-02-16 Paypal, Inc. Identification based on snapshot of device memory

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1243969A (en) * 1967-11-15 1971-08-25 Emi Ltd Improvements relating to pattern recognition devices
US3810162A (en) * 1970-06-01 1974-05-07 Texas Instruments Inc Nonlinear classification recognition system
US3755780A (en) * 1971-06-28 1973-08-28 Pattern Analysis & Recognition Method for recognizing characters
US3969698A (en) * 1974-10-08 1976-07-13 International Business Machines Corporation Cluster storage apparatus for post processing error correction of a character recognition machine
US4180799A (en) * 1978-04-21 1979-12-25 Caere Corporation Apparatus and method for recognizing characters
US4541115A (en) * 1983-02-08 1985-09-10 Pattern Processing Technologies, Inc. Pattern processing system
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4773099A (en) * 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
JPS63225300A (ja) * 1987-03-16 1988-09-20 株式会社東芝 パタ−ン認識装置
US4958375A (en) * 1988-02-17 1990-09-18 Nestor, Inc. Parallel, multi-unit, adaptive pattern classification system using inter-unit correlations and an intra-unit class separator methodology
JPH02143326A (ja) * 1988-11-25 1990-06-01 Canon Inc ソーティング回路

Also Published As

Publication number Publication date
JP2991473B2 (ja) 1999-12-20
DE69029188D1 (de) 1997-01-02
EP0425290A3 (en) 1992-10-28
US5075896A (en) 1991-12-24
EP0425290A2 (de) 1991-05-02
JPH03144875A (ja) 1991-06-20
EP0425290B1 (de) 1996-11-20

Similar Documents

Publication Publication Date Title
DE69029188T2 (de) Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69907513T2 (de) Handgeschriebene oder gesprochene wort-erkennung mit neuronalen netzwerken
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69518723T2 (de) Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
Grosicki et al. ICDAR 2009 handwriting recognition competition
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE69524036T2 (de) Vorrichtung zur erkennung von gesprächsthemen
DE602004012347T2 (de) Spracherkennung
Chen et al. Variable duration hidden Markov model and morphological segmentation for handwritten word recognition
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE19721198C2 (de) Statistisches Sprachmodell für flektierende Sprachen
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69619442T2 (de) Verifizierung einer Sprachäusserung für die Erkennung einer Folge von Wörtern mittels wortbezogenem Training zur Minimierung des Verifizierungsfehlers
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
DE69620324T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
DE69626344T2 (de) Ein hierarchisch strukturiertes Wörterbuch verwendender Spracherkenner
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69416670T2 (de) Sprachverarbeitung
DE69528023T2 (de) Anlage und Verfahren zur automatischen Interpretation von Eingabeausdrucken mittels neuer a posteriori Washscheinlichkeitmasse und optimal trainierter Datenverarbeitungsnetzwerken
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee