DE112012005177T5

DE112012005177T5 - Erzeugens eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich

Info

Publication number: DE112012005177T5
Application number: DE112012005177.7T
Authority: DE
Inventors: c/o IBM Ireland McCloskey Daniel John; c/o IBM United Kingdom Ltd. Beaurpere David; IBM Ireland Kearns David
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-12-12
Filing date: 2012-11-26
Publication date: 2014-08-28
Also published as: US20130151238A1; WO2013088287A1; US9740685B2; CN103999081A; JP2015505082A

Abstract

Bereitgestellt werden ein Verfahren und System zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich. Das Verfahren beinhaltet: Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell des Informationsbereichs; und Anwenden einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; Erweitern des Grundgerüsts des natürlichsprachlichen Wortschatzes auf der Grundlage von Referenzdokumenten für den Informationsbereich, um ein Verarbeitungsmodell für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.

Description

GEBIET DER ERFINDUNG
Diese Erfindung bezieht sich auf das Gebiet des Erzeugens von Verarbeitungsmodellen für natürliche Sprache. Die Erfindung bezieht sich insbesondere auf das Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich.
HINTERGRUND DER ERFINDUNG
Moderne geschäftliche Analyseverfahren und Prozesse hängen im hohen Maße von den Informationen ab, die durch die und im Zusammenhang mit der Geschäftstätigkeit fließen. Zum Kern der Informationen über geschäftliche Prozesse gehören sowohl Transaktionsdaten als auch Textdaten aus Quellen wie eMails, Berichtsdokumenten, Präsentationen und Echtzeitkommunikation (instant messaging). Von diesen Informationen kann gesagt werden, dass es sich um Informationen handelt, die ”durch” die Geschäftstätigkeit fließen und deren Ursprung innerhalb von ihr oder innerhalb einer Gemeinschaft mit geprüfter Identität liegt.
Die relative Bedeutung des Textbestandteils dieser Informationen nimmt seit vielen Jahren stetig zu und wird nun als sehr wichtiger Bestandteil anerkannt. Aufgrund der Schwierigkeiten beim Erstellen von Modellen zum Verarbeiten natürlicher Sprache (natural language processing, NLP) zum Verstehen dieses unstrukturierten Inhalts bleibt der Textbestandteil der Informationen weitgehend ungenutzt.
Darüber hinaus hat das Aufkommen von Web 2.0 und sozialen Medien ein zusätzliches sintflutartiges Anwachsen von Textdaten erzeugt, die ”rund um” die Geschäftstätigkeit fließen und die von großem Wert sein können; die Anwendungen umfassen einen sehr weiten Bereich vom Ermitteln neuer Märkte für Produkte, dem Verstehen der bezüglich einer Marke herrschenden Stimmung (brand sentiment) und dem Finden von Einflussnehmern, um nur einige zu nennen.
Die Auswirkungen, die fortschrittliche NLP-Modelle auf eine Geschäftstätigkeit haben können, liegen darin, dass es sich dabei um einen Bedarf handelt, der zu den derzeit am schnellsten wachsenden in der Branche der Informationstechnologie gehört. Aufgrund der Komplexität von natürlicher Sprache ist das Erstellen solcher Modelle jedoch nicht einfach.
Mit dem Begriff Verarbeitungsmodell für natürliche Sprache (NLP-Modell) wird eine abstrahierte Menge von Eingaben in ein Textanalysesystem (text analysis engine) beschrieben, damit es daraus möglichst Konzepte (benannte Einheiten wie Bezugnahmen auf eine ”Person”, Bezugnahmen auf einen ”Ort” usw.) sowie Beziehungen zwischen diesen Konzepten (z. B. ”wohnt_in”) extrahiert. Mit diesen ”Fakten” kann der Text für eine programmatische Nutzung und Prozessautomatisierung freigelegt werden. Beispiele für Fakten in diesem Fall wären ”John McGrath wohnt in 123 Main St., Dublin” oder ”Michael hat 321 Main St. als seine Privatadresse angegeben”.
Ein solches Modell hängt sehr stark von dem ”Bereich” (domain) der Eingaben ab, die verarbeitet werden sollen. Es gibt kein für alles geeignetes Einheitsmodell, und selbst für etwas wie ein Erkennen von ”Person” wird der Grad des Erfolgs (definiert anhand von Genauigkeit oder ”Precision”/”Recall”) in unterschiedlichen Textquellen verschieden ausfallen. Eine in medizinischen Unterlagen erwähnte ”Person” ist beispielsweise etwas ganz anderes als eine in akademischen Zitaten erwähnte ”Person”. Im Fall medizinischer Unterlagen ist darüber hinaus eine Unterklassifizierung von ”Person” sehr wichtig für das Verständnis, damit das NLP-System einer bestimmten Bezugnahme auf eine Person die korrekte semantische Unterklasse zuweist, beispielsweise die Unterscheidung zwischen Patient und Chirurg, Hausarzt usw.
Bereichsspezifische NLP-Modelle sind kostspielig beim Entwickeln und Pflegen. Es gibt zwei bekannte Ansätze zum Entwickeln solcher NLP-Modelle: 1) manuelles, von Grund auf neu beginnendes Erstellen von Wortlisten und Kontextregeln und 2) auf Maschinenlernen beruhende Ansätze, die einen mit Anmerkungen versehenen Korpus als Eingabe erfordern, an dem Maschinenlernalgorithmen ausgeführt werden, um die Merkmale zu ”lernen”, die die Zuweisung einer Bedeutungsklasse zu einem bestimmten Textabschnitt angeben.
Beide bekannten Verfahren sind sehr zeitaufwändig, wobei das erstgenannte den Vorteil aufweist, dass es explizit und manuell fein abstimmbar ist, während es sich beim letztgenannten um eine ”Black Box” handelt, die jedoch insofern eine niedrigere Einstiegsschwelle bietet, als nur Wissen des Bereichs selbst für die Aufgabe des Hinzufügens von Anmerkungen erforderlich ist, während bei der erstgenannten auch ein gewisses Wissen der zugrundeliegenden Abgleichtechniken benötigt wird.
Deshalb besteht nach dem Stand der Technik die Notwendigkeit, sich des vorgenannten Problems anzunehmen.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich bereitgestellt, welches aufweist: Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell des Informationsbereichs; Anwenden einer Menge von Syntaxregeln.
Unter einem ersten Blickwinkel betrachtet, stellt die vorliegende Erfindung ein Verfahren zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich bereit, welches aufweist: Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell des Informationsbereichs; Anwenden einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; Erweitern des Grundgerüsts des natürlichsprachlichen Wortschatzes auf der Grundlage von Referenzdokumenten für den Informationsbereich, um ein Verarbeitungsmodell für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes in dem Informationsbereich bevorzugte Begriffe ableitet.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Anwenden einer Menge von Syntaxregeln ein Berücksichtigen von Subjekt, Prädikat, Objekt und ein Verändern der Reihenfolge für die sprachliche Darstellung beinhaltet.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Erweitern des Grundgerüsts beinhaltet: Auswählen eines bevorzugten Begriffs als Konzept oder Beziehung; Ausführen einer Schlüsselwortsuche für den bevorzugten Begriff in Referenzdokumenten aus dem Informationsbereich; und Bereitstellen einer geordneten Menge möglicher Begriffe für den bevorzugten Begriff.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das beinhaltet: Ermitteln lokaler N-Gramme; Messen einer oder mehrerer Messgrößen der N-Gramme und Bewerten der N-Gramme.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Erweitern des Grundgerüsts für den natürlichsprachlichen Wortschatz beinhaltet: Ableiten weiterer Syntaxregeln auf der Grundlage der Referenzdokumente aus dem Informationsbereich; und Bilden von Schnittmengen aus Syntaxregeln und den für Konzepte und Beziehungen zu Clustern zusammengefassten Begriffen.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das beinhaltet: Nutzen von Verbstrukturen aus sprachwissenschaftlichen Verbklassen, um die Bildung von Schnittmengen zu steuern, die auf zu Clustern zusammengefasste Begriffe angewendet wird.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Erweitern des Grundgerüsts bei einem Anfangskonzept oder einer Anfangsbeziehung beginnt und sich durch benachbarte Konzepte oder Beziehungsverknüpfungen in dem Quellenmodell iterierend nach außen bewegt; und die erweiterten Begriffe von Konzepten und Beziehungen durch Vermehren von Bewertungen verfeinert.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das beinhaltet: Ermitteln einer Abweichung von besten Begriffen für ein Konzept oder eine Beziehung unter Verwendung einer Bewertungsschwelle.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Erweitern des Grundgerüsts eine sich in Iterationen wiederholende Strategie auf der Grundlage von Ergebnissen dynamisch ändert.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Ableiten eines Grundgerüsts für einen natürlichsprachlichen Wortschatz auf mehr als einem Quellenmodell beruht.
Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Ableiten eines Grundgerüsts für einen natürlichsprachlichen Wortschatz frei zugängliche Daten nutzt, um das Grundgerüst anfangs zu füllen, wobei die Ontologieklassen des Quellenmodells mit den Klassen frei zugänglicher Daten abgeglichen werden.
Aus einem weiteren Blickwinkel betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem computerlesbaren Medium gespeichert ist und in einen internen Speicher eines digitalen Computers geladen werden kann, wobei es Softwarecode-Abschnitte aufweist, um, wenn das Programm auf einem Computer ausgeführt wird, das Verfahren wie oben beschrieben durchzuführen.
Unter einem weiteren Blickwinkel betrachtet, stellt die vorliegende Erfindung ein System zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich bereit, welches aufweist: einen Prozessor, eine Grundgerüst-Komponente zum Ableiten eines Grundgerüsts für einen natürlichsprachlichen Wortschatz aus einem Quellenmodell des Informationsbereichs; eine Syntaxregel-Komponente zum Anwenden einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; eine Erweiterungskomponente zum Erweitern des Grundgerüsts für einen natürlichsprachlichen Wortschatz auf der Grundlage von Referenzdokumenten aus dem Informationsbereich, um ein Verarbeitungsmodell für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.
Vorzugsweise stellt die vorliegende Erfindung ein System bereit, bei dem die Syntaxregel-Komponente zum Anwenden einer Menge von Syntaxregeln ein Berücksichtigen von Subjekt, Prädikat, Objekt und ein Verändern der Reihenfolge für die sprachliche Darstellung beinhaltet.
Vorzugsweise stellt der vorliegenden Erfindung ein System bereit, bei dem die Erweiterungskomponente zum Erweitern des Grundgerüsts Komponenten beinhaltet eine Komponente zum Bilden von Clustern von Konzepten/Beziehungen beinhaltet, um: Auswählen eines bevorzugten Begriffs als Konzept oder Beziehung; Ausführen einer Schlüsselwortsuche für den bevorzugten Begriff in Referenzdokumenten aus dem Informationsbereich; und Bereitstellen einer geordneten Menge möglicher Begriffe für den bevorzugten Begriff.
Vorzugsweise stellt der vorliegenden Erfindung ein System bereit, bei dem die Komponente zum Bilden von Clustern von Konzepten/Beziehungen dient zum: Ermitteln lokaler N-Gramme; Messen einer oder mehrerer Messgrößen der N-Gramme und Bewerten der N-Gramme.
Vorzugsweise stellt die vorliegende Erfindung ein System bereit, bei dem die Erweiterungskomponente zum Erweitern des Grundgerüsts für den natürlichsprachlichen Wortschatz beinhaltet: eine Syntaxregel-Erzeugungskomponente zum Ableiten weiterer Syntaxregeln auf der Grundlage der Referenzdokumente aus dem Informationsbereich; und eine Schnittmengenkomponente zum Bilden von Schnittmengen aus Syntaxregeln und den für Konzepte und Beziehungen zu Clustern zusammengefassten Begriffen.
Vorzugsweise stellt die vorliegende Erfindung ein System bereit, bei dem die Erweiterungskomponente zum Erweitern des Grundgerüsts bei einem Anfangskonzept oder einer Anfangsbeziehung beginnt und sich durch benachbarte Konzepte oder Beziehungsverknüpfungen in dem Quellenmodell iterierend nach außen bewegt; und die erweiterten Begriffe von Konzepten und Beziehungen durch Vermehren von Bewertungen verfeinert.
Vorzugsweise stellt die vorliegende Erfindung ein System bereit, bei dem die Erweiterungskomponente zum Erweitern des Grundgerüsts eine sich in Iterationen wiederholende Strategie auf der Grundlage von Ergebnissen dynamisch ändert.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Eine bevorzugte Ausführungsform der vorliegenden Erfindung wird nun lediglich als Beispiel unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, auf denen:
1 ein Ablaufplan einer Ausführungsform eines Verfahrens gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
2 ein Ablaufplan weiterer Einzelheiten des Verfahrens von 1 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
3 ein Blockschaubild einer Ausführungsform eines Systems gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
4 ein Blockschaltbild eines Computersystems gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
5 eine Baumdarstellung eines Quellenmodells gemäß einem Aspekt einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
6 eine Beziehungsdarstellung eines Quellenmodells gemäß einem Aspekt einer bevorzugten Ausführungsform der vorliegenden Erfindung ist.
AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN DER ERFINDUNG
Es wird einsichtig sein, dass aus Gründen der Einfachheit und Klarheit der Veranschaulichung Elemente in den Figuren nicht notwendigerweise maßstabsgetreu gezeichnet sind. Aus Gründen der Klarheit können die Abmaße einiger Elemente im Verhältnis zu anderen Elementen übertrieben sein. Ferner können, wenn dies als sinnvoll erachtet wird, Bezugszeichen innerhalb der Figuren wiederholt werden, um entsprechende oder ähnliche Merkmale anzugeben.
In der folgenden ausführlichen Beschreibung werden zahlreiche konkrete Einzelheiten dargelegt, um ein gründliches Verständnis der Erfindung zu vermitteln. Der Fachmann wird jedoch verstehen, dass der vorliegenden Erfindung auch ohne diese konkreten Einzelheiten in die Praxis umgesetzt werden kann. In anderen Fällen wurden allgemein bekannte Verfahren, Vorgehensweisen und Komponenten nicht ausführlich beschrieben, um den Blick auf der vorliegenden Erfindung nicht zu verstellen.
Beschrieben werden ein Verfahren und ein System zum Erzeugen und Fortentwickeln eines Verarbeitungsmodells für natürliche Sprache, das auf einen dafür gewählten Informationsbereich ausgerichtet ist. Das Verfahren macht sich zu Nutze, dass in vielen Fällen ein Bereichs- oder Branchenmodell vorhanden ist, im Wesentlichen eine Ontologie des Geschäftsbereichs selbst.
Bereitgestellt wird eine kostengünstige Lösung, um bereichsspezifische Verarbeitungsmodelle für natürliche Sprache aus Bereichs- oder Branchenmodellen (beispielsweise jene, die bei der Industry Models Group von IBM erhältlich sind und aktiv von ihr entwickelt werden; IBM ist eine Marke der International Business Machines Corporation) oder anderen Formen einer Ontologie zu erzeugen und fortzuentwickeln. Dieses Anfangsmodell oder diese Ontologie wird als Quellenmodell bezeichnet. Dies ermöglicht ein schnelles Erstellen, Einsetzen und Pflegen eines Verarbeitungsmodells für natürliche Sprache. Das Verarbeitungsmodell für natürliche Sprache kann dann zum Analysieren von Freitext-Unterlagen innerhalb von Lösungen für diesen Bereich verwendet werden.
Das beschriebene Verfahren und das System nutzen die Struktur und die Informationen des Bereichsmodells, um ein NLP-Anfangsmodell zu erzeugen und die die Anzahl der spärlichen Bezeichnungen von Knoten in dem NLP-Anfangsmodell (definitionsgemäß können die Knoten in dem Anfangsmodell mit einem einzelnen Begriff bezeichnet werden, als empfohlene bewährte Vorgehensweise mit einem bevorzugt verwendeten Begriff) mittels Techniken zum Bilden von Schlüsselwort- und Verb-Clustern und Bewertungstechniken zu erhöhen.
Die Wechselwirkungen zwischen Einheiten in dem Modell selbst ermöglichen das Sammeln von Textdarstellungen der Konzepte, die darin enthalten sind/auf die darin Bezug genommen wird. Zum Abgleichen und Extrapolieren der Wörterbücher und Regeln kann eine Reihe bekannter und einfacher empirischer Techniken verwendet werden. Ohne ein Nutzen des umgebungsbezogenen Charakters des Modells, d. h. ohne ein Erfassen nach außen gerichteter Verknüpfungen (Beziehung oder Prädikat) und von Zielknotentypen und wiederum ihrer Spezifikationen, gäbe es eine Menge Störeinflüsse in dem Modell.
Bezugnehmend auf 1 stellt ein Ablaufplan 100 eine Ausführungsform des beschriebenen Verfahrens dar.
Ein Grundgerüst eines natürlichsprachlichen Wortschatzes, der auf einen Informationsbereich ausgerichtet ist, kann aus einem Quellenmodell 111 abgeleitet werden 101. Bei dem Quellenmodell 111 kann es sich um eine beliebige Form von Ontologie handeln, beispielsweise ein Branchen- oder Bereichsmodell oder eine andere Form von Ontologie in dem spezifischen Informationsbereich (bei der Ontologie kann es sich beispielsweise um ein Datenbankschema handeln). Es liegt in der Natur dieser Quellenmodelle, dass sie die notwendigen Daten bereitstellen, um das Grundgerüst von natürlichsprachlichen Wortschätzen abzuleiten, die auf ihren dafür gewählten Informationsbereich (Bankwesen, Versicherung, Medizin usw.) ausgerichtet sind. Das Verfahren kann mehr als ein Quellenmodell verwenden, darunter externe und öffentlich verfügbare Modelle und Daten, beispielsweise Linked Open Data, WordNet usw.
Das Grundgerüst des natürlichsprachlichen Wortschatzes kann direkt aus dem konzeptionellen Modell der Quelle aufgebaut sein und wahlweise Synonyme aus den Glossaren der Geschäftstätigkeit enthalten. Alternativ kann das Grundgerüst ausgehend von Linked Open Data aufgebaut werden (ein Projekt von W3C Semantic Web Education und Outreach), bei dem die Ontologieklassen in dem Quellenmodell auf Übereinstimmung mit einer in der Cloud von Linked Open Data beschriebenen Klasse geprüft werden können. Dies kann zutreffen, wenn das Anfangsgrundgerüst keine Beispieldaten (nur Typenbeschreibungen) enthält, wobei es in diesem Fall möglich ist, Linked Open Data zum anfänglichen Füllen des Grundgerüsts zu nutzen.
Dies führt zu spärlich gefüllten Wörterbüchern von Konzeptbezeichnungen und Handlungsverben, die in einer einfachen Menge von als Ausgangsbasis (seed) dienenden Syntaxregeln unter Berücksichtigen von Subjekt, Prädikat, Objekt und Verändern der Reihenfolge für die sprachliche Darstellung oder nach den Regeln einer Sprache kombiniert und angewendet werden 102. In einigen Sprachen könnten beispielsweise Konstruktionen vorherrschen, in denen die Reihenfolge ”John sah Mary” (Subjekt-Prädikat-Objekt) auf natürlichere Weise zum Ausdruck gebracht wird als ”sah John Mary”.
Da jedoch die zum Ableiten des anfänglichen Grundgerüsts verwendeten Quellenmodelle die betroffenen Konzepte und Beziehungen absichtlich mittels einer begrenzten Menge von bevorzugten Begriffen oder Bezeichnungen (üblicherweise einer bzw. eine) beschreiben, muss der sich daraus ergebende Wortschatz bzw. die Wortschätze erweitert oder ”verdichtet” werden. Auf Konzepte und Beziehungen wird im Folgenden jeweils getrennt Bezug genommen; eine Beziehung kann jedoch als ein Sondertyp eines Konzepts betrachtet werden.
Sobald ein solches Grundgerüst vorhanden ist, muss es durch Bilden von Schlüsselwort-Clustern und anderen Standardtechniken mit Synonymwörtern, Verben und Ausdrücken erweitert oder verdichtet werden 103. Das Verdichten 103 wird auf der Grundlage einer Menge von Referenzdokumenten 113 ausgeführt, die aus dem Informationsbereich gewählt werden (beispielsweise eMails, Richtlinien, Leitlinien, Dokumente, Berichte usw.). Das Verdichten 103 beinhaltet Ableiten von Bezeichnungsbegriffen für Konzepte und Beziehungen aus bevorzugten Begriffen im Grundgerüst und Erzeugen von Syntaxregeln aus den als Ausgangsbasis dienenden Syntaxregeln.
Das verdichtete Grundgerüst bildet 104 die Grundlage des NLP-Modells, das zum Verarbeiten aller unstrukturierten Informationen innerhalb der Geschäftstätigkeit und zum semantischen Klassifizieren aller Erwähnungen von Konzepten in Dokumenten des Bereichs verwendet wird, damit sie für eine Textanalyse genutzt werden können.
In jeder mittleren bis großen Organisation gibt es viele Anwendungen, die im selben Geschäftsbereich betrieben werden (z. B. mehrere Systeme für Zahlungsvorgänge, Anwendungen zur Aufnahme von Neukunden (”Customer-On-Boarding”)). Eine Organisation hat möglicherweise eine ständig zunehmende Menge von Produkten und Dienstleistungen, wodurch die Datenmenge innerhalb der Organisation exponentiell wächst. Um dieses Problem zu bewältigen, werden gemeinsame Architekturen und eine gemeinsame Geschäftssprache benötigt, um die betriebliche Effizienz zu erhöhen und die Zeit bis zur Markteinführung zu verbessern.
Eine gemeinsame Geschäftssprache wird benötigt, um diese Problempunkte bei folgenden Tätigkeiten anzugehen: geschäftsspartenübergreifende Verarbeitung; Anwendungsrationalisierung; Sammeln von Projektanforderungen; Überführung der Geschäftstätigkeit in IT-Systeme; Einhaltung gesetzlicher Anforderungen usw. Zwischen den einzelnen Geschäftssparten gibt es eine Vielzahl von Synonymen, und es ist sehr schwierig, sie zu rationalisieren; dieses Problem wird noch verschärft, wenn die Bedeutung neuer gesetzlichen Anforderungen verstanden werden muss und man sich darauf einzustellen hat.
Branchenmodelle beinhalten spezifische Ressourcen, um diesem Bedarf an einer gemeinsamen strukturierten Geschäftssprache gerecht zu werden, und stellen deshalb eine Möglichkeit zum kostengünstigen Erzeugen bereichsspezifischer NLP-Modelle bereit.
Jedes Angebot eines Branchenmodells kann mehrere Modellierungsebenen für das Wissen des Bereichs enthalten, auf das es ausgerichtet ist (z. B. Bankwesen, Versicherung, Gesundheitswesen, ...). Insbesondere können sie enthalten:

a. • Geschäftsglossare für Freitextdefinitionen von Begriffen im Bereich dieser Branche, darunter Synonyme, Akronyme, Phrasen usw.
b. • konzeptionelle Modelle für Konzept/Konstruktions-Definitionen einer hohen Ebene und die ihnen eigenen Beziehungsstrukturen.

Bezugnehmend auf 2 stellt ein Ablaufplan 200 eine Ausführungsform mit weiteren Verarbeitungsdetails des beschriebenen Verfahrens dar.
Ein anfänglicher bevorzugter Begriff wird als Begriff eines Anfangskonzept oder einer Anfangsbeziehung ausgewählt 201. Das Grundgerüst des natürlichsprachlichen Wortschatzes kann verwendet werden, um zu Anfang die Passagen in dem Text ausfindig zu machen, die weitere Terminologie und Syntax ergeben, um einen Verdichtungsprozess zu ermöglichen. Der bevorzugte Begriff kann eine Schlüsselwortübereinstimmung aus dem Grundgerüst des natürlichsprachlichen Wortschatzes sein.
Der bevorzugte Begriff kann als Schlüsselwortsuche 202 in einer Menge von Referenzdokumenten verwendet werden, die aus dem Geschäftsbereich genommen werden (z. B. eMails, formelle Richtlinien, Leitlinien, Berichte usw.). Bei der Schlüsselwortsuche kann es sich um eine Schlüsselwortsuche handeln, bei der Groß- und Kleinschreibung mit dem Ziel berücksichtigt werden, einen guten Recall von Passagen in Dokumenten zu erzielen, der das Sammeln eines umfassenden Vokabulars und einer umfassenden Syntax ermöglicht. Wenn leistungsfähige Begriffe einen Wert bieten, kann alternativ eine Schlüsselwortsuche mit Berücksichtigung von Groß- und Kleinschreibung verwendet werden. Eine Schlüsselwortsuche mit Berücksichtigung von Groß- und Kleinschreibung kann beispielsweise in einigen Bereichen oder Dokumenten verwendet werden, in denen es möglicherweise signifikante Überlappungen gibt und eine Suche ohne Berücksichtigung von Groß- und Kleinschreibung zu viele Störeinflüsse erzeugen würde.
Die lokalen N-Gramme und/oder Phrasen können berücksichtigt werden 203, das heißt alle überlappenden Wortmengen, in denen die Anzahl der Wörter in der unmittelbaren Umgebung des bevorzugten Begriffs ”N” ist. Im Fall von Konzepten können die Substantiv-Phrasen berücksichtigt werden, die den bevorzugten Begriff enthalten. In ähnlicher Weise können die relevanten Verb-Phrasen für Beziehungen berücksichtigt werden.
Für ein N-Gramm kann eine Messgröße ermittelt werden 204. In der einfachsten Ausführungsform wird die Häufigkeit des N-Gramms gezählt, und N-Gramme werden mit einer Textnähe-Bewertung bewertet 205, die natürlich die Häufigkeit enthalten kann, die jedoch nicht auf diese spezifische Messgröße beschränkt wäre.
Es gibt viele mögliche Messungen, die ein Erstellen einer Rangfolge möglicher Begriffe möglicherweise beeinflussen könnten. Hierzu können bekannte Techniken wie themenbezogene Zerlegung, Analyse der latenten Semantik usw. gehören, hierzu kann aber auch die Anwendung von Synonymen und allgemeinen Ressourcen wie WordNet gehören, solange die Bereichsspezifität gewahrt bleibt. (Es sollte darauf hingewiesen werden, dass ein Verwenden von WordNet einen zu starken Verallgemeinerungsaspekt einführen kann, der unerwünscht ist, es könnte jedoch eine Hilfe für die Ergebnisse oder in benutzermoderierten Szenarios von Nutzen sein.)
Zu Beispielen möglicher Messgrößen gehören, ohne auf diese beschränkt zu sein, die folgenden:
Die Anzahl der Tokens zu dem bevorzugten Begriff (Distanz):
Bei der Häufigkeitsberechnung kann eine tf/idf-Normierung für den Dokumentenbestand angewendet werden; sie ist zwar für gute Ergebnisse nicht erforderlich, kann jedoch in bestimmten Fällen eine gewisse Verbesserung bieten;
beim Einschließen von Begriffen muss möglicherweise auch eine Auflösung hinsichtlich gleichzeitiger möglicher Bezugnahmen berücksichtigt werden, z. B. ”sie” = IBM im Zusammenhang eines Satzes, der eine Maßnahme beschreibt, welche die wichtigen Kunden ergreifen... vielleicht = ”sie werden ihr Konto auflösen, wenn die Zinsen nicht bis zum ... gutgeschrieben sind”.
Die Anwendung für diesen Zweck spezialisierter NLP-Modelle, die Muster erkennen würden, die wahrscheinlich eine Definition angeben. Eine Beispielregel, vielleicht: ”IBM ist ein wichtiger Kunde”, würde dazu führen, dass das allgemeine Muster eingeschlossen wird: von einem unbekannten (Bedeutung liegt außerhalb des natürlichsprachlichen Vokabulars) oder ganz in GROSSBUCHSTABEN (”IBM”) oder [englischer] Titelschreibweise oder in einer Schreibweise mit Binnenmajuskeln (CaMeLCase) geschriebenen Token, auf das eine gebeugte Form des Verbs ”sein” (”ist”) folgt, gefolgt von einem wahlweisen Artikel (”ein”) und einem Adjektiv (”wichtiger”) vor der Bezugnahme auf den bevorzugten Begriff für das Konzept (”Kunde”).
Begünstigung unbekannter oder außerhalb des Vokabulars liegender Begriffe (wobei außerhalb des Vokabulars liegend hier in erster Linie nicht Bestandteil der fraglichen Sprache, z. B. Englisch, bezeichnet).
Ausschluss sogenannter ”Stoppwörter”, z. B. ”wenn”, ”ein”, ”dann”. Stoppwörter-Listen müssen gesondert festgelegt werden, möglicherweise für jeden Knoten, doch wahrscheinlich für Konzepte in Gegenüberstellung zu Beziehungen.
Ähnlich für Verbbeziehungen. Eine Verbbeziehung kann als eine besondere Art eines Konzepts betrachtet werden und kann als solche hinsichtlich der Knoten- und Verknüpfungsstruktur der Ontologie oder des Modells dargestellt werden.
Außer dem, was in der Beschreibung für Konzepte enthalten ist, weisen Verbbeziehungskonzepte die zusätzliche Möglichkeit auf, eine sprachwissenschaftliche Verbanalyse durchzuführen. Verben können in Gruppen eingeteilt werden, die unterschiedliche Wertigkeitsrahmen aufweisen. Beispielsweise Arten von Argumenten, die ein Verb annimmt und wie sie angeordnet werden, welche Argumente wahlfrei sind, die ”Richtung” des Verbs; z. B. hat in ”Paul trat den Hund” ... ”trat” ein Subjekt und ein Objekt, und in diesem Fall verläuft die Richtung von Paul zu dem Hund, d. h., Paul ist das Subjekt, und der Hund ist das Objekt, daher ist das Konzept {Subjekt:= (Person, Instanz=Paul)} über eine Verbbeziehung ”trat” mit dem Konzept {Objekt:= (Tier, Instanz=den Hund)} verknüpft.
Die beschriebene begriffsgestützte N-Gramm-Schnittmenge auf der Grundlage eines Ontologie/Bereichs-Modells schwächt die Notwendigkeit einer solchen detaillierten Verbkenntnis in hohem Maße ab, doch dort, wo sie mittels eines Prozessors wie einem linguistischen Tiefenparser vorhanden oder verfügbar ist, kann der beschriebene Ansatz davon Gebrauch machen. Oft weisen derartige Ansätze in Texten mit häufigem Gebrauch einer bereichsspezifischen Sprache kein gutes Verhalten auf, daher kann ein Kombinieren des beschriebenen, modellgestützten Schnittmengenansatzes bei konzeptgestützten N-Grammen, bei denen das Konzept in seiner allgemeineren Form berücksichtigt wird (d. h. auch Verbbeziehungskonzepte einschließt), eine positive Wirkung auf die Gesamtergebnisse haben und die Notwendigkeit einer komplexen, grundlegenden sprachwissenschaftlichen Verarbeitung, beispielsweise durch Tiefenparsen, hinfällig machen, die in solchen bereichsspezifischen Fällen fehleranfällig wäre.
Eine geordnete Menge möglicher Begriffe kann für den Konzeptknoten oder die Beziehung in dem Quellenmodell erzeugt werden 206, doch sie wird immer noch mit recht vielen Störeinflüssen behaftet sein.
Nachdem dies für ein Anfangskonzept oder eine Anfangsbeziehung durchgeführt wurde, kann das Verfahren für den nächsten Konzept- oder Beziehungsknoten wiederholt werden 207. In einer Ausführungsform kann sich die Iteration durch die Beziehungsverknüpfungen in dem Modell nach außen bewegen und für jede von ihnen wiederholen, woraus eine Menge von Begriffen für jedes Konzept und jede Beziehung und benachbarte Konzepte entsteht. Alternativ kann der Prozess zu benachbarten Konzeptknoten vor Beziehungsknoten springen, beispielsweise aufgrund der relativen Einfachheit von in stärkerem Maße nur aus einzelnen Substantiven bestehenden Phrasen.
Wenn das Verfahren vom Anfangskonzeptknoten oder Anfangsbeziehungsknoten in dem Quellenmodell nach außen iteriert 207, kann die Menge der Begriffe von vorhergehenden Knoten verfeinert werden, indem die Bewertungen (additive oder andere gewichtete Funktion) auf der Grundlage der Schnittmenge mit dem aktuellen Knoten vermehrt werden.
Für die Iteration 207 kann jede Kombination von Konzept oder Beziehung verwendet werden, darunter auch ereignisgesteuerte Änderungen oder ein Wechseln des Ansatzes. Alternative Strategien können verwendet werden, darunter auch die Koordination zwischen von einer Heuristik gesteuerten Strategien.
Beispielsweise kann die Änderungsgeschwindigkeit bei Häufigkeiten auf mögliche Synonyme überwacht werden, während der Algorithmus ausgeführt wird; dies kann beeinflussen, welcher Ansatz als Nächstes verwendet wird, und dies kann sich dynamisch in Abhängigkeit vom Überwachen der Messgrößen ändern. Wenn die Ergebnisse nicht schnell genug gefunden werden, können alternative Strategien verwendet werden. Wenn zu viele Begriffe gefunden werden und dazu Querverweise erstellt werden müssen, könnte ein Anwenden einer alternativen Strategie helfen, Störeinflüsse schneller zu beseitigen.
Der Kontext von Subjekt-Prädikat-Objekt wird verwendet, und deshalb weist das Modell Konzeptknoten (Subjekte) auf, die mit anderen Konzeptkonten (Objekten) über Beziehungen (Prädikate) verknüpft sind. Dies führt zu einer raschen Divergenz der besten Begriffe für ein Konzept oder eine Beziehung, und unter Verwendung einer Bewertungsschwelle kann ein Wortschatz der Typen aufgebaut werden.
Dieser Wortschatz bildet die Grundlage des NLP-Modells, das zum Verarbeiten aller unstrukturierten Informationen innerhalb der Geschäftstätigkeit und zum semantischen Klassifizieren aller Erwähnungen von Konzepten in beliebigen Firmendokumenten verwendet wird, damit sie für einen beliebigen der jetzigen Standardvorteile einer Textanalyse genutzt werden können, die weiter oben erwähnt wurden.
Nachdem viele der ausdrücklichen Bezeichnungen für Konzept- und Beziehungsbeispiele erkannt sind, können Anmerkungen hinzugefügt und Standardtechniken des Maschinenlernens angewendet werden, um syntaktische Regeln auf der Grundlage eines beliebigen freiliegenden Merkmals des Textes abzuleiten, z. B. Großschreibung, Wortart oder -klasse, Ziffern, klassifizierte Tokens, die durch reguläre Ausdrücke gefunden werden, wie z. B. Datum/Zeit, URLs, eMail usw.
Das Hinzufügen von Anmerkungen bezieht sich auf den Prozess, dass nach erfolgtem Erkennen einiger Begriffe (Einzelwörter oder Mehrwortphrasen, die die Konzepte darstellen) im vorhergehenden Text der Text auf diese Begriffe hin durchsucht und die Stellen, an denen sie vorkommen, im Text mit Auszeichnungen versehen werden. Der daraus entstandene, mit Auszeichnungen versehene Text kann als Eingabe in einem Maschinenlern-Standardprozess verwendet werden, der automatisch ein Modell erzeugen würde, das die wichtigen kontextbezogenen Merkmale sammeln würde, die das Vorkommen dieser Dinge kennzeichnen. Dies kann danach als NLP-Modell an sich angewendet werden, in den meisten Fällen würde es jedoch besser als Möglichkeit zum Erzeugen von mehr möglichen Begriffen verwendet.
Der mit Anmerkungen versehene Text ermöglicht dann entweder, dass ein automatisches Modell erzeugt wird, wie beim Standardfall des Maschinenlernens, oder dass einem Spezialisten für den Bereich eine statistische Darstellung der Merkmalverteilung in der Umgebung von mit Anmerkungen versehenen Instanzen vorgelegt wird, damit geeignete Syntaxregeln und/oder wichtige Textmerkmale erkannt und anschließend angewendet werden können.
Das Maschinenlernen kann entweder vollautomatisch oder benutzermoderiert erfolgen. Im benutzermoderierten Fall kann das Maschinenlernen dem Spezialisten für den Bereich lediglich statistische Beobachtungen vorlegen, beispielsweise das Vorherrschen eines Merkmalmusters, das einer Instanz eines Typs vorausgeht.
Beispielsweise gehen Muster wie ”Herr” und ”Dr.” der Bezugnahme auf eine Person voraus.
Dies stellt die Ableitung der Syntaxregeln bereit, entweder bis zu einem gewissen Grad mit verschiedenen Maschinenlerntechniken automatisiert oder mit einem benutzermoderierten Hybrid-Lernen, wobei Maschinenlernen genutzt wird, um statistisch relevante Merkmalmuster zu entdecken und sie einem Benutzer, der Spezialist für einen Bereich ist, vorzulegen.
Die Schnittmenge aus den abgeleiteten Syntaxregeln und der Menge der N-Gramme, die aus einem Kontext abgeleitet werden, der zwischen beliebigen zwei oder mehr Elementen des Modells (Konzept oder Beziehung) aufgespannt ist, kann zum Erweitern des Grundgerüsts auf der Grundlage der Referenzdokumente verwendet werden. Dies ermöglicht ein effizientes Erzeugen eines genauen NLP-Modells mit hoher Reichweite.
Die Verwendung von Verbstrukturen aus einer sprachwissenschaftlichen Klassifizierung von Verben kann ebenfalls genutzt werden, um die Schnittmengenlogik zu steuern, die auf die Menge der N-Gramme angewendet werden kann.
Es können anfängliche, als Ausgangsbasis dienende Syntaxregeln abgeleitet werden (Schritt 102 von 1), die zum Ingangsetzen des Prozesses zum Erzeugen zusätzlicher Syntaxregeln verwendet werden können. Zusätzliche Syntaxregeln können aus den Referenzdokumenten 113 erzeugt werden. Dies verläuft ähnlich wie das Verdichten der bevorzugten Begriffe aus der Konzeptdefinition des Modells. Anhand einer Sammlung von Dokumenten mit diesen mit Anmerkungen versehenen Konzeptbeispielen kann auf die Syntax, die diese Konzepte anzeigt, rückgeschlossen werden.
Die Schnittmenge aus den erzeugten Syntaxregeln und den N-Grammen, die aus dem zwischen beliebigen zwei oder mehreren Elementen des Modells aufgespannten Kontext (Konzept oder Beziehung) abgeleitet werden, erzielt gute Ergebnisse und ermöglicht die effiziente Herstellung eines genauen NLP-Modells mit hoher Reichweite.
Eine bevorzugte Ausführungsform würde den obigen Prozess in einer ”Rückkopplungsschleife” enthalten, was bedeutet, dass er iterativ mit der Ausgabe von sich selbst angewendet werden kann (z. B. wird ”IBM” in dem obigen Beispiel verwendet, doch dieses Mal wird ein bevorzugter Begriff ”Kunde” als Variable gewählt, was wahrscheinlich zum Entdecken von ”Kunde” führen würde).
In einer alternativen Ausführungsform kann der Prozess aufgrund der relativen Einfachheit von in stärkerem Maße nur aus einzelnen Substantiven bestehenden Phrasen zu benachbarten Konzeptknoten vor Beziehungsknoten springen.
Zusätzlich kann jede Kombination der Subjekt-Prädikat-Objekt-Struktur verwendet werden, die aus den Beziehungen des Modells abgeleitet wird.
Das Erzeugen von Syntaxregeln kann als vergleichbar mit dem Erzeugen neuer Begriffe angesehen werden, wobei der einzige Unterschied in dem Umstand liegt, dass abstraktere Merkmale berücksichtigt werden. Das heißt, beim Verfahren der Begriffsableitung werden nur die eigentlichen Wörter und Wortfolgen im Text betrachtet, während bei der Ableitung von Syntaxregeln abstraktere Merkmale im Text betrachtet würden, beispielsweise die Merkmale, auf die in dem Absatz weiter oben Bezug genommen wurde, in dem Maschinenlernen erwähnt wurde.
Das Ableiten von Syntaxregeln geschieht in erster Linie, nachdem die Abfolge von 2, einschließlich Iteration, abgeschlossen ist. Die Verwendung von als Ausgangsbasis dienenden Syntaxregeln als Hilfe beim Bewerten zeigt jedoch, dass sich der Prozess verzweigen kann, um sie zu erzeugen und eine weitere erzeugte Menge zusammen mit der anfänglichen, als Ausgangsbasis dienenden Menge anzuwenden.
Das Bilden von Schnittmengen geschieht im gesamten Prozess, d. h. beim Bewerten der Begriffe in den anfänglichen Durchlaufen und später beim Lernen und Prüfen der Gültigkeit der abgeleiteten Regeln im nächsten Schritt.
Bezugnehmend auf 3 stellt ein Blockschaubild 300 eine Ausführungsform des beschriebenen Verfahrens dar.
Bereitgestellt wird ein System 310 zum Erzeugen eines NLP-Modells, das ein NLP-Modell für einen Bereich 320 erzeugen und pflegen kann. Bei einem Bereich 320 kann es sich beispielsweise um einen geschäftlichen Bereich, medizinischen Bereich, akademischen Bereich usw. handeln. Ein Bereich 320 kann ein Quellenmodell 321 aufweisen, beispielsweise ein Branchenmodell oder eine andere Ontologie, die bevorzugte Begriffe für den Bereich 320 verwendet. Der Bereich 320 kann auch Referenzdokumente 322 enthalten, beispielsweise eMails, Richtlinien, Leitlinien, Dokumente, Berichte usw.
Das System 310 zum Erzeugen eines NLP-Modells kann eine Grundgerüst-Komponente 311 zum Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus dem Quellenmodell 321 des Bereichs enthalten. Das System 310 zum Erzeugen eines NLP-Modells kann auch eine Syntaxregel-Komponente 312 zum Kombinieren von Konzeptbezeichnungen und Handlungsverben unter Verwendung einer einfachen Menge von als Ausgangsbasis dienenden Syntaxregeln enthalten.
Das System 310 zum Erzeugen eines NLP-Modells kann auch eine Erweiterungskomponente 313 zum Verdichten oder Erweitern des Grundgerüstmodells aus Referenzdokumenten 322 des Bereichs 320 mit Synonymwörtern, -verben und -ausdrücken mittels Bildung von Schlüsselwort-Clustern und anderen Techniken enthalten. Die Erweiterungskomponente 313 kann eine Komponente 314 zum Bilden von Konzept/Beziehungs-Clustern zum Erweitern der Begriffe von Konzept/Beziehungs-Bezeichnungen und eine Komponente 315 zum Erzeugen von Syntaxregeln enthalten. Die Erweiterungskomponente 311 kann weiterhin eine Schnittmengenkomponente 316 zum Bilden von Schnittmengen aus den zu Clustern zusammengefassten Konzepten/Beziehungen und den erzeugten Syntaxregeln enthalten, um ein NLP-Modell 330 zu erzeugen.
Ein sich daraus ergebendes NLP-Modell 330 kann für den Bereich 320 erzeugt werden. Das NLP-Modell 330 kann zum Analysieren von in dem Bereich verwendeten Dokumenten und Sprache verwendet werden, um eine Sprachanalyse bereitzustellen. Das NLP-Modell kann allen Text in einem Bereich automatisch ”lesen” und ihn dorthin zuordnen, wohin er in dem Modell passt, welches eine Struktur für den Text zur Analyse bereitstellt.
Bezugnehmend auf 4 enthält ein beispielhaftes System zum Umsetzen von Aspekten der Erfindung ein Datenverarbeitungssystem 400, das zum Speichern und/oder Ausführen von Programmcode geeignet ist und das mindestens einen Prozessor 401 enthält, der direkt oder indirekt über ein Bussystem 403 mit Speicherelementen verbunden ist. Zu den Speicherelementen können gehören: ein lokaler Speicher, der während der eigentlichen Ausführung des Programmcodes verwendet wird, ein Massenspeicher sowie Cachespeicher, die eine vorübergehende Speicherung von mindestens einer gewissen Menge von Programmcode bereitstellen, um die Anzahl der Male zu verringern, die der Code während des Ausführens aus dem Massenspeicher abgerufen werden muss.
Die Speicherelemente können den Systemspeicher 402 in Form eines Nur-Lese-Speichers (ROM) 404 und eines Speichers 405 mit wahlfreiem Zugriff (RAM) einschließen. Ein Eingabe/Ausgabe-Basissystem (BIOS) 406 kann im ROM 404 gespeichert werden. Die Systemsoftware 407 kann im RAM 405 gespeichert werden, worin auch die Betriebssystemsoftware 408 enthalten ist. Die Softwareanwendungen 410 können ebenfalls im RAM 405 gespeichert werden.
Das System 400 kann auch primäre Speichermittel 411 wie beispielsweise ein magnetisches Festplattenlaufwerk und sekundäre Speichermittel 412 wie beispielsweise ein magnetisches Plattenlaufwerk und ein optisches Plattenlaufwerk enthalten. Die Laufwerke und ihre zugehörigen computerlesbaren Medien stellen nichtflüchtige Speicher für computerausführbare Anweisungen, Datenstrukturen, Programmmodule und weitere Daten für das System 400 bereit. Softwareanwendungen können auf den primären und sekundären Speichermitteln 411, 412 sowie im Systemspeicher 402 gespeichert werden.
Das Computersystem 400 kann in einer vernetzten Umgebung unter Verwendung logischer Verbindungen zu einem oder mehreren entfernt angeordneten Computern mittels eines Netzwerkadapters 416 betrieben werden.
Eingabe/Ausgabe-Einheiten 413 können mit dem System entweder direkt oder über zwischengeschaltete E/A-Steuereinheiten verbunden werden. Ein Benutzer kann Befehle und Daten in das System 400 über Eingabeeinheiten wie eine Tastatur, eine Zeigereinheit oder andere Eingabeeinheiten eingeben (beispielsweise Mikrofon, Joystick, Spielsteuerung, Satellitenantenne, Scanner oder dergleichen). Zu Ausgabeeinheiten können Lautsprecher, Drucker usw. gehören. Eine Anzeigeeinheit 414 ist ebenfalls über eine Schnittstelle, beispielsweise einen Videoadapter 415, mit dem Systembus 403 verbunden.
Ein Beispiel wird unter Verwendung des ”Financial Services Data Model” (FSDM, Datenmodell für Finanzdienstleistungen) als Quellenmodell gegeben. Beim FSDM handelt es sich um ein Klassifizierungsmodell, das ein unternehmensweites Vokabular aufweist, welches verwendet wird, um die Bedeutung der vielen Konzepte genau zu definieren, welche die Sichtweise der Finanzinstitution von sich selbst und ihrer Geschäftsumgebung ausmachen. Es ermöglicht, alle Aspekte oder Gesichtspunkte, die zu einem bestimmten Geschäftskonzept gehören, im Hinblick auf die Elemente innerhalb einer Klassifizierungshierarchie auszudrücken.
Bezugnehmen auf 5 stellt eine Baumdarstellung 500 die Klassifizierungshierarchie für den Begriff ”Beteiligter” (Involved Party – IP) 501 in dem FSDM dar. Die Rechtecke stellen Objekte und die Blöcke mit runden Ecken stellen Attribute dar. Bei den Attributen handelt es sich um eine besondere Art von Beziehung, die als ”hat ein” bezeichnet wird, d. h. ”Beteiligter hat_ein IP-Typ Einzelperson” bedeutet ”A ist eine Einzelperson”. Bei den Attributen handelt es sich deshalb um eine Art von Klassifizierung. Die Informationen in der Baumdarstellung 500 können direkt in übergeordneten Knoten oder in besonderen Fällen über gleichgeordnete Knoten hinweg verwendet werden. Der gesamte Baum kann zum Sammeln von Informationen für die Konzepte von Interesse verwendet werden.
Die Baumdarstellung 500 weist einen Stammknoten 501 für ”Beteiligter” mit untergeordneten Attributknoten von ”Rechtsstatus” 502, ”Rolle” 503 und ”Typ” 504 auf. Die weiteren untergeordneten Knoten des Knotens ”Rechtsstatus” 502 und des Knotens ”Rolle” 503 sind allgemein als Zweige 505, 506 dargestellt.
Der Knoten ”Typ” 504 weist untergeordnete Knoten für ”Organisation” 507, ”Organisationseinheit” 508 und ”Einzelperson” 509 auf. Der Knoten ”Einzelperson” 509 weist untergeordnete Attributkonten auf, die für ”Familienstand” 510 und ”Gesundheitszustand” 511 dargestellt sind. Der Knoten ”Familienstand” 510 weist untergeordnete Knoten von ”Verheiratet” 512, ”Ledig” 513 und ”Geschieden” 514 auf. Der Knoten ”Gesundheitszustand” 511 weist untergeordnete Knoten von ”Keine Einschränkung” 515, ”Behinderung” 516 und ”Unbekannt” 517 auf.
Diese als Knoten dargestellten Konzepte können über Beziehungen zueinander in Beziehung gesetzt werden, wie in 6 dargestellt. 6 ist eine schematische Darstellung 600, in der Konzepte durch Beziehungen verknüpft werden. Damit wird die Fähigkeit hergestellt, verschiedene geschäftliche Szenarios zu erklären.
In 6 können ein Objekt, beispielsweise Beteiligter 601, Ort 602, Ereignis 603 und Vereinbarung 604, durch Beziehungen verknüpft werden, die als Pfeile 611, 612, 613, 614, 615 dargestellt sind. Die Pfeile und die Beziehungen, die sie darstellen, können nur in eine Richtung oder in beide Richtungen verlaufen.
Verschiedene Beziehungen 620 bis 627 (gestrichelte Kästen mit Namen in Kleinschreibung) können Mitglieder einer Beziehung 611 bis 615 sein, die durch ein ”U”-Zeichen angegeben wird.
Verschiedene Konzepte 630 bis 635 (gestrichelte Kästen mit Namen, die mit einem Großbuchstaben beginnen) können Mitglieder eines Objekts 601 bis 604 sein.
Beispielsweise gibt die Darstellung, beginnend bei dem Beteiligten 601, an, dass es sich bei einem Beteiligten 601 um eine Einzelperson 631 oder um eine Organisation 630 handeln kann, und dass es sich bei der Beziehung, die sie zu einem Ereignis 603 wie einer Transaktion 633 oder einer Mitteilung 634 haben, um ”initiiert” 626 handelt. Anders ausgedrückt: Ein Beteiligter initiiert eine Mitteilung (z. B. hat John Smith eine eMail gesendet).
Beispielszenarios von Anwendungsfällen werden nachfolgend aufgeführt. Mögliche Nutzungsweisen für NLPs und Textanalyse im Allgemeinen sind zahlreich und weitreichend, und bei den folgenden handelt es sich um einige wenige Beispiele:
Beispiel 1
Ein Versicherungsanbieter wünscht, dass eMails automatisch zu relevanten Artefakten in Beziehung gesetzt werden, die in Datenlagern gepflegt werden (d. h. Kunden, Richtlinien, Ansprüche usw.).
Ein NLP-Modell kann genutzt werden, um Freitextressourcen wie eMail als Dateneingabe umzuwandeln, indem der darin enthaltene Text verarbeitet, Bezugnahmen auf relevante Informationsbestandteile wie Namen, Nummern der Policen, Kennungen (IDs) von Ansprüchen gekennzeichnet und indem diese anschließend vorhandenen Datensätze zugeordnet werden.
Beispiel 2
Ein Modellentwickler muss eine Gültigkeitsprüfung durchführen, ob ein Modell für Bankanwendungen die Anforderungen von ISO 20022/Sepa unterstützt. SEPA ist ein neues gesamteuropäisches Zahlungssystem, das zwischen 2007 und 2010 EU-weit eingeführt wird. Es gibt bestimmte Anforderungen, die für Finanzinstitutionen oder Verarbeitungsdienstleister für Zahlungsvorgänge festgelegt sind, damit sie die SEPA-Registrierung erlangen und SEPA-konform sind.
Ein NLP-Modell könnte die Unterlagen mit gesetzlichen Vorschriften verarbeiten, die erforderlichen Anforderungen an das Modell (Konzepte, Beziehungen,...) ermitteln und eine Gültigkeitsprüfung durchführen, ob ein bestimmtes Modell für Bankanwendungen die erforderliche Unterstützung für diese Anforderungen bereitstellt.
Beispiel 3
Ein IBM-Berater möchte die Kosten für das Durchführen eines Upgrades der vorhandenen Infrastruktur von Firma X für ein bestimmtes Modell im Gesundheitswesen einfacher abschätzen können.
Firma X hat IBM beauftragt, ihre Dateninfrastruktur auf der Grundlage der Modelle für das Gesundheitswesen neu zu organisieren, die von ”Branchenmodellen” bereitgestellt werden. Einem Berater wird die Aufgabe zugeteilt, die vorhandene Leistungsfähigkeit des Systems von Firma X zu analysieren und die mit dem Durchführen eines Upgrades verbundene Arbeit abzuschätzen. Ein NLP-Modell könnte eine große Hilfe beim Analysieren von Berichten über die Struktur, von Unterlagen über die Architektur usw. von Firma X sein, um Konzepte zu ermitteln, die in der vorhandenen Architektur fehlen.
Ein System zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache kann als Dienstleistung für einen Kunden über ein Netzwerk bereitgestellt werden.
Die Erfindung kann die Form einer vollständigen Hardware-Ausführungsform, einer vollständigen Software-Ausführungsform oder einer Ausführungsform annehmen, die sowohl Hardware- als auch Software-Elemente aufweist. In einer bevorzugten Ausführungsform wird die Erfindung in Software umgesetzt, wozu Firmware, residente Software, Mikrocode usw. gehört, jedoch nicht darauf beschränkt ist.
Die Erfindung kann die Form eines Computerprogrammprodukts annehmen, auf das von einem computernutzbaren und computerlesbaren Medium zugegriffen werden kann, das Programmcode zur Verwendung durch oder in Verbindung mit einem Computer oder einem System zum Ausführen von Befehlen bereitstellt. Für die Zwecke dieser Beschreibung kann es sich bei einem computernutzbaren oder computerlesbaren Medium um eine beliebige Vorrichtung handeln, die das Programm zur Verwendung durch oder in Verbindung mit dem System, der Vorrichtung oder der Einheit zur Ausführung von Befehlen enthalten, speichern, damit Daten austauschen, es verbreiten oder transportieren kann.
Bei dem Medium kann es sich um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder eine derartige Vorrichtung oder Einheit) oder ein Ausbreitungsmedium handeln. Zu Beispielen eines computerlesbaren Mediums gehören ein Halbleiter- oder Festkörperspeicher, Magnetband, eine Wechsel-Computerdiskette, ein Speicher mit wahlfreiem Zugriff (RAM), ein Nur-Lese-Speicher [ROM], eine magnetische Festplatte und eine optische Platte. Zu aktuellen Beispielen optischer Platten gehören ein Compactdisc-Nur-Lese-Speicher (CD-ROM), eine lesbare/beschreibbare Compactdisc (CD-R/W) und eine DVD.
Veränderungen und Änderungen können am Vorstehenden vorgenommen werden, ohne vom Geltungsbereich der vorliegenden Erfindung abzuweichen.

Claims

Verfahren zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich, wobei das Verfahren aufweist: Ableiten (101) eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell (111) des Informationsbereichs; Anwenden (102) einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; Erweitern (103) des Grundgerüsts des natürlichsprachlichen Wortschatzes auf der Grundlage von Referenzdokumenten aus dem Informationsbereich, um ein Verarbeitungsmodell für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.
Verfahren nach Anspruch 1, wobei das Ableiten (101) eines Grundgerüsts eines natürlichsprachlichen Wortschatzes in dem Informationsbereich bevorzugte Begriffe verwendet.
Verfahren nach Anspruch 1 oder Anspruch 2, wobei das Anwenden (102) einer Menge von Syntaxregeln ein Berücksichtigen von Subjekt, Prädikat, Objekt und ein Verändern der Reihenfolge für die sprachliche Darstellung beinhaltet.
Verfahren nach einem der Ansprüche 1 bis 3, wobei das Erweitern (103) des Grundgerüsts aufweist: Auswählen (201) eines bevorzugten Begriffs als Konzept oder Beziehung; Ausführen (202) einer Schlüsselwortsuche nach dem bevorzugten Begriff in Referenzdokumenten aus dem Informationsbereich; und Bereitstellen (206) einer geordneten Menge möglicher Begriffe für den bevorzugten Begriff.
Verfahren nach Anspruch 4, das aufweist: Ermitteln (203) lokaler N-Gramme; Messen (204) von einer oder mehreren Messgrößen der N-Gramme; und Bewerten (205) der N-Gramme;
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Erweitern (103) des Grundgerüsts des natürlichsprachlichen Wortschatzes aufweist: Ableiten weiterer Syntaxregeln auf der Grundlage der Referenzdokumente aus dem Informationsbereich; und Bilden einer Schnittmenge aus den Syntaxregeln und den zu Clustern zusammengefassten Begriffen für Konzepte und Beziehungen.
Verfahren nach Anspruch 6, das aufweist: Nutzen von Verbstrukturen aus sprachwissenschaftlichen Verbklassen, um die Schnittmenge zu steuern, die auf zu Clustern zusammengefasste Begriffe angewendet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Erweitern (103) des Grundgerüsts mit einem Anfangskonzept oder mit einer Anfangsbeziehung beginnt und sich durch benachbarte Konzepte oder Beziehungsverknüpfungen in dem Quellenmodell iterierend nach außen bewegt; und die erweiterten Begriffe von Konzepten und Beziehungen durch Erhöhen der Anzahl von Bewertungen verfeinert.
Verfahren nach Anspruch 8, das beinhaltet: Ermitteln einer Abweichung von besten Begriffen für ein Konzept oder eine Beziehung unter Verwendung einer Bewertungsschwelle.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Erweitern (103) des Grundgerüsts eine sich in Iterationen wiederholende Strategie auf der Grundlage von Ergebnissen dynamisch verändert.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Ableiten (101) eines Grundgerüsts eines natürlichsprachlichen Wortschatzes auf mehr als einem Quellenmodell (111) beruht.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Ableiten (101) eines Grundgerüsts eines natürlichsprachlichen Wortschatzes frei zugängliche Daten nutzt, um das Grundgerüst anfangs zu füllen, wobei die Ontologieklassen des Quellenmodells mit den Klassen frei zugänglicher Daten abgeglichen werden.
Computerprogramm, das auf einem computerlesbaren Medium gespeichert ist und in einen internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Abschnitte umfasst, um, wenn das Programm auf einem Computer ausgeführt wird, das Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen.
System zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich, das aufweist: einen Prozessor; eine Grundgerüst-Komponente (311) zum Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell (321) des Informationsbereichs (320); eine Syntaxregel-Komponente (312) zum Anwenden einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; eine Erweiterungskomponente (313) zum Erweitern des Grundgerüsts des natürlichsprachlichen Wortschatzes auf der Grundlage von Referenzdokumenten (322) aus dem Informationsbereich (320), um ein Verarbeitungsmodell (314) für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.
System nach Anspruch 14, wobei die Syntaxregel-Komponente (312) zum Anwenden einer Menge von Syntaxregeln ein Berücksichtigen von Subjekt, Prädikat, Objekt und ein Verändern der Reihenfolge für die sprachliche Darstellung beinhaltet.
System nach Anspruch 14 oder Anspruch 15, wobei die Erweiterungskomponente (313) zum Erweitern des Grundgerüsts Komponenten beinhaltet eine Komponente (314) zum Bilden von Clustern von Konzepten/Beziehungen beinhaltet zum: Auswählen eines bevorzugten Begriffs als Konzept oder Beziehung; Ausführen einer Schlüsselwortsuche nach dem bevorzugten Begriff in Referenzdokumenten aus dem Informationsbereich; und Bereitstellen einer geordneten Menge möglicher Begriffe für den bevorzugten Begriff.
System nach Anspruch 16, wobei die Komponente (314) zum Bilden von Konzept/Beziehungs-Clustern dient zum: Ermitteln lokaler N-Gramme; Messen von einer oder mehreren Messgrößen der N-Gramme; und Bewerten der N-Gramme;
System nach einem der Ansprüche 14 bis 17, wobei die Erweiterungskomponente (313) zum Erweitern des Grundgerüsts des natürlichsprachlichen Wortschatzes beinhaltet: eine Komponente (315) zum Ableiten Syntaxregeln zum Ableiten weiterer Syntaxregeln auf der Grundlage der Referenzdokumente aus dem Informationsbereich; und eine Schnittmengenkomponente (316) zum Bilden einer Schnittmenge aus den Syntaxregeln und den zu Clustern zusammengefassten Begriffen für Konzepte und Beziehungen.
System nach einem der Ansprüche 14 bis 19, wobei die Erweiterungskomponente (313) zum Erweitern des Grundgerüsts bei einem Anfangskonzept oder einer Anfangsbeziehung beginnt und sich durch benachbarte Konzepte oder Beziehungsverknüpfungen in dem Quellenmodell iterierend nach außen bewegt; und die erweiterten Begriffe von Konzepten und Beziehungen durch Vergrößern der Anzahl von Bewertungen verfeinert.
System nach einem der Ansprüche 14 bis 17, wobei die Erweiterungskomponente (313) zum Erweitern des Grundgerüsts eine sich in Iterationen wiederholende Strategie auf der Grundlage von Ergebnissen dynamisch verändert.