DE112012005177T5 - Erzeugens eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich - Google Patents

Erzeugens eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich Download PDF

Info

Publication number
DE112012005177T5
DE112012005177T5 DE112012005177.7T DE112012005177T DE112012005177T5 DE 112012005177 T5 DE112012005177 T5 DE 112012005177T5 DE 112012005177 T DE112012005177 T DE 112012005177T DE 112012005177 T5 DE112012005177 T5 DE 112012005177T5
Authority
DE
Germany
Prior art keywords
concepts
natural language
skeleton
information area
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112012005177.7T
Other languages
English (en)
Inventor
c/o IBM Ireland McCloskey Daniel John
c/o IBM United Kingdom Ltd. Beaurpere David
IBM Ireland Kearns David
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112012005177T5 publication Critical patent/DE112012005177T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Bereitgestellt werden ein Verfahren und System zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich. Das Verfahren beinhaltet: Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell des Informationsbereichs; und Anwenden einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; Erweitern des Grundgerüsts des natürlichsprachlichen Wortschatzes auf der Grundlage von Referenzdokumenten für den Informationsbereich, um ein Verarbeitungsmodell für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.

Description

  • GEBIET DER ERFINDUNG
  • Diese Erfindung bezieht sich auf das Gebiet des Erzeugens von Verarbeitungsmodellen für natürliche Sprache. Die Erfindung bezieht sich insbesondere auf das Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich.
  • HINTERGRUND DER ERFINDUNG
  • Moderne geschäftliche Analyseverfahren und Prozesse hängen im hohen Maße von den Informationen ab, die durch die und im Zusammenhang mit der Geschäftstätigkeit fließen. Zum Kern der Informationen über geschäftliche Prozesse gehören sowohl Transaktionsdaten als auch Textdaten aus Quellen wie eMails, Berichtsdokumenten, Präsentationen und Echtzeitkommunikation (instant messaging). Von diesen Informationen kann gesagt werden, dass es sich um Informationen handelt, die ”durch” die Geschäftstätigkeit fließen und deren Ursprung innerhalb von ihr oder innerhalb einer Gemeinschaft mit geprüfter Identität liegt.
  • Die relative Bedeutung des Textbestandteils dieser Informationen nimmt seit vielen Jahren stetig zu und wird nun als sehr wichtiger Bestandteil anerkannt. Aufgrund der Schwierigkeiten beim Erstellen von Modellen zum Verarbeiten natürlicher Sprache (natural language processing, NLP) zum Verstehen dieses unstrukturierten Inhalts bleibt der Textbestandteil der Informationen weitgehend ungenutzt.
  • Darüber hinaus hat das Aufkommen von Web 2.0 und sozialen Medien ein zusätzliches sintflutartiges Anwachsen von Textdaten erzeugt, die ”rund um” die Geschäftstätigkeit fließen und die von großem Wert sein können; die Anwendungen umfassen einen sehr weiten Bereich vom Ermitteln neuer Märkte für Produkte, dem Verstehen der bezüglich einer Marke herrschenden Stimmung (brand sentiment) und dem Finden von Einflussnehmern, um nur einige zu nennen.
  • Die Auswirkungen, die fortschrittliche NLP-Modelle auf eine Geschäftstätigkeit haben können, liegen darin, dass es sich dabei um einen Bedarf handelt, der zu den derzeit am schnellsten wachsenden in der Branche der Informationstechnologie gehört. Aufgrund der Komplexität von natürlicher Sprache ist das Erstellen solcher Modelle jedoch nicht einfach.
  • Mit dem Begriff Verarbeitungsmodell für natürliche Sprache (NLP-Modell) wird eine abstrahierte Menge von Eingaben in ein Textanalysesystem (text analysis engine) beschrieben, damit es daraus möglichst Konzepte (benannte Einheiten wie Bezugnahmen auf eine ”Person”, Bezugnahmen auf einen ”Ort” usw.) sowie Beziehungen zwischen diesen Konzepten (z. B. ”wohnt_in”) extrahiert. Mit diesen ”Fakten” kann der Text für eine programmatische Nutzung und Prozessautomatisierung freigelegt werden. Beispiele für Fakten in diesem Fall wären ”John McGrath wohnt in 123 Main St., Dublin” oder ”Michael hat 321 Main St. als seine Privatadresse angegeben”.
  • Ein solches Modell hängt sehr stark von dem ”Bereich” (domain) der Eingaben ab, die verarbeitet werden sollen. Es gibt kein für alles geeignetes Einheitsmodell, und selbst für etwas wie ein Erkennen von ”Person” wird der Grad des Erfolgs (definiert anhand von Genauigkeit oder ”Precision”/”Recall”) in unterschiedlichen Textquellen verschieden ausfallen. Eine in medizinischen Unterlagen erwähnte ”Person” ist beispielsweise etwas ganz anderes als eine in akademischen Zitaten erwähnte ”Person”. Im Fall medizinischer Unterlagen ist darüber hinaus eine Unterklassifizierung von ”Person” sehr wichtig für das Verständnis, damit das NLP-System einer bestimmten Bezugnahme auf eine Person die korrekte semantische Unterklasse zuweist, beispielsweise die Unterscheidung zwischen Patient und Chirurg, Hausarzt usw.
  • Bereichsspezifische NLP-Modelle sind kostspielig beim Entwickeln und Pflegen. Es gibt zwei bekannte Ansätze zum Entwickeln solcher NLP-Modelle: 1) manuelles, von Grund auf neu beginnendes Erstellen von Wortlisten und Kontextregeln und 2) auf Maschinenlernen beruhende Ansätze, die einen mit Anmerkungen versehenen Korpus als Eingabe erfordern, an dem Maschinenlernalgorithmen ausgeführt werden, um die Merkmale zu ”lernen”, die die Zuweisung einer Bedeutungsklasse zu einem bestimmten Textabschnitt angeben.
  • Beide bekannten Verfahren sind sehr zeitaufwändig, wobei das erstgenannte den Vorteil aufweist, dass es explizit und manuell fein abstimmbar ist, während es sich beim letztgenannten um eine ”Black Box” handelt, die jedoch insofern eine niedrigere Einstiegsschwelle bietet, als nur Wissen des Bereichs selbst für die Aufgabe des Hinzufügens von Anmerkungen erforderlich ist, während bei der erstgenannten auch ein gewisses Wissen der zugrundeliegenden Abgleichtechniken benötigt wird.
  • Deshalb besteht nach dem Stand der Technik die Notwendigkeit, sich des vorgenannten Problems anzunehmen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich bereitgestellt, welches aufweist: Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell des Informationsbereichs; Anwenden einer Menge von Syntaxregeln.
  • Unter einem ersten Blickwinkel betrachtet, stellt die vorliegende Erfindung ein Verfahren zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich bereit, welches aufweist: Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell des Informationsbereichs; Anwenden einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; Erweitern des Grundgerüsts des natürlichsprachlichen Wortschatzes auf der Grundlage von Referenzdokumenten für den Informationsbereich, um ein Verarbeitungsmodell für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes in dem Informationsbereich bevorzugte Begriffe ableitet.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Anwenden einer Menge von Syntaxregeln ein Berücksichtigen von Subjekt, Prädikat, Objekt und ein Verändern der Reihenfolge für die sprachliche Darstellung beinhaltet.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Erweitern des Grundgerüsts beinhaltet: Auswählen eines bevorzugten Begriffs als Konzept oder Beziehung; Ausführen einer Schlüsselwortsuche für den bevorzugten Begriff in Referenzdokumenten aus dem Informationsbereich; und Bereitstellen einer geordneten Menge möglicher Begriffe für den bevorzugten Begriff.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das beinhaltet: Ermitteln lokaler N-Gramme; Messen einer oder mehrerer Messgrößen der N-Gramme und Bewerten der N-Gramme.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Erweitern des Grundgerüsts für den natürlichsprachlichen Wortschatz beinhaltet: Ableiten weiterer Syntaxregeln auf der Grundlage der Referenzdokumente aus dem Informationsbereich; und Bilden von Schnittmengen aus Syntaxregeln und den für Konzepte und Beziehungen zu Clustern zusammengefassten Begriffen.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das beinhaltet: Nutzen von Verbstrukturen aus sprachwissenschaftlichen Verbklassen, um die Bildung von Schnittmengen zu steuern, die auf zu Clustern zusammengefasste Begriffe angewendet wird.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Erweitern des Grundgerüsts bei einem Anfangskonzept oder einer Anfangsbeziehung beginnt und sich durch benachbarte Konzepte oder Beziehungsverknüpfungen in dem Quellenmodell iterierend nach außen bewegt; und die erweiterten Begriffe von Konzepten und Beziehungen durch Vermehren von Bewertungen verfeinert.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das beinhaltet: Ermitteln einer Abweichung von besten Begriffen für ein Konzept oder eine Beziehung unter Verwendung einer Bewertungsschwelle.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Erweitern des Grundgerüsts eine sich in Iterationen wiederholende Strategie auf der Grundlage von Ergebnissen dynamisch ändert.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Ableiten eines Grundgerüsts für einen natürlichsprachlichen Wortschatz auf mehr als einem Quellenmodell beruht.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, bei dem das Ableiten eines Grundgerüsts für einen natürlichsprachlichen Wortschatz frei zugängliche Daten nutzt, um das Grundgerüst anfangs zu füllen, wobei die Ontologieklassen des Quellenmodells mit den Klassen frei zugänglicher Daten abgeglichen werden.
  • Aus einem weiteren Blickwinkel betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem computerlesbaren Medium gespeichert ist und in einen internen Speicher eines digitalen Computers geladen werden kann, wobei es Softwarecode-Abschnitte aufweist, um, wenn das Programm auf einem Computer ausgeführt wird, das Verfahren wie oben beschrieben durchzuführen.
  • Unter einem weiteren Blickwinkel betrachtet, stellt die vorliegende Erfindung ein System zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich bereit, welches aufweist: einen Prozessor, eine Grundgerüst-Komponente zum Ableiten eines Grundgerüsts für einen natürlichsprachlichen Wortschatz aus einem Quellenmodell des Informationsbereichs; eine Syntaxregel-Komponente zum Anwenden einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; eine Erweiterungskomponente zum Erweitern des Grundgerüsts für einen natürlichsprachlichen Wortschatz auf der Grundlage von Referenzdokumenten aus dem Informationsbereich, um ein Verarbeitungsmodell für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.
  • Vorzugsweise stellt die vorliegende Erfindung ein System bereit, bei dem die Syntaxregel-Komponente zum Anwenden einer Menge von Syntaxregeln ein Berücksichtigen von Subjekt, Prädikat, Objekt und ein Verändern der Reihenfolge für die sprachliche Darstellung beinhaltet.
  • Vorzugsweise stellt der vorliegenden Erfindung ein System bereit, bei dem die Erweiterungskomponente zum Erweitern des Grundgerüsts Komponenten beinhaltet eine Komponente zum Bilden von Clustern von Konzepten/Beziehungen beinhaltet, um: Auswählen eines bevorzugten Begriffs als Konzept oder Beziehung; Ausführen einer Schlüsselwortsuche für den bevorzugten Begriff in Referenzdokumenten aus dem Informationsbereich; und Bereitstellen einer geordneten Menge möglicher Begriffe für den bevorzugten Begriff.
  • Vorzugsweise stellt der vorliegenden Erfindung ein System bereit, bei dem die Komponente zum Bilden von Clustern von Konzepten/Beziehungen dient zum: Ermitteln lokaler N-Gramme; Messen einer oder mehrerer Messgrößen der N-Gramme und Bewerten der N-Gramme.
  • Vorzugsweise stellt die vorliegende Erfindung ein System bereit, bei dem die Erweiterungskomponente zum Erweitern des Grundgerüsts für den natürlichsprachlichen Wortschatz beinhaltet: eine Syntaxregel-Erzeugungskomponente zum Ableiten weiterer Syntaxregeln auf der Grundlage der Referenzdokumente aus dem Informationsbereich; und eine Schnittmengenkomponente zum Bilden von Schnittmengen aus Syntaxregeln und den für Konzepte und Beziehungen zu Clustern zusammengefassten Begriffen.
  • Vorzugsweise stellt die vorliegende Erfindung ein System bereit, bei dem die Erweiterungskomponente zum Erweitern des Grundgerüsts bei einem Anfangskonzept oder einer Anfangsbeziehung beginnt und sich durch benachbarte Konzepte oder Beziehungsverknüpfungen in dem Quellenmodell iterierend nach außen bewegt; und die erweiterten Begriffe von Konzepten und Beziehungen durch Vermehren von Bewertungen verfeinert.
  • Vorzugsweise stellt die vorliegende Erfindung ein System bereit, bei dem die Erweiterungskomponente zum Erweitern des Grundgerüsts eine sich in Iterationen wiederholende Strategie auf der Grundlage von Ergebnissen dynamisch ändert.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Eine bevorzugte Ausführungsform der vorliegenden Erfindung wird nun lediglich als Beispiel unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, auf denen:
  • 1 ein Ablaufplan einer Ausführungsform eines Verfahrens gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 2 ein Ablaufplan weiterer Einzelheiten des Verfahrens von 1 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 3 ein Blockschaubild einer Ausführungsform eines Systems gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 4 ein Blockschaltbild eines Computersystems gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 5 eine Baumdarstellung eines Quellenmodells gemäß einem Aspekt einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 6 eine Beziehungsdarstellung eines Quellenmodells gemäß einem Aspekt einer bevorzugten Ausführungsform der vorliegenden Erfindung ist.
  • AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN DER ERFINDUNG
  • Es wird einsichtig sein, dass aus Gründen der Einfachheit und Klarheit der Veranschaulichung Elemente in den Figuren nicht notwendigerweise maßstabsgetreu gezeichnet sind. Aus Gründen der Klarheit können die Abmaße einiger Elemente im Verhältnis zu anderen Elementen übertrieben sein. Ferner können, wenn dies als sinnvoll erachtet wird, Bezugszeichen innerhalb der Figuren wiederholt werden, um entsprechende oder ähnliche Merkmale anzugeben.
  • In der folgenden ausführlichen Beschreibung werden zahlreiche konkrete Einzelheiten dargelegt, um ein gründliches Verständnis der Erfindung zu vermitteln. Der Fachmann wird jedoch verstehen, dass der vorliegenden Erfindung auch ohne diese konkreten Einzelheiten in die Praxis umgesetzt werden kann. In anderen Fällen wurden allgemein bekannte Verfahren, Vorgehensweisen und Komponenten nicht ausführlich beschrieben, um den Blick auf der vorliegenden Erfindung nicht zu verstellen.
  • Beschrieben werden ein Verfahren und ein System zum Erzeugen und Fortentwickeln eines Verarbeitungsmodells für natürliche Sprache, das auf einen dafür gewählten Informationsbereich ausgerichtet ist. Das Verfahren macht sich zu Nutze, dass in vielen Fällen ein Bereichs- oder Branchenmodell vorhanden ist, im Wesentlichen eine Ontologie des Geschäftsbereichs selbst.
  • Bereitgestellt wird eine kostengünstige Lösung, um bereichsspezifische Verarbeitungsmodelle für natürliche Sprache aus Bereichs- oder Branchenmodellen (beispielsweise jene, die bei der Industry Models Group von IBM erhältlich sind und aktiv von ihr entwickelt werden; IBM ist eine Marke der International Business Machines Corporation) oder anderen Formen einer Ontologie zu erzeugen und fortzuentwickeln. Dieses Anfangsmodell oder diese Ontologie wird als Quellenmodell bezeichnet. Dies ermöglicht ein schnelles Erstellen, Einsetzen und Pflegen eines Verarbeitungsmodells für natürliche Sprache. Das Verarbeitungsmodell für natürliche Sprache kann dann zum Analysieren von Freitext-Unterlagen innerhalb von Lösungen für diesen Bereich verwendet werden.
  • Das beschriebene Verfahren und das System nutzen die Struktur und die Informationen des Bereichsmodells, um ein NLP-Anfangsmodell zu erzeugen und die die Anzahl der spärlichen Bezeichnungen von Knoten in dem NLP-Anfangsmodell (definitionsgemäß können die Knoten in dem Anfangsmodell mit einem einzelnen Begriff bezeichnet werden, als empfohlene bewährte Vorgehensweise mit einem bevorzugt verwendeten Begriff) mittels Techniken zum Bilden von Schlüsselwort- und Verb-Clustern und Bewertungstechniken zu erhöhen.
  • Die Wechselwirkungen zwischen Einheiten in dem Modell selbst ermöglichen das Sammeln von Textdarstellungen der Konzepte, die darin enthalten sind/auf die darin Bezug genommen wird. Zum Abgleichen und Extrapolieren der Wörterbücher und Regeln kann eine Reihe bekannter und einfacher empirischer Techniken verwendet werden. Ohne ein Nutzen des umgebungsbezogenen Charakters des Modells, d. h. ohne ein Erfassen nach außen gerichteter Verknüpfungen (Beziehung oder Prädikat) und von Zielknotentypen und wiederum ihrer Spezifikationen, gäbe es eine Menge Störeinflüsse in dem Modell.
  • Bezugnehmend auf 1 stellt ein Ablaufplan 100 eine Ausführungsform des beschriebenen Verfahrens dar.
  • Ein Grundgerüst eines natürlichsprachlichen Wortschatzes, der auf einen Informationsbereich ausgerichtet ist, kann aus einem Quellenmodell 111 abgeleitet werden 101. Bei dem Quellenmodell 111 kann es sich um eine beliebige Form von Ontologie handeln, beispielsweise ein Branchen- oder Bereichsmodell oder eine andere Form von Ontologie in dem spezifischen Informationsbereich (bei der Ontologie kann es sich beispielsweise um ein Datenbankschema handeln). Es liegt in der Natur dieser Quellenmodelle, dass sie die notwendigen Daten bereitstellen, um das Grundgerüst von natürlichsprachlichen Wortschätzen abzuleiten, die auf ihren dafür gewählten Informationsbereich (Bankwesen, Versicherung, Medizin usw.) ausgerichtet sind. Das Verfahren kann mehr als ein Quellenmodell verwenden, darunter externe und öffentlich verfügbare Modelle und Daten, beispielsweise Linked Open Data, WordNet usw.
  • Das Grundgerüst des natürlichsprachlichen Wortschatzes kann direkt aus dem konzeptionellen Modell der Quelle aufgebaut sein und wahlweise Synonyme aus den Glossaren der Geschäftstätigkeit enthalten. Alternativ kann das Grundgerüst ausgehend von Linked Open Data aufgebaut werden (ein Projekt von W3C Semantic Web Education und Outreach), bei dem die Ontologieklassen in dem Quellenmodell auf Übereinstimmung mit einer in der Cloud von Linked Open Data beschriebenen Klasse geprüft werden können. Dies kann zutreffen, wenn das Anfangsgrundgerüst keine Beispieldaten (nur Typenbeschreibungen) enthält, wobei es in diesem Fall möglich ist, Linked Open Data zum anfänglichen Füllen des Grundgerüsts zu nutzen.
  • Dies führt zu spärlich gefüllten Wörterbüchern von Konzeptbezeichnungen und Handlungsverben, die in einer einfachen Menge von als Ausgangsbasis (seed) dienenden Syntaxregeln unter Berücksichtigen von Subjekt, Prädikat, Objekt und Verändern der Reihenfolge für die sprachliche Darstellung oder nach den Regeln einer Sprache kombiniert und angewendet werden 102. In einigen Sprachen könnten beispielsweise Konstruktionen vorherrschen, in denen die Reihenfolge ”John sah Mary” (Subjekt-Prädikat-Objekt) auf natürlichere Weise zum Ausdruck gebracht wird als ”sah John Mary”.
  • Da jedoch die zum Ableiten des anfänglichen Grundgerüsts verwendeten Quellenmodelle die betroffenen Konzepte und Beziehungen absichtlich mittels einer begrenzten Menge von bevorzugten Begriffen oder Bezeichnungen (üblicherweise einer bzw. eine) beschreiben, muss der sich daraus ergebende Wortschatz bzw. die Wortschätze erweitert oder ”verdichtet” werden. Auf Konzepte und Beziehungen wird im Folgenden jeweils getrennt Bezug genommen; eine Beziehung kann jedoch als ein Sondertyp eines Konzepts betrachtet werden.
  • Sobald ein solches Grundgerüst vorhanden ist, muss es durch Bilden von Schlüsselwort-Clustern und anderen Standardtechniken mit Synonymwörtern, Verben und Ausdrücken erweitert oder verdichtet werden 103. Das Verdichten 103 wird auf der Grundlage einer Menge von Referenzdokumenten 113 ausgeführt, die aus dem Informationsbereich gewählt werden (beispielsweise eMails, Richtlinien, Leitlinien, Dokumente, Berichte usw.). Das Verdichten 103 beinhaltet Ableiten von Bezeichnungsbegriffen für Konzepte und Beziehungen aus bevorzugten Begriffen im Grundgerüst und Erzeugen von Syntaxregeln aus den als Ausgangsbasis dienenden Syntaxregeln.
  • Das verdichtete Grundgerüst bildet 104 die Grundlage des NLP-Modells, das zum Verarbeiten aller unstrukturierten Informationen innerhalb der Geschäftstätigkeit und zum semantischen Klassifizieren aller Erwähnungen von Konzepten in Dokumenten des Bereichs verwendet wird, damit sie für eine Textanalyse genutzt werden können.
  • In jeder mittleren bis großen Organisation gibt es viele Anwendungen, die im selben Geschäftsbereich betrieben werden (z. B. mehrere Systeme für Zahlungsvorgänge, Anwendungen zur Aufnahme von Neukunden (”Customer-On-Boarding”)). Eine Organisation hat möglicherweise eine ständig zunehmende Menge von Produkten und Dienstleistungen, wodurch die Datenmenge innerhalb der Organisation exponentiell wächst. Um dieses Problem zu bewältigen, werden gemeinsame Architekturen und eine gemeinsame Geschäftssprache benötigt, um die betriebliche Effizienz zu erhöhen und die Zeit bis zur Markteinführung zu verbessern.
  • Eine gemeinsame Geschäftssprache wird benötigt, um diese Problempunkte bei folgenden Tätigkeiten anzugehen: geschäftsspartenübergreifende Verarbeitung; Anwendungsrationalisierung; Sammeln von Projektanforderungen; Überführung der Geschäftstätigkeit in IT-Systeme; Einhaltung gesetzlicher Anforderungen usw. Zwischen den einzelnen Geschäftssparten gibt es eine Vielzahl von Synonymen, und es ist sehr schwierig, sie zu rationalisieren; dieses Problem wird noch verschärft, wenn die Bedeutung neuer gesetzlichen Anforderungen verstanden werden muss und man sich darauf einzustellen hat.
  • Branchenmodelle beinhalten spezifische Ressourcen, um diesem Bedarf an einer gemeinsamen strukturierten Geschäftssprache gerecht zu werden, und stellen deshalb eine Möglichkeit zum kostengünstigen Erzeugen bereichsspezifischer NLP-Modelle bereit.
  • Jedes Angebot eines Branchenmodells kann mehrere Modellierungsebenen für das Wissen des Bereichs enthalten, auf das es ausgerichtet ist (z. B. Bankwesen, Versicherung, Gesundheitswesen, ...). Insbesondere können sie enthalten:
    • a. • Geschäftsglossare für Freitextdefinitionen von Begriffen im Bereich dieser Branche, darunter Synonyme, Akronyme, Phrasen usw.
    • b. • konzeptionelle Modelle für Konzept/Konstruktions-Definitionen einer hohen Ebene und die ihnen eigenen Beziehungsstrukturen.
  • Bezugnehmend auf 2 stellt ein Ablaufplan 200 eine Ausführungsform mit weiteren Verarbeitungsdetails des beschriebenen Verfahrens dar.
  • Ein anfänglicher bevorzugter Begriff wird als Begriff eines Anfangskonzept oder einer Anfangsbeziehung ausgewählt 201. Das Grundgerüst des natürlichsprachlichen Wortschatzes kann verwendet werden, um zu Anfang die Passagen in dem Text ausfindig zu machen, die weitere Terminologie und Syntax ergeben, um einen Verdichtungsprozess zu ermöglichen. Der bevorzugte Begriff kann eine Schlüsselwortübereinstimmung aus dem Grundgerüst des natürlichsprachlichen Wortschatzes sein.
  • Der bevorzugte Begriff kann als Schlüsselwortsuche 202 in einer Menge von Referenzdokumenten verwendet werden, die aus dem Geschäftsbereich genommen werden (z. B. eMails, formelle Richtlinien, Leitlinien, Berichte usw.). Bei der Schlüsselwortsuche kann es sich um eine Schlüsselwortsuche handeln, bei der Groß- und Kleinschreibung mit dem Ziel berücksichtigt werden, einen guten Recall von Passagen in Dokumenten zu erzielen, der das Sammeln eines umfassenden Vokabulars und einer umfassenden Syntax ermöglicht. Wenn leistungsfähige Begriffe einen Wert bieten, kann alternativ eine Schlüsselwortsuche mit Berücksichtigung von Groß- und Kleinschreibung verwendet werden. Eine Schlüsselwortsuche mit Berücksichtigung von Groß- und Kleinschreibung kann beispielsweise in einigen Bereichen oder Dokumenten verwendet werden, in denen es möglicherweise signifikante Überlappungen gibt und eine Suche ohne Berücksichtigung von Groß- und Kleinschreibung zu viele Störeinflüsse erzeugen würde.
  • Die lokalen N-Gramme und/oder Phrasen können berücksichtigt werden 203, das heißt alle überlappenden Wortmengen, in denen die Anzahl der Wörter in der unmittelbaren Umgebung des bevorzugten Begriffs ”N” ist. Im Fall von Konzepten können die Substantiv-Phrasen berücksichtigt werden, die den bevorzugten Begriff enthalten. In ähnlicher Weise können die relevanten Verb-Phrasen für Beziehungen berücksichtigt werden.
  • Für ein N-Gramm kann eine Messgröße ermittelt werden 204. In der einfachsten Ausführungsform wird die Häufigkeit des N-Gramms gezählt, und N-Gramme werden mit einer Textnähe-Bewertung bewertet 205, die natürlich die Häufigkeit enthalten kann, die jedoch nicht auf diese spezifische Messgröße beschränkt wäre.
  • Es gibt viele mögliche Messungen, die ein Erstellen einer Rangfolge möglicher Begriffe möglicherweise beeinflussen könnten. Hierzu können bekannte Techniken wie themenbezogene Zerlegung, Analyse der latenten Semantik usw. gehören, hierzu kann aber auch die Anwendung von Synonymen und allgemeinen Ressourcen wie WordNet gehören, solange die Bereichsspezifität gewahrt bleibt. (Es sollte darauf hingewiesen werden, dass ein Verwenden von WordNet einen zu starken Verallgemeinerungsaspekt einführen kann, der unerwünscht ist, es könnte jedoch eine Hilfe für die Ergebnisse oder in benutzermoderierten Szenarios von Nutzen sein.)
  • Zu Beispielen möglicher Messgrößen gehören, ohne auf diese beschränkt zu sein, die folgenden:
  • Die Anzahl der Tokens zu dem bevorzugten Begriff (Distanz):
  • Bei der Häufigkeitsberechnung kann eine tf/idf-Normierung für den Dokumentenbestand angewendet werden; sie ist zwar für gute Ergebnisse nicht erforderlich, kann jedoch in bestimmten Fällen eine gewisse Verbesserung bieten;
    beim Einschließen von Begriffen muss möglicherweise auch eine Auflösung hinsichtlich gleichzeitiger möglicher Bezugnahmen berücksichtigt werden, z. B. ”sie” = IBM im Zusammenhang eines Satzes, der eine Maßnahme beschreibt, welche die wichtigen Kunden ergreifen... vielleicht = ”sie werden ihr Konto auflösen, wenn die Zinsen nicht bis zum ... gutgeschrieben sind”.
  • Die Anwendung für diesen Zweck spezialisierter NLP-Modelle, die Muster erkennen würden, die wahrscheinlich eine Definition angeben. Eine Beispielregel, vielleicht: ”IBM ist ein wichtiger Kunde”, würde dazu führen, dass das allgemeine Muster eingeschlossen wird: von einem unbekannten (Bedeutung liegt außerhalb des natürlichsprachlichen Vokabulars) oder ganz in GROSSBUCHSTABEN (”IBM”) oder [englischer] Titelschreibweise oder in einer Schreibweise mit Binnenmajuskeln (CaMeLCase) geschriebenen Token, auf das eine gebeugte Form des Verbs ”sein” (”ist”) folgt, gefolgt von einem wahlweisen Artikel (”ein”) und einem Adjektiv (”wichtiger”) vor der Bezugnahme auf den bevorzugten Begriff für das Konzept (”Kunde”).
  • Begünstigung unbekannter oder außerhalb des Vokabulars liegender Begriffe (wobei außerhalb des Vokabulars liegend hier in erster Linie nicht Bestandteil der fraglichen Sprache, z. B. Englisch, bezeichnet).
  • Ausschluss sogenannter ”Stoppwörter”, z. B. ”wenn”, ”ein”, ”dann”. Stoppwörter-Listen müssen gesondert festgelegt werden, möglicherweise für jeden Knoten, doch wahrscheinlich für Konzepte in Gegenüberstellung zu Beziehungen.
  • Ähnlich für Verbbeziehungen. Eine Verbbeziehung kann als eine besondere Art eines Konzepts betrachtet werden und kann als solche hinsichtlich der Knoten- und Verknüpfungsstruktur der Ontologie oder des Modells dargestellt werden.
  • Außer dem, was in der Beschreibung für Konzepte enthalten ist, weisen Verbbeziehungskonzepte die zusätzliche Möglichkeit auf, eine sprachwissenschaftliche Verbanalyse durchzuführen. Verben können in Gruppen eingeteilt werden, die unterschiedliche Wertigkeitsrahmen aufweisen. Beispielsweise Arten von Argumenten, die ein Verb annimmt und wie sie angeordnet werden, welche Argumente wahlfrei sind, die ”Richtung” des Verbs; z. B. hat in ”Paul trat den Hund” ... ”trat” ein Subjekt und ein Objekt, und in diesem Fall verläuft die Richtung von Paul zu dem Hund, d. h., Paul ist das Subjekt, und der Hund ist das Objekt, daher ist das Konzept {Subjekt:= (Person, Instanz=Paul)} über eine Verbbeziehung ”trat” mit dem Konzept {Objekt:= (Tier, Instanz=den Hund)} verknüpft.
  • Die beschriebene begriffsgestützte N-Gramm-Schnittmenge auf der Grundlage eines Ontologie/Bereichs-Modells schwächt die Notwendigkeit einer solchen detaillierten Verbkenntnis in hohem Maße ab, doch dort, wo sie mittels eines Prozessors wie einem linguistischen Tiefenparser vorhanden oder verfügbar ist, kann der beschriebene Ansatz davon Gebrauch machen. Oft weisen derartige Ansätze in Texten mit häufigem Gebrauch einer bereichsspezifischen Sprache kein gutes Verhalten auf, daher kann ein Kombinieren des beschriebenen, modellgestützten Schnittmengenansatzes bei konzeptgestützten N-Grammen, bei denen das Konzept in seiner allgemeineren Form berücksichtigt wird (d. h. auch Verbbeziehungskonzepte einschließt), eine positive Wirkung auf die Gesamtergebnisse haben und die Notwendigkeit einer komplexen, grundlegenden sprachwissenschaftlichen Verarbeitung, beispielsweise durch Tiefenparsen, hinfällig machen, die in solchen bereichsspezifischen Fällen fehleranfällig wäre.
  • Eine geordnete Menge möglicher Begriffe kann für den Konzeptknoten oder die Beziehung in dem Quellenmodell erzeugt werden 206, doch sie wird immer noch mit recht vielen Störeinflüssen behaftet sein.
  • Nachdem dies für ein Anfangskonzept oder eine Anfangsbeziehung durchgeführt wurde, kann das Verfahren für den nächsten Konzept- oder Beziehungsknoten wiederholt werden 207. In einer Ausführungsform kann sich die Iteration durch die Beziehungsverknüpfungen in dem Modell nach außen bewegen und für jede von ihnen wiederholen, woraus eine Menge von Begriffen für jedes Konzept und jede Beziehung und benachbarte Konzepte entsteht. Alternativ kann der Prozess zu benachbarten Konzeptknoten vor Beziehungsknoten springen, beispielsweise aufgrund der relativen Einfachheit von in stärkerem Maße nur aus einzelnen Substantiven bestehenden Phrasen.
  • Wenn das Verfahren vom Anfangskonzeptknoten oder Anfangsbeziehungsknoten in dem Quellenmodell nach außen iteriert 207, kann die Menge der Begriffe von vorhergehenden Knoten verfeinert werden, indem die Bewertungen (additive oder andere gewichtete Funktion) auf der Grundlage der Schnittmenge mit dem aktuellen Knoten vermehrt werden.
  • Für die Iteration 207 kann jede Kombination von Konzept oder Beziehung verwendet werden, darunter auch ereignisgesteuerte Änderungen oder ein Wechseln des Ansatzes. Alternative Strategien können verwendet werden, darunter auch die Koordination zwischen von einer Heuristik gesteuerten Strategien.
  • Beispielsweise kann die Änderungsgeschwindigkeit bei Häufigkeiten auf mögliche Synonyme überwacht werden, während der Algorithmus ausgeführt wird; dies kann beeinflussen, welcher Ansatz als Nächstes verwendet wird, und dies kann sich dynamisch in Abhängigkeit vom Überwachen der Messgrößen ändern. Wenn die Ergebnisse nicht schnell genug gefunden werden, können alternative Strategien verwendet werden. Wenn zu viele Begriffe gefunden werden und dazu Querverweise erstellt werden müssen, könnte ein Anwenden einer alternativen Strategie helfen, Störeinflüsse schneller zu beseitigen.
  • Der Kontext von Subjekt-Prädikat-Objekt wird verwendet, und deshalb weist das Modell Konzeptknoten (Subjekte) auf, die mit anderen Konzeptkonten (Objekten) über Beziehungen (Prädikate) verknüpft sind. Dies führt zu einer raschen Divergenz der besten Begriffe für ein Konzept oder eine Beziehung, und unter Verwendung einer Bewertungsschwelle kann ein Wortschatz der Typen aufgebaut werden.
  • Dieser Wortschatz bildet die Grundlage des NLP-Modells, das zum Verarbeiten aller unstrukturierten Informationen innerhalb der Geschäftstätigkeit und zum semantischen Klassifizieren aller Erwähnungen von Konzepten in beliebigen Firmendokumenten verwendet wird, damit sie für einen beliebigen der jetzigen Standardvorteile einer Textanalyse genutzt werden können, die weiter oben erwähnt wurden.
  • Nachdem viele der ausdrücklichen Bezeichnungen für Konzept- und Beziehungsbeispiele erkannt sind, können Anmerkungen hinzugefügt und Standardtechniken des Maschinenlernens angewendet werden, um syntaktische Regeln auf der Grundlage eines beliebigen freiliegenden Merkmals des Textes abzuleiten, z. B. Großschreibung, Wortart oder -klasse, Ziffern, klassifizierte Tokens, die durch reguläre Ausdrücke gefunden werden, wie z. B. Datum/Zeit, URLs, eMail usw.
  • Das Hinzufügen von Anmerkungen bezieht sich auf den Prozess, dass nach erfolgtem Erkennen einiger Begriffe (Einzelwörter oder Mehrwortphrasen, die die Konzepte darstellen) im vorhergehenden Text der Text auf diese Begriffe hin durchsucht und die Stellen, an denen sie vorkommen, im Text mit Auszeichnungen versehen werden. Der daraus entstandene, mit Auszeichnungen versehene Text kann als Eingabe in einem Maschinenlern-Standardprozess verwendet werden, der automatisch ein Modell erzeugen würde, das die wichtigen kontextbezogenen Merkmale sammeln würde, die das Vorkommen dieser Dinge kennzeichnen. Dies kann danach als NLP-Modell an sich angewendet werden, in den meisten Fällen würde es jedoch besser als Möglichkeit zum Erzeugen von mehr möglichen Begriffen verwendet.
  • Der mit Anmerkungen versehene Text ermöglicht dann entweder, dass ein automatisches Modell erzeugt wird, wie beim Standardfall des Maschinenlernens, oder dass einem Spezialisten für den Bereich eine statistische Darstellung der Merkmalverteilung in der Umgebung von mit Anmerkungen versehenen Instanzen vorgelegt wird, damit geeignete Syntaxregeln und/oder wichtige Textmerkmale erkannt und anschließend angewendet werden können.
  • Das Maschinenlernen kann entweder vollautomatisch oder benutzermoderiert erfolgen. Im benutzermoderierten Fall kann das Maschinenlernen dem Spezialisten für den Bereich lediglich statistische Beobachtungen vorlegen, beispielsweise das Vorherrschen eines Merkmalmusters, das einer Instanz eines Typs vorausgeht.
  • Beispielsweise gehen Muster wie ”Herr” und ”Dr.” der Bezugnahme auf eine Person voraus.
  • Dies stellt die Ableitung der Syntaxregeln bereit, entweder bis zu einem gewissen Grad mit verschiedenen Maschinenlerntechniken automatisiert oder mit einem benutzermoderierten Hybrid-Lernen, wobei Maschinenlernen genutzt wird, um statistisch relevante Merkmalmuster zu entdecken und sie einem Benutzer, der Spezialist für einen Bereich ist, vorzulegen.
  • Die Schnittmenge aus den abgeleiteten Syntaxregeln und der Menge der N-Gramme, die aus einem Kontext abgeleitet werden, der zwischen beliebigen zwei oder mehr Elementen des Modells (Konzept oder Beziehung) aufgespannt ist, kann zum Erweitern des Grundgerüsts auf der Grundlage der Referenzdokumente verwendet werden. Dies ermöglicht ein effizientes Erzeugen eines genauen NLP-Modells mit hoher Reichweite.
  • Die Verwendung von Verbstrukturen aus einer sprachwissenschaftlichen Klassifizierung von Verben kann ebenfalls genutzt werden, um die Schnittmengenlogik zu steuern, die auf die Menge der N-Gramme angewendet werden kann.
  • Es können anfängliche, als Ausgangsbasis dienende Syntaxregeln abgeleitet werden (Schritt 102 von 1), die zum Ingangsetzen des Prozesses zum Erzeugen zusätzlicher Syntaxregeln verwendet werden können. Zusätzliche Syntaxregeln können aus den Referenzdokumenten 113 erzeugt werden. Dies verläuft ähnlich wie das Verdichten der bevorzugten Begriffe aus der Konzeptdefinition des Modells. Anhand einer Sammlung von Dokumenten mit diesen mit Anmerkungen versehenen Konzeptbeispielen kann auf die Syntax, die diese Konzepte anzeigt, rückgeschlossen werden.
  • Die Schnittmenge aus den erzeugten Syntaxregeln und den N-Grammen, die aus dem zwischen beliebigen zwei oder mehreren Elementen des Modells aufgespannten Kontext (Konzept oder Beziehung) abgeleitet werden, erzielt gute Ergebnisse und ermöglicht die effiziente Herstellung eines genauen NLP-Modells mit hoher Reichweite.
  • Eine bevorzugte Ausführungsform würde den obigen Prozess in einer ”Rückkopplungsschleife” enthalten, was bedeutet, dass er iterativ mit der Ausgabe von sich selbst angewendet werden kann (z. B. wird ”IBM” in dem obigen Beispiel verwendet, doch dieses Mal wird ein bevorzugter Begriff ”Kunde” als Variable gewählt, was wahrscheinlich zum Entdecken von ”Kunde” führen würde).
  • In einer alternativen Ausführungsform kann der Prozess aufgrund der relativen Einfachheit von in stärkerem Maße nur aus einzelnen Substantiven bestehenden Phrasen zu benachbarten Konzeptknoten vor Beziehungsknoten springen.
  • Zusätzlich kann jede Kombination der Subjekt-Prädikat-Objekt-Struktur verwendet werden, die aus den Beziehungen des Modells abgeleitet wird.
  • Das Erzeugen von Syntaxregeln kann als vergleichbar mit dem Erzeugen neuer Begriffe angesehen werden, wobei der einzige Unterschied in dem Umstand liegt, dass abstraktere Merkmale berücksichtigt werden. Das heißt, beim Verfahren der Begriffsableitung werden nur die eigentlichen Wörter und Wortfolgen im Text betrachtet, während bei der Ableitung von Syntaxregeln abstraktere Merkmale im Text betrachtet würden, beispielsweise die Merkmale, auf die in dem Absatz weiter oben Bezug genommen wurde, in dem Maschinenlernen erwähnt wurde.
  • Das Ableiten von Syntaxregeln geschieht in erster Linie, nachdem die Abfolge von 2, einschließlich Iteration, abgeschlossen ist. Die Verwendung von als Ausgangsbasis dienenden Syntaxregeln als Hilfe beim Bewerten zeigt jedoch, dass sich der Prozess verzweigen kann, um sie zu erzeugen und eine weitere erzeugte Menge zusammen mit der anfänglichen, als Ausgangsbasis dienenden Menge anzuwenden.
  • Das Bilden von Schnittmengen geschieht im gesamten Prozess, d. h. beim Bewerten der Begriffe in den anfänglichen Durchlaufen und später beim Lernen und Prüfen der Gültigkeit der abgeleiteten Regeln im nächsten Schritt.
  • Bezugnehmend auf 3 stellt ein Blockschaubild 300 eine Ausführungsform des beschriebenen Verfahrens dar.
  • Bereitgestellt wird ein System 310 zum Erzeugen eines NLP-Modells, das ein NLP-Modell für einen Bereich 320 erzeugen und pflegen kann. Bei einem Bereich 320 kann es sich beispielsweise um einen geschäftlichen Bereich, medizinischen Bereich, akademischen Bereich usw. handeln. Ein Bereich 320 kann ein Quellenmodell 321 aufweisen, beispielsweise ein Branchenmodell oder eine andere Ontologie, die bevorzugte Begriffe für den Bereich 320 verwendet. Der Bereich 320 kann auch Referenzdokumente 322 enthalten, beispielsweise eMails, Richtlinien, Leitlinien, Dokumente, Berichte usw.
  • Das System 310 zum Erzeugen eines NLP-Modells kann eine Grundgerüst-Komponente 311 zum Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus dem Quellenmodell 321 des Bereichs enthalten. Das System 310 zum Erzeugen eines NLP-Modells kann auch eine Syntaxregel-Komponente 312 zum Kombinieren von Konzeptbezeichnungen und Handlungsverben unter Verwendung einer einfachen Menge von als Ausgangsbasis dienenden Syntaxregeln enthalten.
  • Das System 310 zum Erzeugen eines NLP-Modells kann auch eine Erweiterungskomponente 313 zum Verdichten oder Erweitern des Grundgerüstmodells aus Referenzdokumenten 322 des Bereichs 320 mit Synonymwörtern, -verben und -ausdrücken mittels Bildung von Schlüsselwort-Clustern und anderen Techniken enthalten. Die Erweiterungskomponente 313 kann eine Komponente 314 zum Bilden von Konzept/Beziehungs-Clustern zum Erweitern der Begriffe von Konzept/Beziehungs-Bezeichnungen und eine Komponente 315 zum Erzeugen von Syntaxregeln enthalten. Die Erweiterungskomponente 311 kann weiterhin eine Schnittmengenkomponente 316 zum Bilden von Schnittmengen aus den zu Clustern zusammengefassten Konzepten/Beziehungen und den erzeugten Syntaxregeln enthalten, um ein NLP-Modell 330 zu erzeugen.
  • Ein sich daraus ergebendes NLP-Modell 330 kann für den Bereich 320 erzeugt werden. Das NLP-Modell 330 kann zum Analysieren von in dem Bereich verwendeten Dokumenten und Sprache verwendet werden, um eine Sprachanalyse bereitzustellen. Das NLP-Modell kann allen Text in einem Bereich automatisch ”lesen” und ihn dorthin zuordnen, wohin er in dem Modell passt, welches eine Struktur für den Text zur Analyse bereitstellt.
  • Bezugnehmend auf 4 enthält ein beispielhaftes System zum Umsetzen von Aspekten der Erfindung ein Datenverarbeitungssystem 400, das zum Speichern und/oder Ausführen von Programmcode geeignet ist und das mindestens einen Prozessor 401 enthält, der direkt oder indirekt über ein Bussystem 403 mit Speicherelementen verbunden ist. Zu den Speicherelementen können gehören: ein lokaler Speicher, der während der eigentlichen Ausführung des Programmcodes verwendet wird, ein Massenspeicher sowie Cachespeicher, die eine vorübergehende Speicherung von mindestens einer gewissen Menge von Programmcode bereitstellen, um die Anzahl der Male zu verringern, die der Code während des Ausführens aus dem Massenspeicher abgerufen werden muss.
  • Die Speicherelemente können den Systemspeicher 402 in Form eines Nur-Lese-Speichers (ROM) 404 und eines Speichers 405 mit wahlfreiem Zugriff (RAM) einschließen. Ein Eingabe/Ausgabe-Basissystem (BIOS) 406 kann im ROM 404 gespeichert werden. Die Systemsoftware 407 kann im RAM 405 gespeichert werden, worin auch die Betriebssystemsoftware 408 enthalten ist. Die Softwareanwendungen 410 können ebenfalls im RAM 405 gespeichert werden.
  • Das System 400 kann auch primäre Speichermittel 411 wie beispielsweise ein magnetisches Festplattenlaufwerk und sekundäre Speichermittel 412 wie beispielsweise ein magnetisches Plattenlaufwerk und ein optisches Plattenlaufwerk enthalten. Die Laufwerke und ihre zugehörigen computerlesbaren Medien stellen nichtflüchtige Speicher für computerausführbare Anweisungen, Datenstrukturen, Programmmodule und weitere Daten für das System 400 bereit. Softwareanwendungen können auf den primären und sekundären Speichermitteln 411, 412 sowie im Systemspeicher 402 gespeichert werden.
  • Das Computersystem 400 kann in einer vernetzten Umgebung unter Verwendung logischer Verbindungen zu einem oder mehreren entfernt angeordneten Computern mittels eines Netzwerkadapters 416 betrieben werden.
  • Eingabe/Ausgabe-Einheiten 413 können mit dem System entweder direkt oder über zwischengeschaltete E/A-Steuereinheiten verbunden werden. Ein Benutzer kann Befehle und Daten in das System 400 über Eingabeeinheiten wie eine Tastatur, eine Zeigereinheit oder andere Eingabeeinheiten eingeben (beispielsweise Mikrofon, Joystick, Spielsteuerung, Satellitenantenne, Scanner oder dergleichen). Zu Ausgabeeinheiten können Lautsprecher, Drucker usw. gehören. Eine Anzeigeeinheit 414 ist ebenfalls über eine Schnittstelle, beispielsweise einen Videoadapter 415, mit dem Systembus 403 verbunden.
  • Ein Beispiel wird unter Verwendung des ”Financial Services Data Model” (FSDM, Datenmodell für Finanzdienstleistungen) als Quellenmodell gegeben. Beim FSDM handelt es sich um ein Klassifizierungsmodell, das ein unternehmensweites Vokabular aufweist, welches verwendet wird, um die Bedeutung der vielen Konzepte genau zu definieren, welche die Sichtweise der Finanzinstitution von sich selbst und ihrer Geschäftsumgebung ausmachen. Es ermöglicht, alle Aspekte oder Gesichtspunkte, die zu einem bestimmten Geschäftskonzept gehören, im Hinblick auf die Elemente innerhalb einer Klassifizierungshierarchie auszudrücken.
  • Bezugnehmen auf 5 stellt eine Baumdarstellung 500 die Klassifizierungshierarchie für den Begriff ”Beteiligter” (Involved Party – IP) 501 in dem FSDM dar. Die Rechtecke stellen Objekte und die Blöcke mit runden Ecken stellen Attribute dar. Bei den Attributen handelt es sich um eine besondere Art von Beziehung, die als ”hat ein” bezeichnet wird, d. h. ”Beteiligter hat_ein IP-Typ Einzelperson” bedeutet ”A ist eine Einzelperson”. Bei den Attributen handelt es sich deshalb um eine Art von Klassifizierung. Die Informationen in der Baumdarstellung 500 können direkt in übergeordneten Knoten oder in besonderen Fällen über gleichgeordnete Knoten hinweg verwendet werden. Der gesamte Baum kann zum Sammeln von Informationen für die Konzepte von Interesse verwendet werden.
  • Die Baumdarstellung 500 weist einen Stammknoten 501 für ”Beteiligter” mit untergeordneten Attributknoten von ”Rechtsstatus” 502, ”Rolle” 503 und ”Typ” 504 auf. Die weiteren untergeordneten Knoten des Knotens ”Rechtsstatus” 502 und des Knotens ”Rolle” 503 sind allgemein als Zweige 505, 506 dargestellt.
  • Der Knoten ”Typ” 504 weist untergeordnete Knoten für ”Organisation” 507, ”Organisationseinheit” 508 und ”Einzelperson” 509 auf. Der Knoten ”Einzelperson” 509 weist untergeordnete Attributkonten auf, die für ”Familienstand” 510 und ”Gesundheitszustand” 511 dargestellt sind. Der Knoten ”Familienstand” 510 weist untergeordnete Knoten von ”Verheiratet” 512, ”Ledig” 513 und ”Geschieden” 514 auf. Der Knoten ”Gesundheitszustand” 511 weist untergeordnete Knoten von ”Keine Einschränkung” 515, ”Behinderung” 516 und ”Unbekannt” 517 auf.
  • Diese als Knoten dargestellten Konzepte können über Beziehungen zueinander in Beziehung gesetzt werden, wie in 6 dargestellt. 6 ist eine schematische Darstellung 600, in der Konzepte durch Beziehungen verknüpft werden. Damit wird die Fähigkeit hergestellt, verschiedene geschäftliche Szenarios zu erklären.
  • In 6 können ein Objekt, beispielsweise Beteiligter 601, Ort 602, Ereignis 603 und Vereinbarung 604, durch Beziehungen verknüpft werden, die als Pfeile 611, 612, 613, 614, 615 dargestellt sind. Die Pfeile und die Beziehungen, die sie darstellen, können nur in eine Richtung oder in beide Richtungen verlaufen.
  • Verschiedene Beziehungen 620 bis 627 (gestrichelte Kästen mit Namen in Kleinschreibung) können Mitglieder einer Beziehung 611 bis 615 sein, die durch ein ”U”-Zeichen angegeben wird.
  • Verschiedene Konzepte 630 bis 635 (gestrichelte Kästen mit Namen, die mit einem Großbuchstaben beginnen) können Mitglieder eines Objekts 601 bis 604 sein.
  • Beispielsweise gibt die Darstellung, beginnend bei dem Beteiligten 601, an, dass es sich bei einem Beteiligten 601 um eine Einzelperson 631 oder um eine Organisation 630 handeln kann, und dass es sich bei der Beziehung, die sie zu einem Ereignis 603 wie einer Transaktion 633 oder einer Mitteilung 634 haben, um ”initiiert” 626 handelt. Anders ausgedrückt: Ein Beteiligter initiiert eine Mitteilung (z. B. hat John Smith eine eMail gesendet).
  • Beispielszenarios von Anwendungsfällen werden nachfolgend aufgeführt. Mögliche Nutzungsweisen für NLPs und Textanalyse im Allgemeinen sind zahlreich und weitreichend, und bei den folgenden handelt es sich um einige wenige Beispiele:
  • Beispiel 1
  • Ein Versicherungsanbieter wünscht, dass eMails automatisch zu relevanten Artefakten in Beziehung gesetzt werden, die in Datenlagern gepflegt werden (d. h. Kunden, Richtlinien, Ansprüche usw.).
  • Ein NLP-Modell kann genutzt werden, um Freitextressourcen wie eMail als Dateneingabe umzuwandeln, indem der darin enthaltene Text verarbeitet, Bezugnahmen auf relevante Informationsbestandteile wie Namen, Nummern der Policen, Kennungen (IDs) von Ansprüchen gekennzeichnet und indem diese anschließend vorhandenen Datensätze zugeordnet werden.
  • Beispiel 2
  • Ein Modellentwickler muss eine Gültigkeitsprüfung durchführen, ob ein Modell für Bankanwendungen die Anforderungen von ISO 20022/Sepa unterstützt. SEPA ist ein neues gesamteuropäisches Zahlungssystem, das zwischen 2007 und 2010 EU-weit eingeführt wird. Es gibt bestimmte Anforderungen, die für Finanzinstitutionen oder Verarbeitungsdienstleister für Zahlungsvorgänge festgelegt sind, damit sie die SEPA-Registrierung erlangen und SEPA-konform sind.
  • Ein NLP-Modell könnte die Unterlagen mit gesetzlichen Vorschriften verarbeiten, die erforderlichen Anforderungen an das Modell (Konzepte, Beziehungen,...) ermitteln und eine Gültigkeitsprüfung durchführen, ob ein bestimmtes Modell für Bankanwendungen die erforderliche Unterstützung für diese Anforderungen bereitstellt.
  • Beispiel 3
  • Ein IBM-Berater möchte die Kosten für das Durchführen eines Upgrades der vorhandenen Infrastruktur von Firma X für ein bestimmtes Modell im Gesundheitswesen einfacher abschätzen können.
  • Firma X hat IBM beauftragt, ihre Dateninfrastruktur auf der Grundlage der Modelle für das Gesundheitswesen neu zu organisieren, die von ”Branchenmodellen” bereitgestellt werden. Einem Berater wird die Aufgabe zugeteilt, die vorhandene Leistungsfähigkeit des Systems von Firma X zu analysieren und die mit dem Durchführen eines Upgrades verbundene Arbeit abzuschätzen. Ein NLP-Modell könnte eine große Hilfe beim Analysieren von Berichten über die Struktur, von Unterlagen über die Architektur usw. von Firma X sein, um Konzepte zu ermitteln, die in der vorhandenen Architektur fehlen.
  • Ein System zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache kann als Dienstleistung für einen Kunden über ein Netzwerk bereitgestellt werden.
  • Die Erfindung kann die Form einer vollständigen Hardware-Ausführungsform, einer vollständigen Software-Ausführungsform oder einer Ausführungsform annehmen, die sowohl Hardware- als auch Software-Elemente aufweist. In einer bevorzugten Ausführungsform wird die Erfindung in Software umgesetzt, wozu Firmware, residente Software, Mikrocode usw. gehört, jedoch nicht darauf beschränkt ist.
  • Die Erfindung kann die Form eines Computerprogrammprodukts annehmen, auf das von einem computernutzbaren und computerlesbaren Medium zugegriffen werden kann, das Programmcode zur Verwendung durch oder in Verbindung mit einem Computer oder einem System zum Ausführen von Befehlen bereitstellt. Für die Zwecke dieser Beschreibung kann es sich bei einem computernutzbaren oder computerlesbaren Medium um eine beliebige Vorrichtung handeln, die das Programm zur Verwendung durch oder in Verbindung mit dem System, der Vorrichtung oder der Einheit zur Ausführung von Befehlen enthalten, speichern, damit Daten austauschen, es verbreiten oder transportieren kann.
  • Bei dem Medium kann es sich um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder eine derartige Vorrichtung oder Einheit) oder ein Ausbreitungsmedium handeln. Zu Beispielen eines computerlesbaren Mediums gehören ein Halbleiter- oder Festkörperspeicher, Magnetband, eine Wechsel-Computerdiskette, ein Speicher mit wahlfreiem Zugriff (RAM), ein Nur-Lese-Speicher [ROM], eine magnetische Festplatte und eine optische Platte. Zu aktuellen Beispielen optischer Platten gehören ein Compactdisc-Nur-Lese-Speicher (CD-ROM), eine lesbare/beschreibbare Compactdisc (CD-R/W) und eine DVD.
  • Veränderungen und Änderungen können am Vorstehenden vorgenommen werden, ohne vom Geltungsbereich der vorliegenden Erfindung abzuweichen.

Claims (20)

  1. Verfahren zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich, wobei das Verfahren aufweist: Ableiten (101) eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell (111) des Informationsbereichs; Anwenden (102) einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; Erweitern (103) des Grundgerüsts des natürlichsprachlichen Wortschatzes auf der Grundlage von Referenzdokumenten aus dem Informationsbereich, um ein Verarbeitungsmodell für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.
  2. Verfahren nach Anspruch 1, wobei das Ableiten (101) eines Grundgerüsts eines natürlichsprachlichen Wortschatzes in dem Informationsbereich bevorzugte Begriffe verwendet.
  3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei das Anwenden (102) einer Menge von Syntaxregeln ein Berücksichtigen von Subjekt, Prädikat, Objekt und ein Verändern der Reihenfolge für die sprachliche Darstellung beinhaltet.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei das Erweitern (103) des Grundgerüsts aufweist: Auswählen (201) eines bevorzugten Begriffs als Konzept oder Beziehung; Ausführen (202) einer Schlüsselwortsuche nach dem bevorzugten Begriff in Referenzdokumenten aus dem Informationsbereich; und Bereitstellen (206) einer geordneten Menge möglicher Begriffe für den bevorzugten Begriff.
  5. Verfahren nach Anspruch 4, das aufweist: Ermitteln (203) lokaler N-Gramme; Messen (204) von einer oder mehreren Messgrößen der N-Gramme; und Bewerten (205) der N-Gramme;
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Erweitern (103) des Grundgerüsts des natürlichsprachlichen Wortschatzes aufweist: Ableiten weiterer Syntaxregeln auf der Grundlage der Referenzdokumente aus dem Informationsbereich; und Bilden einer Schnittmenge aus den Syntaxregeln und den zu Clustern zusammengefassten Begriffen für Konzepte und Beziehungen.
  7. Verfahren nach Anspruch 6, das aufweist: Nutzen von Verbstrukturen aus sprachwissenschaftlichen Verbklassen, um die Schnittmenge zu steuern, die auf zu Clustern zusammengefasste Begriffe angewendet wird.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Erweitern (103) des Grundgerüsts mit einem Anfangskonzept oder mit einer Anfangsbeziehung beginnt und sich durch benachbarte Konzepte oder Beziehungsverknüpfungen in dem Quellenmodell iterierend nach außen bewegt; und die erweiterten Begriffe von Konzepten und Beziehungen durch Erhöhen der Anzahl von Bewertungen verfeinert.
  9. Verfahren nach Anspruch 8, das beinhaltet: Ermitteln einer Abweichung von besten Begriffen für ein Konzept oder eine Beziehung unter Verwendung einer Bewertungsschwelle.
  10. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Erweitern (103) des Grundgerüsts eine sich in Iterationen wiederholende Strategie auf der Grundlage von Ergebnissen dynamisch verändert.
  11. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Ableiten (101) eines Grundgerüsts eines natürlichsprachlichen Wortschatzes auf mehr als einem Quellenmodell (111) beruht.
  12. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Ableiten (101) eines Grundgerüsts eines natürlichsprachlichen Wortschatzes frei zugängliche Daten nutzt, um das Grundgerüst anfangs zu füllen, wobei die Ontologieklassen des Quellenmodells mit den Klassen frei zugänglicher Daten abgeglichen werden.
  13. Computerprogramm, das auf einem computerlesbaren Medium gespeichert ist und in einen internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Abschnitte umfasst, um, wenn das Programm auf einem Computer ausgeführt wird, das Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen.
  14. System zum Erzeugen eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich, das aufweist: einen Prozessor; eine Grundgerüst-Komponente (311) zum Ableiten eines Grundgerüsts eines natürlichsprachlichen Wortschatzes aus einem Quellenmodell (321) des Informationsbereichs (320); eine Syntaxregel-Komponente (312) zum Anwenden einer Menge von Syntaxregeln, die Konzepte und Beziehungen definieren; eine Erweiterungskomponente (313) zum Erweitern des Grundgerüsts des natürlichsprachlichen Wortschatzes auf der Grundlage von Referenzdokumenten (322) aus dem Informationsbereich (320), um ein Verarbeitungsmodell (314) für natürliche Sprache für den Informationsbereich bereitzustellen, wobei das Erweitern des Grundgerüsts ein Bilden von Clustern und Bewerten von Begriffen für Konzepte und Beziehungen beinhaltet.
  15. System nach Anspruch 14, wobei die Syntaxregel-Komponente (312) zum Anwenden einer Menge von Syntaxregeln ein Berücksichtigen von Subjekt, Prädikat, Objekt und ein Verändern der Reihenfolge für die sprachliche Darstellung beinhaltet.
  16. System nach Anspruch 14 oder Anspruch 15, wobei die Erweiterungskomponente (313) zum Erweitern des Grundgerüsts Komponenten beinhaltet eine Komponente (314) zum Bilden von Clustern von Konzepten/Beziehungen beinhaltet zum: Auswählen eines bevorzugten Begriffs als Konzept oder Beziehung; Ausführen einer Schlüsselwortsuche nach dem bevorzugten Begriff in Referenzdokumenten aus dem Informationsbereich; und Bereitstellen einer geordneten Menge möglicher Begriffe für den bevorzugten Begriff.
  17. System nach Anspruch 16, wobei die Komponente (314) zum Bilden von Konzept/Beziehungs-Clustern dient zum: Ermitteln lokaler N-Gramme; Messen von einer oder mehreren Messgrößen der N-Gramme; und Bewerten der N-Gramme;
  18. System nach einem der Ansprüche 14 bis 17, wobei die Erweiterungskomponente (313) zum Erweitern des Grundgerüsts des natürlichsprachlichen Wortschatzes beinhaltet: eine Komponente (315) zum Ableiten Syntaxregeln zum Ableiten weiterer Syntaxregeln auf der Grundlage der Referenzdokumente aus dem Informationsbereich; und eine Schnittmengenkomponente (316) zum Bilden einer Schnittmenge aus den Syntaxregeln und den zu Clustern zusammengefassten Begriffen für Konzepte und Beziehungen.
  19. System nach einem der Ansprüche 14 bis 19, wobei die Erweiterungskomponente (313) zum Erweitern des Grundgerüsts bei einem Anfangskonzept oder einer Anfangsbeziehung beginnt und sich durch benachbarte Konzepte oder Beziehungsverknüpfungen in dem Quellenmodell iterierend nach außen bewegt; und die erweiterten Begriffe von Konzepten und Beziehungen durch Vergrößern der Anzahl von Bewertungen verfeinert.
  20. System nach einem der Ansprüche 14 bis 17, wobei die Erweiterungskomponente (313) zum Erweitern des Grundgerüsts eine sich in Iterationen wiederholende Strategie auf der Grundlage von Ergebnissen dynamisch verändert.
DE112012005177.7T 2011-12-12 2012-11-26 Erzeugens eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich Pending DE112012005177T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11306635 2011-12-12
EP11306635.1 2011-12-12
PCT/IB2012/056737 WO2013088287A1 (en) 2011-12-12 2012-11-26 Generation of natural language processing model for information domain

Publications (1)

Publication Number Publication Date
DE112012005177T5 true DE112012005177T5 (de) 2014-08-28

Family

ID=48572831

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112012005177.7T Pending DE112012005177T5 (de) 2011-12-12 2012-11-26 Erzeugens eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich

Country Status (5)

Country Link
US (1) US9740685B2 (de)
JP (1) JP2015505082A (de)
CN (1) CN103999081A (de)
DE (1) DE112012005177T5 (de)
WO (1) WO2013088287A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158786B1 (en) 2014-10-01 2015-10-13 Bertram Capital Management, Llc Database selection system and method to automatically adjust a database schema based on an input data

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US9135244B2 (en) 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
US8762133B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for alert validation
US9405448B2 (en) 2012-08-30 2016-08-02 Arria Data2Text Limited Method and apparatus for annotating a graphical output
US8762134B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for situational analysis text generation
US9600471B2 (en) 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
WO2014076524A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
WO2014076525A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for expressing time in an output text
US10430506B2 (en) * 2012-12-10 2019-10-01 International Business Machines Corporation Utilizing classification and text analytics for annotating documents to allow quick scanning
WO2014102569A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion description
WO2014102568A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion detection
US10776561B2 (en) 2013-01-15 2020-09-15 Arria Data2Text Limited Method and apparatus for generating a linguistic representation of raw input data
WO2015028844A1 (en) 2013-08-29 2015-03-05 Arria Data2Text Limited Text generation from correlated alerts
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
US10664558B2 (en) 2014-04-18 2020-05-26 Arria Data2Text Limited Method and apparatus for document planning
KR102304052B1 (ko) * 2014-09-05 2021-09-23 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
US9361075B2 (en) 2014-11-12 2016-06-07 International Business Machines Corporation Contraction aware parsing system for domain-specific languages
CN104391904B (zh) * 2014-11-14 2018-10-12 北京中海纪元数字技术发展股份有限公司 面向住户调查的用户终端数据快速录入方法及***
US20160162464A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Techniques for combining human and machine learning in natural language processing
US20160189037A1 (en) * 2014-12-24 2016-06-30 Intel Corporation Hybrid technique for sentiment analysis
AU2016250552A1 (en) * 2015-04-21 2017-11-16 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating concepts from a document corpus
US10303441B2 (en) * 2015-04-28 2019-05-28 Nadia Analía Huebra Process and system for automatic generation of functional architecture documents and software design and analysis specification documents from natural language
US9959311B2 (en) * 2015-09-18 2018-05-01 International Business Machines Corporation Natural language interface to databases
WO2016027170A2 (en) * 2015-12-04 2016-02-25 Kantorovitz Isaiah Pinchas Lexical analysis tool
US10140273B2 (en) 2016-01-19 2018-11-27 International Business Machines Corporation List manipulation in natural language processing
KR101835345B1 (ko) * 2016-02-29 2018-03-07 경기대학교 산학협력단 지식베이스 기반의 개념그래프 확장 시스템
US10474703B2 (en) 2016-08-25 2019-11-12 Lakeside Software, Inc. Method and apparatus for natural language query in a workspace analytics system
US10445432B1 (en) 2016-08-31 2019-10-15 Arria Data2Text Limited Method and apparatus for lightweight multilingual natural language realizer
CN106547248A (zh) * 2016-10-09 2017-03-29 南京邮电大学 一种用于开放环境下控制***的策略生成方法
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建***
US10073831B1 (en) * 2017-03-09 2018-09-11 International Business Machines Corporation Domain-specific method for distinguishing type-denoting domain terms from entity-denoting domain terms
US10089742B1 (en) * 2017-03-14 2018-10-02 Adobe Systems Incorporated Automatically segmenting images based on natural language phrases
CN108519963B (zh) * 2018-03-02 2021-12-03 山东科技大学 一种将流程模型自动转换为多语言文本的方法
CN108628631B (zh) * 2018-05-14 2019-02-15 北京理工大学 一种对参数中的缩写词进行自动扩展的方法
US10963492B2 (en) * 2018-06-14 2021-03-30 Google Llc Generation of domain-specific models in networked system
US11106736B1 (en) * 2018-08-23 2021-08-31 Wells Fargo Bank, N.A. Fuzzy search of graph database
US11295083B1 (en) * 2018-09-26 2022-04-05 Amazon Technologies, Inc. Neural models for named-entity recognition
EP3903207A4 (de) 2018-12-25 2022-07-20 Microsoft Technology Licensing, LLC Codierungsinformationsextraktor
CN110070114B (zh) * 2019-04-03 2020-11-10 奇安信科技集团股份有限公司 多规范融合的处理方法、装置、计算机设备和存储介质
CN110263177B (zh) * 2019-05-23 2021-09-07 广州市香港科大***研究院 用于事件预测的知识图构建方法与事件预测方法
US11100290B2 (en) * 2019-05-30 2021-08-24 International Business Machines Corporation Updating and modifying linguistic based functions in a specialized user interface
US11119764B2 (en) 2019-05-30 2021-09-14 International Business Machines Corporation Automated editing task modification
CN110489561A (zh) * 2019-07-12 2019-11-22 平安科技(深圳)有限公司 知识图谱构建方法、装置、计算机设备和存储介质
US11321534B2 (en) 2020-03-11 2022-05-03 International Business Machines Corporation Conversation space artifact generation using natural language processing, machine learning, and ontology-based techniques
WO2021195133A1 (en) 2020-03-23 2021-09-30 Sorcero, Inc. Cross-class ontology integration for language modeling
CN112632924B (zh) * 2020-12-18 2024-04-02 上海明略人工智能(集团)有限公司 规则化执行序列标注的方法、***、电子设备及存储介质
US11544795B2 (en) 2021-02-09 2023-01-03 Futurity Group, Inc. Automatically labeling data using natural language processing
US11416562B1 (en) 2021-04-23 2022-08-16 International Business Machines Corporation Corpus expansion using lexical signatures
US11451496B1 (en) * 2021-04-30 2022-09-20 Microsoft Technology Licensing, Llc Intelligent, personalized, and dynamic chatbot conversation
CN117494672A (zh) * 2023-11-13 2024-02-02 北京大学长沙计算与数字经济研究院 行业文档的生成方法、装置及计算机可读存储介质

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2277387A (en) 1993-04-21 1994-10-26 Ibm Natural language processing system
US6952666B1 (en) 2000-07-20 2005-10-04 Microsoft Corporation Ranking parser for a natural language processing system
US7010479B2 (en) * 2000-07-26 2006-03-07 Oki Electric Industry Co., Ltd. Apparatus and method for natural language processing
US20020046019A1 (en) * 2000-08-18 2002-04-18 Lingomotors, Inc. Method and system for acquiring and maintaining natural language information
US7027974B1 (en) 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
JP2004139427A (ja) * 2002-10-18 2004-05-13 Fuji Xerox Co Ltd コミュニケーション支援システム及びコミュニケーション支援システム、並びにコンピュータ・プログラム
GB0226778D0 (en) * 2002-11-18 2002-12-24 Hewlett Packard Co Using semantic web technology to enhance current business-to-business integration approaches
JP3765799B2 (ja) * 2003-05-28 2006-04-12 沖電気工業株式会社 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
US7941310B2 (en) * 2003-09-09 2011-05-10 International Business Machines Corporation System and method for determining affixes of words
US7376670B2 (en) * 2004-02-20 2008-05-20 Alcatel-Lucent System and method for provisioning presence application services
US20060053174A1 (en) 2004-09-03 2006-03-09 Bio Wisdom Limited System and method for data extraction and management in multi-relational ontology creation
US20060074632A1 (en) 2004-09-30 2006-04-06 Nanavati Amit A Ontology-based term disambiguation
US7739104B2 (en) 2005-05-27 2010-06-15 Hakia, Inc. System and method for natural language processing and using ontological searches
CN100405362C (zh) * 2005-10-13 2008-07-23 中国科学院自动化研究所 一种汉语口语解析方法及装置
BRPI0706683A2 (pt) * 2006-01-19 2011-04-05 Veridex Llc sistemas e métodos para adquirir, analisar e explorar dados e informação
US7676485B2 (en) 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
CN101201818A (zh) * 2006-12-13 2008-06-18 李萍 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法
US8812296B2 (en) * 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8082151B2 (en) * 2007-09-18 2011-12-20 At&T Intellectual Property I, Lp System and method of generating responses to text-based messages
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing
CN101446941A (zh) * 2008-12-10 2009-06-03 苏州大学 一种基于历史信息的自然语言层次句法分析方法
US20110281025A1 (en) * 2009-01-29 2011-11-17 Showa Denko K.K. Curable composition for transfer materials, and (meth) acryloyl group-containing urea compound
CN101520775B (zh) * 2009-02-17 2012-05-30 北京大学 一种融入语义信息的中文句法分析与解码方法
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US20110301941A1 (en) * 2009-03-20 2011-12-08 Syl Research Limited Natural language processing method and system
US20100281025A1 (en) * 2009-05-04 2010-11-04 Motorola, Inc. Method and system for recommendation of content items
FR2946208B1 (fr) * 2009-05-26 2012-02-10 Thales Sa Procede d'adaptation de donnees dans un systeme de transmission de donnees et systeme associe
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
CA2679786A1 (en) * 2009-09-16 2009-12-16 Ibm Canada Limited - Ibm Canada Limitee Conceptual representation of business processes for cross-domain mapping
CN101833561B (zh) * 2010-02-12 2012-12-26 西安电子科技大学 面向自然语言处理的语义Web服务智能代理
EP2383684A1 (de) * 2010-04-30 2011-11-02 Fujitsu Limited Verfahren und Vorrichtung zur Erzeugung eines Ontologiedokuments
GB201010545D0 (en) * 2010-06-23 2010-08-11 Rolls Royce Plc Entity recognition
JP2012063868A (ja) * 2010-09-14 2012-03-29 Internatl Business Mach Corp <Ibm> 言語処理パーサーを組み合わせて、組み合わせパーサーを生成する方法、並びにそのコンピュータ及びコンピュータ・プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158786B1 (en) 2014-10-01 2015-10-13 Bertram Capital Management, Llc Database selection system and method to automatically adjust a database schema based on an input data

Also Published As

Publication number Publication date
US20130151238A1 (en) 2013-06-13
WO2013088287A1 (en) 2013-06-20
US9740685B2 (en) 2017-08-22
CN103999081A (zh) 2014-08-20
JP2015505082A (ja) 2015-02-16

Similar Documents

Publication Publication Date Title
DE112012005177T5 (de) Erzeugens eines Verarbeitungsmodells für natürliche Sprache für einen Informationsbereich
DE112018001876T5 (de) Adaptive beurteilung von metabeziehungen in semantischen graphen
DE112019001533T5 (de) Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
CN108563620A (zh) 文本自动写作方法和***
DE102019001267A1 (de) Dialogartiges System zur Beantwortung von Anfragen
DE112018005167T5 (de) Aktualisieren von trainingsdaten
DE102014103281A1 (de) Verknüpfen unterschiedlicher typerzwingungskomponenten zum beurteilen eines latenten typs
DE112018005076T5 (de) Erstellen einer rangfolge von dokumenten auf grundlage ihres semantischen reichtums
DE102021004157A1 (de) Maschinell lernendes Modellieren zum Schutz gegen die Online-Offenlegung empfindlicher Daten
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE112017007530T5 (de) Entitätsmodell-erstellung
Halevi et al. The thematic and conceptual flow of disciplinary research: A citation context analysis of the journal of informetrics, 2007
Wagner et al. Analyzing text in software projects
Al Qundus et al. Exploring the impact of short-text complexity and structure on its quality in social media
US20120078950A1 (en) Techniques for Extracting Unstructured Data
Tran et al. ViMs: a high-quality Vietnamese dataset for abstractive multi-document summarization
Zhang et al. How effective are lexical richness measures for differentiations of vocabulary proficiency? A comprehensive examination with clustering analysis
Rawat et al. Topic modelling of legal documents using NLP and bidirectional encoder representations from transformers
Wnuk et al. Replication of an experiment on linguistic tool support for consolidation of requirements from multiple sources
Naik et al. An adaptable scheme to enhance the sentiment classification of Telugu language
Tanoli et al. Systematic machine translation of social network data privacy policies
Popping Online tools for content analysis
Debortoli et al. Comparing Business Intelligence and Big Data Skills: A Text Mining Study Using Job Advertisements. Business & Information Systems Engineering.

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017270000

Ipc: G06F0040200000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0040200000

Ipc: G06F0016360000

R016 Response to examination communication
R084 Declaration of willingness to licence