DE112017007530T5

DE112017007530T5 - Entitätsmodell-erstellung

Info

Publication number: DE112017007530T5
Application number: DE112017007530.0T
Authority: DE
Inventors: Su Liu; Dingcheng Li; Yu Gu; Kai Liu
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-05-10
Filing date: 2017-12-15
Publication date: 2020-01-23
Also published as: CN110612522B; JP7116435B2; GB201916798D0; CN110612522A; US20180330231A1; JP2020520002A; GB2576659A; US11188819B2; WO2018207013A1

Abstract

Offenbarte Aspekte beziehen sich auf eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik (Infinite Mixture Topic Modeling, Themenmodellierung mit unendlicher Mischung). Ein Satz von Ereignisdaten, der einem Satz von Ereignissen entspricht, kann festgestellt werden. Unter Verwendung der IMTM-Technik kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, analysiert werden. Auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik kann ein Satz von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen kann ein Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen erstellt werden.

Description

HINTERGRUND
Diese Offenbarung bezieht sich im Allgemeinen auf Computersysteme und im Besonderen auf eine Erstellung eines NER-Modells (Named Entity Recognition, Erkennung von benannten Entitäten) und eines ERD-Modells (Entity Relation Detection, Feststellung von Beziehungen zwischen Entitäten) unter Verwendung einer IMTM-Technik (Infinite Mixture Topic Modeling, Themenmodellierung mit unendlicher Mischung). Es kann wünschenswert sein, dass eine Verwaltung von Daten möglichst effizient vonstattengeht. Angesichts der Zunahme der zu verwaltenden Daten kann auch die Notwendigkeit einer NER- und ERD-Erstellung unter Verwendung einer IMTM-Technik zunehmen. NER- und ERD-Systeme können, genauer gesagt, vor verschiedenen Herausforderungen stehen, wie hier beschrieben wird.
Die Verarbeitung natürlicher Sprache ist nützlich, um elektronische Patientenakten (Electronic Health Records, EHRs) zu verarbeiten. Allerdings kann eine schlechte Leistung in Zusammenhang mit Aufgaben zur Feststellung von Beziehungen wie z.B. der Koreferenz (sprachliche Ausdrücke, die dieselbe Entität bzw. dasselbe Ereignis betreffen) die Qualität einer EHR-Verarbeitung beeinträchtigen. Daher besteht eine Notwendigkeit, bei der Feststellung von Beziehungen in EHRs Fortschritte zu erzielen. Viele klinische Systeme für eine Koreferenzauflösung beruhen entweder auf Verfahren mit überwachtem maschinellem Lernen oder auf Verfahren auf Regelgrundlage. Die Notwendigkeit eines manuell annotierten Korpus erschwert die groß angelegte Verwendung solcher Systeme.
Anhand von Cognitive Computing kann eine dynamische Unterstützung von klinischen Entscheidungen ermöglicht werden. Bei der Unterstützung von klinischen Entscheidungen, der Kohortenidentifizierung oder der Vorhersage und Analyse des Patientenrisikos können zahlreiche Herausforderungen bestehen. Im Besonderen weisen gegenwärtige klinische/medizinische identische NER- und ERD-Systeme Probleme auf, die gelöst werden können. Überwachte Modelle wie z.B. die paarweise Klassifizierung sind in hohem Maße von einem annotierten Korpus abhängig, der weniger Portabilität beinhaltet und schwer zu erfassende globale Informationen beinhalten kann, was zu einer uninformierten Entscheidung führen kann. Deterministische Systeme auf Regelgrundlage wie das über mehrere Durchgänge hinweg eingesetzte Sieb erfordern sorgfältig gestaltete Merkmale oder Regelerzeugungen. Unüberwachte Modelle wie ein reines Schema nach Bayes beinhalten eine Zufälligkeit, welche die Ergebniskonsistenz verringert, und stützen sich überwiegend auf gemeinsame Vorkommen.
KURZDARSTELLUNG
Gemäß einem Aspekt wird ein durch einen Computer realisiertes Verfahren für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik (Infinite Mixture Topic Modeling, Themenmodellierung mit unendlicher Mischung) bereitgestellt, wobei das Verfahren aufweist: Feststellen eines Satzes von Ereignisdaten, der einem Satz von Ereignissen entspricht; Analysieren, unter Verwendung der IMTM-Technik, des Satzes von Ereignisdaten, der dem Satz von Ereignissen entspricht; Ermitteln, auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik, eines Satzes von Entitätsmodellen für den Satz von Ereignissen; und Erstellen, auf Grundlage des Satzes von Ereignismodellen für den Satz von Ereignissen, eines Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Gemäß einem weiteren Aspekt wird ein System für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik bereitgestellt, wobei das System aufweist: einen Arbeitsspeicher mit einem Satz von durch einen Computer lesbaren Computerbefehlen und einen Prozessor zum Ausführen des Satzes von durch einen Computer lesbaren Befehlen, wobei der Satz von durch einen Computer lesbaren Befehlen beinhaltet: Feststellen eines Satzes von Ereignisdaten, der einem Satz von Ereignissen entspricht; Analysieren, unter Verwendung der IMTM-Technik, des Satzes von Ereignisdaten, der dem Satz von Ereignissen entspricht; Ermitteln, auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik, eines Satzes von Entitätsmodellen für den Satz von Ereignissen; und Erstellen, auf Grundlage des Satzes von Ereignismodellen für den Satz von Ereignissen, eines Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Gemäß einem weiteren Aspekt wird ein Computerprogrammprodukt für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik bereitgestellt, wobei das Computerprogrammprodukt aufweist: ein durch einen Computer lesbares Speichermedium mit darin enthaltenen Programmbefehlen, wobei das durch einen Computer lesbare Speichermedium kein flüchtiges Signal an sich ist, wobei die Programmbefehle durch einen Prozessor ausführbar sind, um den Prozessor zum Durchführen eines Verfahrens zu veranlassen, aufweisend: Feststellen eines Satzes von Ereignisdaten, der einem Satz von Ereignissen entspricht; Analysieren, unter Verwendung der IMTM-Technik, des Satzes von Ereignisdaten, der dem Satz von Ereignissen entspricht; Ermitteln, auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik, eines Satzes von Entitätsmodellen für den Satz von Ereignissen; und Erstellen, auf Grundlage des Satzes von Ereignismodellen für den Satz von Ereignissen, eines Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Ausführungsformen der Offenbarung beziehen sich auf eine NER und ERD in Freitexten unter Verwendung einer IMTM-Technik (Infinite Mixture Topic Modeling, Themenmodellierung mit unendlicher Mischung) mit einem neuronalen Netzwerk. Die IMTM-Technik kann Entitätsketten zwischen medizinischen Ereignissen und einer NEPR-Technik (Neural Entity Pair Refiner, Einheit für die neuronale Nachbesserung von Entitätspaaren) herstellen, um eine Leistung zu verbessern. Bei Ausführungsformen kann die Entitätskette identische Entitätsketten beinhalten. Merkmale können eine Unsicherheit von Entitätsdaten in jedem Dokument berücksichtigen. Die Dynamik der IMTM-Technik beim Erzeugen neuer Entitäten kann positive Auswirkungen in Bezug auf die Notwendigkeit einer Vorabschätzung von Entitätszahlen haben. Bei Ausführungsformen können nachverfolgbare elektronische Langzeit-Patientenakten hergestellt werden, die durch die NER und ERD ermöglicht werden. Ausführungsformen, die sich auf ein halbüberwachtes Merkmal beziehen, können positive Auswirkungen in Bezug auf einen Grad der Abhängigkeit von Trainingsdaten haben.
Offenbarte Ausführungsformen beziehen sich auf eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik (Infinite Mixture Topic Modeling, Themenmodellierung mit unendlicher Mischung). Ein Satz von Ereignisdaten, der einem Satz von Ereignissen entspricht, kann festgestellt werden. Unter Verwendung der IMTM-Technik kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, analysiert werden. Auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik kann ein Satz von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen kann ein Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen erstellt werden. Insgesamt können Ausführungsformen der Offenbarung Leistungs- oder Effizienzvorteile haben. Ausführungsformen können den Verbrauch von Ressourcen wie Bandbreite, Festplattenspeicher, Verarbeitungskapazität oder Arbeitsspeicher verringern.
Bei Ausführungsformen wird der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, unter Verwendung der IMTM-Technik eingespeist. Eine bestimmte Gruppe von Erwähnungselementen des Satzes von Ereignisdaten kann unter Verwendung der IMTM-Technik verarbeitet werden. Somit kann ein betreffendes Erwähnungselement der bestimmten Gruppe von Erwähnungselementen mit einem oder mehreren klar unterscheidbaren Entitätselementen korrelieren. Bei verschiedenen Ausführungsformen kann der Satz von Daten, der dem Satz von Ereignissen entspricht, unter Verwendung einer Ähnlichkeitsmetrik und auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik geclustert werden. Bei bestimmten Ausführungsformen kann ein Satz von IMTM-Parametern zur Verwendung durch die IMTM-Technik abgeleitet werden, indem in Bezug auf den Satz von Ereignisdaten eine Gibbs-Sampling-Methode verwendet wird.
Bei Ausführungsformen kann der Satz von Entitätsmodellen für den Satz von Ereignissen unter Verwendung einer NEPR-Methode (Neural Entity Pair Refining, neuronale Nachbesserung von Entitätspaaren) analysiert werden. Auf Grundlage eines Analysierens des Satzes von Entitätsmodellen unter Verwendung der NEPR-Methode kann der Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Bei verschiedenen Ausführungsformen kann unter Verwendung einer Methode zur Verarbeitung natürlicher Sprache ein Satz von Merkmalen extrahiert werden. Der Satz von Merkmalen kann sowohl durch den Satz von Entitätsmodellen angegeben als auch aus dem Satz von Ereignisdaten abgeleitet werden. Die Verwendung der IMTM-Technik in Verbindung mit der NEPR-Methode kann verschiedene Leistungs- oder Effizienzvorteile bereitstellen.
Die obige Kurzdarstellung ist nicht dafür gedacht, jede veranschaulichte Ausführungsform bzw. jede Realisierung der vorliegenden Offenbarung zu beschreiben.
Figurenliste
Die in der vorliegenden Anmeldung enthaltenen Zeichnungen sind in die Beschreibung eingebettet und bilden einen Bestandteil hiervon. Sie veranschaulichen Ausführungsformen der vorliegenden Offenbarung und dienen neben der Beschreibung dazu, die Grundsätze der Offenbarung zu erläutern. Die Zeichnungen zeigen lediglich bestimmte Ausführungsformen und bilden keine Beschränkung der Offenbarung.

1 ist eine schematische Darstellung einer Beispiel-Datenverarbeitungsumgebung gemäß Ausführungsformen.
2 ist ein Systemschaubild, das eine allgemeine logische Architektur für ein Fragenbeantwortungssystem gemäß Ausführungsformen darstellt.
3 ist ein Blockschaubild, das ein Fragenbeantwortungssystem zum Erzeugen von Antworten auf eine oder mehrere Eingabefragen gemäß Ausführungsformen zeigt.
4 ist ein Ablaufplan, der ein Verfahren für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik (Infinite Mixture Topic Modeling, Themenmodellierung mit unendlicher Mischung) gemäß Ausführungsformen zeigt.
5 ist ein Ablaufplan, der ein Verfahren für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen zeigt.
6 ist ein Ablaufplan, der ein Verfahren für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen zeigt.
7 ist ein Ablaufplan, der ein Verfahren für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen zeigt.
8 zeigt ein Beispiel für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen.
9 zeigt ein Beispiel für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen.
10 zeigt ein Beispiel für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen.
11 zeigt ein Beispiel für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen.

Obwohl die Erfindung für verschiedene Abwandlungen und alternative Formen offen ist, wurden ihre Besonderheiten in den Zeichnungen beispielhaft gezeigt und werden im Detail beschrieben. Dabei sollte jedoch klar sein, dass die Erfindung nicht auf die bestimmten beschriebenen Ausführungsformen beschränkt sein soll. Vielmehr sollen alle Abwandlungen, Entsprechungen und Alternativen, die unter den gedanklichen Wesensgehalt und inhaltlichen Umfang der Erfindung fallen, abgedeckt sein.
AUSFÜHRLICHE BESCHREIBUNG
Ausführungsformen der Offenbarung beziehen sich auf eine NER und ERD in Freitexten unter Verwendung eines IMTM-Verfahrens (Infinite Mixture Topic Modeling, Themenmodellierung mit unendlicher Mischung) mit einem neuronalen Netzwerk. Die IMTM-Technik kann Entitätsketten zwischen medizinischen Ereignissen (z.B. auf eine unüberwachte Weise) und einer NEPR-Methode (Neural Entity Pair Refiner, Einheit für die neuronale Nachbesserung von Entitätspaaren) herstellen, um (z.B. auf eine überwachte Weise) eine Leistung zu verbessern. Bei Ausführungsformen kann die Entitätskette identische Entitätsketten beinhalten. Merkmale können eine Unsicherheit von Entitätsdaten (z.B. Zahlen) in jedem Dokument berücksichtigen. Die Dynamik der IMTM-Technik beim Erzeugen neuer Entitäten kann positive Auswirkungen in Bezug auf die Notwendigkeit einer Vorabschätzung von Entitätszahlen haben (indem sie z.B. die Notwendigkeit/den Bedarf einer solchen Vorabschätzung von Entitätszahlen verringert). Bei Ausführungsformen können nachverfolgbare elektronische Langzeit-Patientenakten hergestellt werden, die durch die NERs und ERDs (z.B. identische NERs und ERDs) ermöglicht werden. Ausführungsformen, die sich auf ein halbüberwachtes Merkmal beziehen, können positive Auswirkungen in Bezug auf einen Grad der Abhängigkeit von Trainingsdaten haben (z.B. derartige Abhängigkeiten verringern oder in bestimmten Fällen völlig beseitigen). Die Verwendung der IMTM-Technik in Verbindung mit der NEPR-Methode kann verschiedene Leistungs- oder Effizienzvorteile bereitstellen.
Hier beschriebene Merkmale können sich auf Cognitive Computing in einer medizinischen oder Healthcare-Umgebung beziehen, um eine dynamische Unterstützung klinischer Entscheidungen zu ermöglichen. Eine Entität kann ein Objekt oder einen Satz von Objekten (z.B. in der realen Welt) angeben. Der textliche Verweis auf eine Entität kann als eine Erwähnung bezeichnet werden. Eine Erwähnung kann Nomen, Pronomen, Phrasen, Verbalphrasen usw. beinhalten, die in medizinischen/klinischen Vermerken enthalten sein können. Identische NERs und ERDs können einen Prozess des Clusterns identischer Erwähnungen beinhalten, wodurch Erwähnungen, die sich auf dieselben Entitäten beziehen, sowie identische Erwähnungen in Bezug auf Entitätsketten (z.B. Koreferenz-Auflösung bei der Verarbeitung natürlicher Sprache) gefunden werden. Die Themenmodellierung kann einen statistischen Prozess eines Bestimmens der abstrakten Themen beinhalten, die in einer Sammlung von Dokumenten vorkommen. Sie kann als ein Textanalyse-Werkzeug zur Bestimmung von verborgenen semantischen Strukturen in einem Textkörper verwendet werden. Bei bestimmten Ausführungsformen können Teile in einer Cloud-Umgebung (z.B. einer medizinischen Cloud-Umgebung, einer Cognitive-Computing-Cloud-Umgebung) realisiert sein. Hier beschriebene Ausführungsformen können die medizininformatische Forschung oder klinische Praxis ermöglichen. Zu Veranschaulichungszwecken können offenbarte Ausführungsformen Herausforderungen bei der Unterstützung von klinischen Entscheidungen, der Kohortenidentifizierung oder der Vorhersage und Analyse des Patientenrisikos bewältigen.
Für NER- und ERD-Systeme können verschiedene Herausforderungen gelten. Im Besonderen weisen gegenwärtige klinische/medizinische identische NER- und ERD-Systeme Probleme auf, die gelöst werden können. Überwachte Modelle wie z.B. die paarweise Klassifizierung sind in hohem Maße von einem annotierten Korpus abhängig, der weniger Portabilität beinhaltet und schwer zu erfassende globale Informationen beinhalten kann, was zu einer uninformierten Entscheidung führen kann. Deterministische Systeme auf Regelgrundlage wie das über mehrere Durchgänge hinweg eingesetzte Sieb erfordern sorgfältig gestaltete Merkmale oder Regelerzeugungen. Unüberwachte Modelle wie ein reines Schema nach Bayes beinhalten eine Zufälligkeit, welche die Ergebniskonsistenz verringert, und stützen sich überwiegend auf gemeinsame Vorkommen. Offenbarte Ausführungsformen behandeln und bewältigen diese Herausforderungen anhand einer halbüberwachten Methode, indem sie sowohl strukturierte klinische Vermerke als auch unstrukturierte klinische Vermerke verwenden, indem sie auf eine globale Art und Weise einsetzbar sind, über flexible Merkmalsextraktionen verfügen, eine Integration einer Methode nach Bayes verwenden, eine Einheit für die neuronale Nachbesserung von Entitätspaaren verwenden, Portabilität aufweisen und konsistentere Ergebnisse erbringen können.
Ausführungsformen der Offenbarung beziehen sich auf ein System, Verfahren und Computerprogrammprodukt für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik. Ein Satz von Ereignisdaten, der einem Satz von Ereignissen entspricht, kann festgestellt werden. Unter Verwendung der IMTM-Technik kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, analysiert werden. Auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik kann ein Satz von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen kann ein Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen erstellt werden. Insgesamt können Ausführungsformen der Offenbarung Leistungs- oder Effizienzvorteile haben. Hier beschriebene Ausführungsformen können den Verbrauch von Ressourcen wie Bandbreite, Festplattenspeicher, Verarbeitungskapazität oder Arbeitsspeicher verringern.
Bei Ausführungsformen wird der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, unter Verwendung der IMTM-Technik eingespeist. Eine bestimmte Gruppe von Erwähnungselementen des Satzes von Ereignisdaten kann unter Verwendung der IMTM-Technik verarbeitet werden. Somit kann ein betreffendes Erwähnungselement der bestimmten Gruppe von Erwähnungselementen mit einem oder mehreren klar unterscheidbaren Entitätselementen korrelieren. Bei verschiedenen Ausführungsformen kann der Satz von Daten, der dem Satz von Ereignissen entspricht, unter Verwendung einer Ähnlichkeitsmetrik und auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik geclustert werden. Bei bestimmten Ausführungsformen kann ein Satz von IMTM-Parametern zur Verwendung durch die IMTM-Technik abgeleitet werden, indem in Bezug auf den Satz von Ereignisdaten eine Gibbs-Sampling-Methode verwendet wird.
Bei Ausführungsformen kann der Satz von Entitätsmodellen für den Satz von Ereignissen unter Verwendung einer NEPR-Methode (Neural Entity Pair Refining, neuronale Nachbesserung von Entitätspaaren) analysiert werden. Auf Grundlage eines Analysierens des Satzes von Entitätsmodellen unter Verwendung der NEPR-Methode kann der Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Bei verschiedenen Ausführungsformen kann unter Verwendung einer Methode zur Verarbeitung natürlicher Sprache ein Satz von Merkmalen extrahiert werden. Der Satz von Merkmalen kann sowohl durch den Satz von Entitätsmodellen angegeben als auch aus dem Satz von Ereignisdaten abgeleitet werden. Die Verwendung der IMTM-Technik in Verbindung mit der NEPR-Methode kann verschiedene Leistungs- oder Effizienzvorteile bereitstellen.
In Bezug auf die Figuren ist 1 eine schematische Darstellung einer beispielhaften Datenverarbeitungsumgebung im Einklang mit Ausführungsformen der vorliegenden Offenbarung. Bei bestimmten Ausführungsformen kann die Umgebung 100 eine oder mehrere entfernte Einheiten 102, 112 und eine oder mehrere Host-Einheiten 122 beinhalten. Die entfernten Einheiten 102, 112 und die Host-Einheit 122 können voneinander entfernt sein und über ein Netzwerk 150, in dem die Host-Einheit 122 einen zentralen Knotenpunkt aufweist, über den die entfernten Einheiten 102, 112 eine Datenübertragungsverbindung herstellen können, Daten austauschen. Alternativ können die Host-Einheit und die entfernten Einheiten in einer beliebigen anderen geeigneten Beziehung zueinander konfiguriert sein (z.B. in einer Peer-to-Peer- oder anderen Beziehung).
Bei bestimmten Ausführungsformen kann das Netzwerk 100 durch eine beliebige Anzahl beliebiger geeigneter Datenübertragungsmedien (z.B. ein Weitverkehrsnetzwerk (Wide Area Network, WAN), ein lokales Netzwerk (Local Area Network, LAN), das Internet, ein Intranet usw.) realisiert sein. Alternativ können die entfernten Einheiten 102, 112 und die Host-Einheiten 122 lokal angeordnet sein und über ein beliebiges geeignetes lokales Datenübertragungsmedium (z.B. ein LAN, eine drahtgebundene Verbindung, eine drahtlose Verbindung, ein Intranet usw.) Daten austauschen. Bei bestimmten Ausführungsformen kann das Netzwerk 100 innerhalb einer Cloud-Computing-Umgebung oder unter Verwendung eines oder mehrerer Cloud-Computing-Dienste realisiert sein. Im Einklang mit verschiedenen Ausführungsformen kann eine Cloud-Computing-Umgebung ein verteiltes Datenverarbeitungssystem auf Netzwerkgrundlage beinhalten, das einen oder mehrere Cloud-Computing-Dienste bereitstellt. Bei bestimmten Ausführungsformen kann eine Cloud-Computing-Umgebung viele Computer, d.h. hunderte oder tausende, beinhalten, die innerhalb eines oder mehrerer Rechenzentren angeordnet und konfiguriert sind, um Ressourcen über das Netzwerk gemeinsam zu nutzen.
Bei bestimmten Ausführungsformen kann die Host-Einheit 122 ein Fragenbeantwortungssystem 130 (hier auch als ein QA-System bezeichnet (Question Answering, Fragenbeantwortung)) beinhalten, das über eine Suchanwendung 134 und ein Antwortmodul 132 verfügt. Bei bestimmten Ausführungsformen kann die Suchanwendung durch eine herkömmliche oder andere Suchmaschine realisiert und auf mehrere Computersysteme verteilt sein. Die Suchanwendung 134 kann konfiguriert sein, um eine oder mehrere Datenbanken oder andere Computersysteme auf Inhalt zu durchsuchen, der sich auf eine Frage bezieht, die durch einen Benutzer an einer entfernten Einheit 102, 112 eingegeben wird.
Bei bestimmten Ausführungsformen ermöglichen die entfernten Einheiten 102, 112 den Benutzern, Fragen (z.B. Suchanforderungen oder andere Abfragen) an die Host-Einheiten 122 zu stellen, um Suchergebnisse abzurufen. So können die entfernten Einheiten 102, 112 zum Beispiel ein Abfragemodul 120 (z.B. in Gestalt eines Web-Browsers oder eines beliebigen anderen geeigneten Software-Moduls) beinhalten und eine grafische Benutzerschnittstelle (z.B. eine GUI (Graphical User Interface, grafische Benutzeroberfläche) usw.) oder eine andere Benutzeroberfläche (z.B. Eingabeaufforderungen, Menüanzeigen usw.) anzeigen, um Abfragen von Benutzern zur Übermittlung an eine oder mehrere Host-Einheiten 122 zu ermöglichen und des Weiteren Antworten/Ergebnisse vorzulegen, die von den Host-Einheiten 122 in Verbindung mit solchen Abfragen erhalten werden.
Im Einklang mit verschiedenen Ausführungsformen können die Host-Einheit 122 und die entfernten Einheiten 102, 112 Computersysteme sein, die vorzugsweise mit einer Anzeige oder einem Bildschirm ausgestattet sind. Bei bestimmten Ausführungsformen können die Computersysteme mindestens einen Prozessor 106, 116, 126, Arbeitsspeicher 108, 118, 128 und/oder interne oder externe Netzwerkschnittstellen- oder Datenübertragungseinheiten 104, 114, 124 (z.B. einen Modem, Netzwerkkarten usw.), optionale Eingabeeinheiten (z.B. eine Tastatur, Maus oder andere Eingabeeinheit) sowie jede handelsübliche und kundenspezifische Software (z.B. Browser-Software, Server-Software, Software zur Verarbeitung natürlicher Sprache, Suchmaschinen- und/oder Web-Crawling-Software, Filtermodule zum Filtern von Inhalt auf Grundlage vordefinierter Kriterien usw.) beinhalten. Bei bestimmten Ausführungsformen können die Computersysteme Server-, Desktop-, Laptop und Handheld-Einheiten beinhalten. Zusätzlich kann das Antwortmodul 132 ein oder mehrere Module oder Einheiten beinhalten, um die verschiedenen Funktionen von im Folgenden beschriebenen Ausführungsformen der vorliegenden Offenbarung (z.B. Empfangen einer Eingabefrage, Beurteilen der Qualität der Eingabefrage, Zuweisen eines Satzes von Qualitätswerten und Erzeugen eines Symbols) durchzuführen, und durch eine beliebige Kombination aus einer beliebigen Anzahl von Software- und/oder Hardware-Modulen oder - Einheiten realisiert sein.
2 ist ein Systemschaubild, das eine allgemeine logische Architektur 200 für ein (hier auch als ein QA-System bezeichnetes) Fragenbeantwortungssystem im Einklang mit Ausführungsformen der vorliegenden Offenbarung darstellt. Teile von 2 sind auf Komponenten zur Verwendung mit einem QA-System gerichtet. Bei bestimmten Ausführungsformen kann die Fragenanalysekomponente 204 eine natürlichsprachliche Frage von einer entfernten Einheit 202 empfangen und die Frage analysieren, um mindestens den semantischen Typ der erwarteten Antwort zu erzeugen. Die Suchkomponente 206 kann aus der Ausgabe der Fragenanalysekomponente 204 Abfragen formulieren und verschiedene Ressourcen wie z.B. das Internet oder eine oder mehrere Wissensressourcen wie z.B. Datenbanken und Korpora 208 heranziehen, um Dokumente, Textpassagen, Web-Seiten, Datenbanktupel usw. abzurufen, die für eine Beantwortung der Frage relevant sind. Wie in 2 gezeigt, kann die Suchkomponente 206 bei bestimmten Ausführungsformen zum Beispiel einen Korpus 208 von Informationen auf einer Host-Einheit 225 heranziehen. Die Komponente 210 zur Erzeugung von Kandidaten-Antworten kann dann aus den Suchergebnissen mögliche (Kandidaten-)Antworten auf die Frage extrahieren, die daraufhin durch die Antwortauswahlkomponente 212, die eine endgültige, nach der Rangordnung sortierte Liste von Antworten mit zugehörigen Konfidenzmesswerten erzeugen kann, mit einer Wertung und einer Rangordnung versehen werden können.
Die oben beschriebenen verschiedenen Komponenten der beispielhaften allgemeinen logischen Architektur für ein QA-System können verwendet werden, um verschiedene Merkmale einer Ausführungsform der vorliegenden Offenbarung zu realisieren. So kann die Fragenanalysekomponente 204 bei bestimmten Ausführungsformen zum Beispiel verwendet werden, um eine natürlichsprachliche Frage zu verarbeiten, für die relevante Bilder bereitgestellt werden können. Des Weiteren kann die Suchkomponente 206 bei bestimmten Ausführungsformen verwendet werden, um in einem Korpus 208 von Informationen eine Suche nach einem Satz von Bildern durchzuführen, die mit einer Antwort auf eine Eingabefrage an das QA-System in Verbindung stehen. Die Kandidaten-Erzeugungskomponente 210 kann verwendet werden, um auf Grundlage der Ergebnisse der Suchkomponente 206 einen Satz von Kandidaten-Bildern zu identifizieren. Des Weiteren kann die Antwortauswahlkomponente 212 bei bestimmten Ausführungsformen verwendet werden, um einen Teilsatz des Satzes von Kandidaten-Bildern zu ermitteln und auszuwählen, um ihn in einem Anzeigebereich bereitzustellen. Bei bestimmten Ausführungsformen kann die Ermittlung des Teilsatzes der Kandidaten-Bilder auf Grundlage eines Konfidenzwerts des Satzes von Bildern und einer bestimmten Anzeigespezifikation erfolgen.
3 ist ein Blockschaubild, das ein (hier auch als ein QA-System bezeichnetes) Fragenbeantwortungssystem zum Erzeugen von Antworten auf eine oder mehrere Eingabefragen im Einklang mit verschiedenen Ausführungsformen der vorliegenden Offenbarung zeigt. Teile von 3 sind auf eine beispielhafte Systemarchitektur 300 eines Fragenbeantwortungssystems 312 zum Erzeugen von Antworten auf Abfragen (z.B. Eingabefragen) gerichtet. Bei bestimmten Ausführungsformen können ein oder mehrere Benutzer unter Verwendung einer entfernten Einheit (wie z.B. den entfernten Einheiten 102, 112 aus 1) Informationsanforderungen an das QA-System 312 senden. Das QA-System 312 kann Verfahren und Methoden zum Beantworten der Anforderungen durchführen, die von einer oder mehreren Client-Anwendungen 308 gesendet werden. Die Client-Anwendungen 308 können eine oder mehrere Entitäten einbeziehen, die imstande sind, Ereignisse zu erzeugen, die über ein Netzwerk 315 an das QA-System 312 versendet werden. Bei bestimmten Ausführungsformen können die in dem QA-System 312 empfangenen Ereignisse Eingabefragen entsprechen, die von Benutzer empfangen wurden, wobei die Eingabefragen in einer freien Form und in natürlicher Sprache ausgedrückt werden können.
Eine Frage (hier analog als eine Abfrage bezeichnet) kann aus einem oder mehreren Wörtern bestehen, die einen Suchbegriff oder eine Anforderung von Daten, Informationen oder Wissen bilden. Eine Frage kann in Form von einem oder mehreren Schlüsselwörtern ausgedrückt werden. Fragen können verschiedene Auswahlkriterien und Suchbegriffe beinhalten. Eine Frage kann nicht nur aus Schlüsselwörtern, sondern aus komplexen linguistischen Merkmalen bestehen. Allerdings ist auch eine Suche auf Schlüsselwortgrundlage nach einer Antwort möglich. Bei bestimmten Ausführungsformen ist eine nicht eingeschränkte Syntax für Fragen, die von Benutzern gestellt werden, ermöglicht. Die Verwendung einer eingeschränkten Syntax führt zu einer Vielfalt von alternativen Ausdrücken, mit denen die Benutzer ihren Erfordernissen besser Ausdruck verleihen können.
Im Einklang mit verschiedenen Ausführungsformen können die Client-Anwendungen 308 eine oder mehrere Komponenten wie z.B. eine Suchanwendung 302 und einen mobilen Client 310 beinhalten. Die Client-Anwendungen 308 können auf einer Vielfalt von Einheiten ausgeführt werden. Solche Einheiten beinhalten, ohne darauf beschränkt zu sein, mobile und Handheld-Einheiten wie z.B. Laptops, Mobiltelefone, persönliche oder im Unternehmen verwendete digitale Assistenten und dergleichen; Personal Computer, Server oder andere Computersysteme, die auf die Dienste und die Funktionalität zugreifen, die durch das QA-System 312 bereitgestellt werden. Zum Beispiel kann der mobile Client 310 eine Anwendung sein, die auf einer mobilen oder anderen Handheld-Einheit installiert ist. Bei bestimmten Ausführungsformen kann der mobile Client 310 Abfrageanforderungen an das QA-System 312 versenden.
Im Einklang mit verschiedenen Ausführungsformen kann die Suchanwendung 302 Informationsanforderungen an das QA-System 312 senden. Bei bestimmten Ausführungsformen kann die Suchanwendung 302 eine Client-Anwendung des QA-Systems 312 sein. Bei bestimmten Ausführungsformen kann die Suchanwendung 302 Antwortanforderungen an das QA-System 312 senden. Die Suchanwendung 302 kann auf einem Personal Computer, einem Server oder anderen Computersystem installiert sein. Bei bestimmten Ausführungsformen kann die Suchanwendung 302 eine grafische Such-Benutzeroberfläche (Graphical User Interface, GUI) 304 und einen Session-Manager 306 beinhalten. Benutzer können Fragen in der Such-GUI 304 eingeben. Bei bestimmten Ausführungsformen kann die Such-GUI 304 ein Suchfeld oder eine andere GUI-Komponente sein, deren Inhalt für eine Frage steht, die an das QA-System 312 gestellt werden soll. Benutzer können über den Sitzungsverwalter 306 ihre Berechtigung gegenüber dem QA-System 312 nachweisen. Bei bestimmten Ausführungsformen verfolgt der Sitzungsverwalter 306 eine Benutzeraktivität über Sitzungen einer Interaktion mit dem QA-System 312 hinweg. Der Sitzungsverwalter 306 kann verfolgen, welche Fragen innerhalb der Dauer einer Sitzung eines Benutzers gestellt werden. Zum Beispiel kann der Sitzungsverwalter 306 eine Abfolge von Fragen speichern, die durch einen Benutzer während einer Sitzung gestellt werden. Bei bestimmten Ausführungsformen können auch Antworten, die durch das QA-System 306 als Reaktion auf Fragen, die im Verlauf einer Benutzersitzung gestellt werden, gespeichert werden. Informationen zu Sitzungen, die durch den Sitzungsverwalter 306 verwaltet werden, können von Computersystemen und Einheiten gemeinsam genutzt werden.
Bei bestimmten Ausführungsformen können die Client-Anwendungen 308 und das QA-System 312 über ein Netzwerk 315 wie z.B. das Internet, ein Intranet oder ein anderes öffentliches oder privates Computernetzwerk kommunikativ gekoppelt sein. Bei bestimmten Ausführungsformen können das QA-System 312 und die Client-Anwendungen 308 unter Verwendung von HTTP- (Hypertext Transfer Protocol) oder REST-Aufrufen (Representational State Transfer) Daten austauschen. Bei bestimmten Ausführungsformen kann sich das QA-System 312 auf einem Server-Knoten befinden. Die Client-Anwendungen 308 können eine Server-Client-Datenübertragung mit dem QA-System 312 oder umgekehrt herstellen. Bei bestimmten Ausführungsformen kann das Netzwerk 315 innerhalb einer Cloud-Computing-Umgebung oder unter Verwendung eines oder mehrerer Cloud-Computing-Dienste realisiert sein. Im Einklang mit verschiedenen Ausführungsformen kann eine Cloud-Computing-Umgebung ein verteiltes Datenverarbeitungssystem auf Netzwerkgrundlage beinhalten, das einen oder mehrere Cloud-Computing-Dienste bereitstellt.
Im Einklang mit verschiedenen Ausführungsformen kann das QA-System 312 auf die Informationsanforderungen antworten, die durch die Client-Anwendungen 307 gesendet werden, z.B. auf Fragen, die durch Benutzer gestellt werden. Das QA-System 312 kann Antworten auf die empfangenen Fragen erzeugen. Bei bestimmten Ausführungsformen kann das QA-System 312 einen Fragenanalysator 314, Datenquellen 324 und einen Antworterzeuger 328 beinhalten. Der Fragenanalysator 314 kann ein Computermodul sein, das die empfangenen Fragen analysiert. Bei bestimmten Ausführungsformen kann der Fragenanalysator 314 verschiedene Verfahren und Methoden zum syntaktischen und semantischen Analysieren der Fragen durchführen. Bei bestimmten Ausführungsformen kann der Fragenanalysator 314 die empfangenen Fragen parsen. Der Fragenanalysator 314 kann verschiedene Module beinhalten, um Analysen von empfangenen Fragen durchzuführen. Zum Beispiel können Computermodule, die den Analysator 314 abfragen, einen Token-Erzeuger 316, einen POS-Tagger (Part of Speech, Wortart) 318, eine semantische Beziehungsidentifikation 320 und eine syntaktische Beziehungsidentifikation 322 beinhalten, ohne darauf beschränkt zu sein.
Im Einklang mit verschiedenen Ausführungsformen kann der Token-Erzeuger 316 ein Computermodul sein, das eine lexikalische Analyse durchführt. Der Token-Erzeuger 316 kann eine Folge von Zeichen in eine Folge von Token umwandeln. Token können eine Zeichenkette sein, die durch einen Benutzer eingegeben und als ein bedeutungsvolles Symbol kategorisiert wird. Des Weiteren kann bei bestimmten Ausführungsformen der Token-Erzeuger 316 Wortgrenzen in einer Eingabefrage identifizieren und die Frage oder einen beliebigen Text in ihre/seine Bestandteile wie z.B. Wörter, Mehrwort-Token, Zahlen und Satzzeichen zerlegen. Bei bestimmten Ausführungsformen kann der Token-Erzeuger 316 eine Zeichenkette empfangen, die Lexeme in der Kette identifizieren und sie in Token kategorisieren.
Im Einklang mit verschiedenen Ausführungsformen kann der POS-Tagger 318 (Part of Speech, Wortart) ein Computermodul sein, das ein Wort in einem Text als einer bestimmten Wortart entsprechend kennzeichnet. Der POS-Tagger 318 kann eine Frage oder einen anderen Text in natürlicher Sprache lesen und jedem Wort oder anderen Token eine Wortart zuweisen. Auf Grundlage der Definition des Worts und des Kontexts des Worts kann der POS-Tagger 318 die Wortart ermitteln, der ein Wort entspricht. Als Grundlage für den Kontext eines Worts kann seine Beziehung zu benachbarten und verwandten Wörtern in einer Phrase, einem Satz, einer Frage oder einem Absatz dienen. Bei bestimmten Ausführungsformen kann ein Kontext eines Worts von einer oder mehreren zuvor gestellten Fragen abhängig sein. Beispiele von Wortarten, die Wörtern zugewiesen sein können, beinhalten Nomen, Verben, Adjektive, Adverbien und dergleichen, ohne darauf beschränkt zu sein. Beispiele für andere Wortartkategorien, die der POS-Tagger 318 zuweisen kann, beinhalten Komparativ- und Superlativformen von Adverbien, Frageadverbien, Konjunktionen, Bestimmungswörter, Negationspartikel, Possessivpronomen, Präpositionen, Fragepronomen und dergleichen, ohne darauf beschränkt zu sein. Bei bestimmten Ausführungsformen kann der POS-Tagger 316 Token einer Frage mit einer Markierung für Wortartkategorien versehen oder anderweitig annotieren. Bei bestimmten Ausführungsformen kann der POS-Tagger 316 Token oder Wörter einer Frage, die durch das QA-System 312 geparst werden soll, mit einer Markierung versehen.
Im Einklang mit verschiedenen Ausführungsformen kann die semantische Beziehungsidentifikation 320 ein Computermodul sein, das semantische Beziehungen von erkannten Entitäten in Fragen identifizieren kann, die durch Benutzer gestellt werden. Bei bestimmten Ausführungsformen kann die semantische Beziehungsidentifizierung 320 funktionale Abhängigkeiten zwischen Entitäten, die einem Mitglied zugehörige Dimension und andere semantische Beziehungen ermitteln.
Im Einklang mit verschiedenen Ausführungsformen kann die syntaktische Beziehungsidentifikation 322 ein Computermodul sein, das syntaktische Beziehungen in einer aus Token bestehenden Frage identifizieren kann, die durch Benutzer an das QA-System gestellt wird. Die syntaktische Beziehungsidentifikation 322 kann die grammatikalische Struktur von Sätzen ermitteln, zum Beispiel, welche Gruppen von Wörtern „Phrasen“ zugehörig sind und welches Wort das Subjekt oder Objekt eines Verbs ist. Bei bestimmten Ausführungsformen kann die syntaktische Beziehungsidentifikation 322 einer formalen Grammatik entsprechen.
Bei bestimmten Ausführungsformen kann der Fragenanalysator 314 ein Computermodul sein, das eine empfangene Abfrage parsen und eine entsprechende Datenstruktur der Abfrage erzeugen kann. Zum Beispiel kann der Fragenanalysator 314 als Reaktion auf ein Empfangen einer Frage in dem QA-System 312 die geparste Frage als eine Datenstruktur ausgeben. Bei bestimmten Ausführungsformen kann die geparste Frage in der Form eines Parse-Baums oder einer anderen Graphenstruktur dargestellt werden. Um die geparste Frage zu erzeugen, kann der Fragenanalysator 130 die Computermodule 132 bis 144 auslösen. Der Fragenanalysator 130 kann eine Funktionalität verwenden, die einzeln oder in Kombination durch die Computermodule 316 bis 322 bereitgestellt wird. Zusätzlich kann der Fragenanalysator 130 bei bestimmten Ausführungsformen externe Computersysteme für zweckbestimmte Aufgaben verwenden, die Teil des Syntax-Parse-Prozesses von Fragen sind.
Im Einklang mit verschiedenen Ausführungsformen kann die Ausgabe des Fragenanalysators 314 durch das QA-System 312 verwendet werden, um eine Suche in einer oder mehreren Datenquellen 324 durchzuführen, um Informationen zur Beantwortung einer durch einen Benutzer gestellten Frage abzurufen. Bei bestimmten Ausführungsformen können die Datenquellen 324 Data Warehouses, Informationenkorpora, Datenmodelle und Dokumenten-Repositories beinhalten. Bei bestimmten Ausführungsformen kann die Datenquelle 324 ein Informationenkorpus 326 sein. Der Informationenkorpus 326 kann eine Datenspeicherung und einen Datenabruf ermöglichen. Bei bestimmten Ausführungsformen kann der Informationenkorpus 326 ein Speichermechanismus sein, der eine standardisierte, konsistente, bereinigte und integrierte Form von Daten enthält. Die Daten können aus verschiedenen Arbeitssystemen stammen. In dem Informationenkorpus 326 gespeicherte Daten können so strukturiert sein, dass sie gezielt Berichterstellungs- und Analyseanforderungen berücksichtigen. Bei einer Ausführungsform kann der Informationenkorpus eine relationale Datenbank sein (die z.B. mit einer Ontologie übereinstimmt). Bei manchen Beispielausführungsformen können die Datenquellen 324 ein oder mehrere Dokumenten-Repositories beinhalten.
Bei bestimmten Ausführungsformen kann der Antworterzeuger 328 ein Computermodul sein, das Antworten auf gestellte Fragen erzeugt. Beispiele für Antworten, die durch den Antworterzeuger 328 erzeugt werden, können Antworten in Form von natürlichsprachlichen Sätzen; Berichte, Diagramme oder eine andere analytische Darstellung; Rohdaten; Web-Seiten und dergleichen beinhalten, ohne darauf beschränkt zu sein.
Im Einklang mit verschiedenen Ausführungsformen kann der Antworterzeuger 328 einen Abfrageprozessor 330, einen Visualisierungsprozessor 332 und eine Feedback-Routine 334 beinhalten. Wenn in einer Datenquelle 324 Informationen gefunden werden, die einer geparsten Frage entsprechen, kann durch den Abfrageprozessor 330 eine dem Muster zugehörige technische Abfrage ausgeführt werden. Auf Grundlage der durch eine technische Abfrage, die durch den Abfrageprozessor 330 ausgeführt wird, abgerufenen Daten kann der Visualisierungsprozessor 332 eine Visualisierung der abgerufenen Daten ausgeben, wobei die Visualisierung die Antwort darstellt. Bei bestimmten Ausführungsformen kann der Visualisierungsprozessor 332 verschiedene Analysen ausgeben, um die Antwort darzustellen, darunter Bilder, Diagramme, Tabellen, Dashboards, Karten und dergleichen, ohne darauf beschränkt zu sein. Bei bestimmten Ausführungsformen kann der Visualisierungsprozessor 332 dem Benutzer die Antwort in verständlicher Form vorlegen.
Bei bestimmten Ausführungsformen kann die Feedback-Routine 334 ein Computermodul sein, das Feedback von Benutzern zu Antworten verarbeitet, die durch den Antworterzeuger 328 erzeugt wurden. Bei bestimmten Ausführungsformen kann der Benutzer in einen Dialog mit dem QA-System 312 treten, um die Relevanz der empfangenen Antworten zu beurteilen. Der Antworterzeuger 328 kann eine Liste von Antworten erzeugen, die einer durch einen Benutzer gestellten Frage entsprechen. Der Benutzer kann jeder Antwort gemäß ihrer Relevanz für die Frage einen Rang zuweisen. Bei bestimmten Ausführungsformen kann das Feedback von Benutzern zu erzeugten Antworten für künftige Fragenbeantwortungssitzungen verwendet werden.
Die verschiedenen Komponenten des oben beschriebenen beispielhaften Fragenbeantwortungssystems können verwendet werden, um verschiedene Ausführungsformen der vorliegenden Offenbarung zu realisieren. Zum Beispiel kann die Client-Anwendung 308 verwendet werden, um eine Eingabefrage mit einem Satz von Abfrageattributen zu empfangen. Der Fragenanalysator 314 kann bei bestimmten Ausführungsformen verwendet werden, um die Qualität der Eingabefrage zu beurteilen, indem der Satz von Abfrageattributen mit einem Satz von Bewertungskriterien verglichen wird. Des Weiteren kann das Fragenbeantwortungssystem 312 bei bestimmten Ausführungsformen verwendet werden, um eine Suche in einem Informationenkorpus 326 nach Daten durchzuführen, die eine Antwort auf die Eingabefrage bereitstellen können. Der Antworterzeuger 328 kann verwendet werden, um dem Satz von Abfrageattributen einen Satz von Qualitätswerten zuzuweisen sowie den zugewiesenen Satz von Qualitätswerten und den Satz von Abfrageattributen zum Erzeugen eines Symbols zu verwenden, das eine visuelle Darstellung der Qualität der Eingabefrage angibt. Des Weiteren kann der Visualisierungsprozessor 332 bei bestimmten Ausführungsformen verwendet werden, um das Symbol (z.B. ein digitales Gesichtssymbol) in einem bestimmten Anzeigebereich auszugeben.
4 ist ein Ablaufplan, der ein Verfahren 400 für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik zeigt. Teile können halbüberwacht und in hohem Maße portabel sein. Merkmale können eine Abhängigkeit von manuellen Annotationen koreferenzierender Beziehungen unterhalb eines Schwellenwerts aufweisen (z.B. begrenzte Abhängigkeiten). Entsprechend kann unterhalb eines Schwellenwerts liegendes Wissen notwendig sein (z.B. kann ein begrenztes Wissen notwendig sein). Elemente können in eine Cloud-Computing-Umgebung integriert sein. Koreferenzketten, die zwischen klinischen Vermerken hergestellt werden, können die Herstellung eines robusten Systems zur Unterstützung von klinischen Entscheidungen erleichtern. Entsprechend können sich daraus positive Auswirkungen auf die Kohortenidentifizierung, die Analyse des Patientenrisikos und verschiedene Prognosen oder Vorhersagen ergeben. Das Verfahren 400 beginnt in Block 401.
In Block 420 kann ein Satz von Ereignisdaten festgestellt werden. Der Satz von Ereignisdaten kann einem Satz von Ereignissen entsprechen. Im Allgemeinen kann das Feststellen ein Erfassen, Bestimmen, Erkennen, Auflösen oder anderweitiges Identifizieren des Satzes von Ereignisdaten beinhalten. Der Satz von Ereignissen kann Statistiken, Bedingungen, Daseinsweisen, Umstände und dergleichen beinhalten. Zum Beispiel kann der Satz von Ereignissen im medizinischen Kontext erkrankt, krank, schwanger, Erbrechen, Übelkeit, gastrointestinale Symptome, Remission, Knochenbruch, Tumorwachstum oder dergleichen beinhalten. Der Satz von Ereignisdaten kann Kennungen beinhalten, die für die Ereignisse stehen. Zum Beispiel kann das Wort „schwanger“ eine schwangere Person angeben. Entsprechend kann auch die Beschreibung „in anderen Umständen“ angeben, dass die Person schwanger ist. Daten wie z.B. 39 °C Fieber können angeben, dass eine Person Grippe hat. Entsprechend kann der Satz von Ereignisdaten in einem strukturierten oder unstrukturierten Format vorliegen. Somit kann der Satz von Ereignisdaten in klinischen Vermerken festgestellt werden, die in natürlichsprachlichem Computertext, handgeschriebenem Text, einer relationalen Datenbank oder verschiedenen anderen hiermit in Einklang stehenden Formaten vorliegen können.
In Block 440 kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, analysiert werden. Das Analysieren kann unter Verwendung der IMTM-Technik durchgeführt werden. Zum Beispiel kann das Analysieren ein Extrahieren (z.B. Erzeugen einer Ableitung), Untersuchen (z.B. Durchführen einer Prüfung), Abtasten (z.B. Überprüfen einer Probe), Beurteilen (z.B. Erzeugen einer Einschätzung), Zergliedern (z.B. Untersuchen eines Attributs), Auflösen (z.B. Nachprüfen einer Beobachtung/Schlussfolgerung/Antwort), Parsen (z.B. Entziffern eines Konstrukts), Abfragen (z.B. Stellen einer Frage), Suchen (z.B. Erkunden eines/einer Grunds/Begründung/Motivation), Vergleichen (z.B. In-Beziehung-Setzen einer Bewertung), Klassifizieren (z.B. Zuweisen einer Bestimmung) oder Kategorisieren (z.B. Organisieren nach einem Merkmal) beinhalten. Die Datenanalyse kann einen Prozess eines Prüfens, Bereinigens, Umformens oder Modellierens von Daten beinhalten, um nützliche Informationen zu bestimmen, Schlussfolgerungen vorzuschlagen oder Entscheidungen zu unterstützen. Die Datenanalyse kann Informationen/Muster aus einem Datensatz extrahieren und zur weiteren Verwendung in eine verständliche Struktur (z.B. einen Datenbericht, der bereitgestellt/geliefert werden kann) umformen/übersetzen. Zum Beispiel kann die IMTM-Technik eine oder mehrere koreferenzierende Beziehungen zwischen einer Mehrzahl von Erwähnungen auflösen. Zur Veranschaulichung kann eine Ähnlichkeitsmessung zwischen zwei Erwähnungen die Wahrscheinlichkeit beurteilen, dass zwei Erwähnungen koreferenzierend sind. Anhand der Ähnlichkeitswertung kann ermittelt werden, ob es einen Vorgänger der betreffenden Erwähnung gibt.
In Block 460 kann ein Satz von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Das Ermitteln kann auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik durchgeführt werden. Im Allgemeinen kann das Ermitteln ein Formulieren, Auflösen, Berechnen, Errechnen, Identifizieren oder anderweitiges Nachprüfen des Satzes von Entitätsmodellen beinhalten. Zum Beispiel können in Bezug auf den Text: „Die Patientin stellt sich mit gastrointestinalen Symptomen wie Übelkeit, Erbrechen vor. Sie hat die Symptome bereits seit zehn Tagen. Tatsächlich hat sie das Problem bereits seit der früheren Schwangerschaft, jedoch verstärkt seit zehn Tagen.“ verschiedene Erwähnungen extrahiert werden wie: „Die Patienten, gastrointestinale Symptome, Übelkeit, Erbrechen, sie, Symptome, dieses Problem, frühe Schwangerschaft“. Entsprechend können ein oder mehrere Entitäten wie z.B. „die Patientin, gastrointestinale Symptome, Übelkeit, Erbrechen, frühe Schwangerschaft“ abgeleitet werden. Entsprechend kann davon ausgegangen werden, dass in dem kurzen Text fünf Entitäten bestimmt wurden, die fünf Entitätsmodelle bilden. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
Bei Ausführungsformen kann der Satz von Ereignismodellen konfiguriert sein, um in Block 461 einen Satz von Entitätsketten zu beinhalten. Der Teilsatz des Satzes von Entitätsmodellen kann konfiguriert sein, um einen Teilsatz des Satzes von Entitätsketten zu beinhalten. In klinischen Vermerken kann es eine erhebliche Anzahl von einzelnen Erwähnungen mit einer langen Kette von Patientenerwähnungen geben. Erwähnungen können auf Grundlage einer Ähnlichkeit unter Verwendung von Methoden des maschinellen Lernens wie z.B. der Verarbeitung natürlicher Sprache verkettet sein. Verschiedene in Verbindung stehende Elemente können in einer Entitätskette abgebildet oder verknüpft sein. Die Erwähnungen können verknüpft sein, z.B. wenn sie eine ähnliche/dieselbe Bedeutung im Kontext aufweisen (z.B. „sie ist in anderen Umständen“ und „sie ist schwanger“, „fühlt sich nicht ganz gesund“ und „krank, aber nicht allzu sehr“). Bei Ausführungsformen kann der Satz von Ereignismodellen konfiguriert sein, um in Block 462 einen Satz von identischen Entitätsketten zu beinhalten. Der Teilsatz des Satzes von Entitätsmodellen kann konfiguriert sein, um einen Teilsatz des Satzes von identischen Entitätsketten zu beinhalten. Die identischen Entitätsketten können dieselbe Bedeutung (z.B. „hat eine um 1,7 °C erhöhte Temperatur“ und „hat eine Temperatur von 38,7 °C“) oder einen identischen Wortlaut (z.B. „übelkeit“ und „Übelkeit“) oder Ähnliches aufweisen. Verschiedene Entitätsketten sind ebenfalls möglich. Bei Ausführungsformen kann der Satz von Ereignismodellen konfiguriert sein, um in Block 463 mindestens eine Koreferenzauflösung anzugeben. Die Koreferenzauflösung kann Ausdrücke beinhalten, die sich auf dasselbe Element/dieselbe Entität in einem Text beziehen. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
In Block 480 kann ein Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen erstellt werden. Im Allgemeinen kann das Erstellen ein Erzeugen, Instanziieren, Formulieren, Herstellen, Schaffen, Zusammensetzen, Strukturieren, Produzieren oder anderweitiges Erzeugen beinhalten. Das Erstellen kann auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen durchgeführt werden. Bei Ausführungsformen können alle Entitätsmodelle für den Satz von Ereignissen erstellt werden. Bei bestimmten Ausführungsformen können weniger als alle Entitätsmodelle für den Satz von Ereignissen erstellt werden. Bei verschiedenen Ausführungsformen kann der Teilsatz des Satzes von Entitätsmodellen konfiguriert werden, um ein einziges Entitätsmodell zu beinhalten (indem z.B. eine einzige Kette erzeugt wird). Entsprechend kann eine Auswahl auf Grundlage eines gewichteten Werts dessen erfolgen, was als die „besten“ Ketten betrachtet wird. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
Das Verfahren 400 endet in Block 499. Ausführungsformen des Verfahrens 400 können in Verbindung mit der Entitätsmodell-Erstellung Leistungs- oder Effizienzvorteile bereitstellen. Ausführungsformen können ein vergleichsweise allgemeineres Rahmenwerk in Bezug auf verschiedene Aufgaben zur Beziehungsfeststellung beinhalten. Elemente können eine Auflösung von zeitlichen Beziehungen und eine Herstellung von Zeitreihenketten für Langzeitdaten beinhalten. Eine benannte Entitätsfeststellung und Beziehungsbestimmung können für sie ermöglicht werden. Ein semantisches Netzwerk kann verbessert werden. Ein vergleichsweise genauerer Wissensgraph kann erstellt werden. Merkmale können an Arzneimittel-Wechselwirkungsstudien in der medizinischen Informatik angepasst werden. Bei Ausführungsformen kann eine Bestimmung der Beziehung zwischen Arzneimittel und Erkrankung erfolgen. Ein Rahmenwerk zur Bestimmung von Genmustern kann erstellt und zusammengesetzt werden. Ausführungsformen können den Verbrauch von Ressourcen wie Bandbreite, Festplattenspeicher, Verarbeitungskapazität oder Arbeitsspeicher verringern.
5 ist ein Ablaufplan, der ein Verfahren 500 für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik zeigt. Teile des Verfahrens 500 können ähnlich oder identisch mit Teilen der Verfahren 400/600/700 sein, und Teile können austauschbar verwendet werden. Das Verfahren 500 beginnt in Block 501. In Block 520 kann ein Satz von Ereignisdaten festgestellt werden. Der Satz von Ereignisdaten kann einem Satz von Ereignissen entsprechen.
Bei Ausführungsformen kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, in Block 521 eingespeist werden. Im Allgemeinen kann das Einspeisen ein Feststellen, Analysieren, Erfassen, Empfangen, Sammeln, Zusammenstellen, Umformen, Importieren oder anderweitiges Erheben des Satzes von Ereignisdaten beinhalten, der dem Satz von Ereignissen entspricht. Das Einspeisen kann unter Verwendung der IMTM-Technik durchgeführt werden. Eine bestimmte Gruppe von Erwähnungselementen des Satzes von Ereignisdaten kann verarbeitet werden. Das Verarbeiten kann unter Verwendung der IMTM-Technik durchgeführt werden. Ein betreffendes Erwähnungselement der bestimmten Gruppe von Erwähnungselementen kann mit einem oder mehreren klar unterscheidbaren Entitätselementen korrelieren. Entsprechend verarbeitet die IMTM-Technik eine unbestimmte Anzahl von Entitäten bei einer bestimmten Anzahl von Erwähnungen (indem sie z.B. bei einem Dokument dieses ohne einen Zählwert dazu verarbeitet, wie viele koreferenzierende Erwähnungen es gibt). Mithilfe von Gibbs-Sampling kann die IMTM-Technik Entitäten erzeugen, die innerhalb einer Schwellenwerttoleranz (z.B. einem Prozentsatz wie 10 % oder 5 %) oder Ähnlichem nahe bei den tatsächlichen Entitäten (z.B. den realen klinischen Vermerken) liegen. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
In Block 540 kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, analysiert werden. Das Analysieren kann unter Verwendung der IMTM-Technik durchgeführt werden. Bei Ausführungsformen kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, in Block 542 geclustert werden. Im Allgemeinen kann das Clustern ein Gruppieren, Ausrichten, Kombinieren, Anordnen, Konfigurieren oder anderweitiges Ordnen beinhalten. Das Clustern kann unter Verwendung einer Ähnlichkeitsmetrik (z.B. wie ähnlich, eine homogene Wertung, auf Grundlage von Attributen der Daten wie Syntax, Semantik usw.) und auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik durchgeführt werden. Verschiedene Clustering-Methoden können verwendet werden. Clustering-Methoden können ein Verfahren oder einen Algorithmus zum Durchführen einer statistischen Datenanalyse in Bezug auf den Satz von Ereignisdaten beinhalten. Zum Beispiel kann die Clustering-Methode Konnektivitätsmodelle (z.B. hierarchisches Clustering), Zentroid-Modelle (z.B. K-Means-Clustering), Verteilungsmodelle (z.B. multivariate Normalverteilungen), Dichtemodelle (z.B. räumliches Clustern auf Dichtegrundlage, geordnete Punktidentifizierung), Unterraum-Modelle (z.B. Co-Clustering, Biclustering) und Ähnliches beinhalten. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
Bei Ausführungsformen kann in Block 543 ein Satz von IMTM-Parametern abgeleitet werden. Im Allgemeinen kann das Ableiten ein Formulieren, Extrahieren, Berechnen, Erzeugen oder anderweitiges Identifizieren beinhalten. Das Ableiten kann mittels einer Verwendung durch die IMTM-Technik durchgeführt werden. Das Ableiten kann unter Verwendung einer Gibbs-Sampling-Methode in Bezug auf den Satz von Ereignisdaten durchgeführt werden. Gibbs-Sampling ist eine Markov-Chain-Monte-Carlo-Simulation (MCMC-Simulation), die einen einfachen Algorithmus für eine näherungsweise Inferenz (z.B. in hochdimensionalen Modellen) ergeben kann. Entsprechend können Parameter und Parameterwerte nachgeprüft (z.B. mit den Entitäten und Erwähnungen in Verbindung gesetzt) werden. Ein Parameter kann ein Attribut, eine Eigenschaft oder eine Einstellung beinhalten, mit der ein oder mehrere Modelle wie z.B. ein Satz von Entitätsmodellen definiert werden können. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
In Block 560 kann ein Satz von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Das Ermitteln kann auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik durchgeführt werden. In Block 580 kann ein Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen erstellt werden. Das Erstellen kann auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen durchgeführt werden. Das Verfahren 500 endet in Block 599. Ausführungsformen des Verfahrens 500 können in Verbindung mit der Entitätsmodell-Erstellung Leistungs- oder Effizienzvorteile bereitstellen. Ausführungsformen können den Verbrauch von Ressourcen wie Bandbreite, Festplattenspeicher, Verarbeitungskapazität oder Arbeitsspeicher verringern.
6 ist ein Ablaufplan, der ein Verfahren 600 für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik zeigt. Teile des Verfahrens 600 können ähnlich oder identisch mit Teilen der Verfahren 400/500/700 sein, und Teile können austauschbar verwendet werden. Das Verfahren 600 beginnt in Block 601. In Block 620 kann ein Satz von Ereignisdaten festgestellt werden. Der Satz von Ereignisdaten kann einem Satz von Ereignissen entsprechen. In Block 640 kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, analysiert werden. Das Analysieren kann unter Verwendung der IMTM-Technik durchgeführt werden. In Block 660 kann ein Satz von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Das Ermitteln kann auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik durchgeführt werden.
Bei Ausführungsformen kann der Satz von Entitätsmodellen für den Satz von Ereignissen in Block 664 analysiert werden. Das Analysieren kann unter Verwendung einer NEPR-Methode (Neuronal Entity Pair Refining, neuronale Nachbesserung von Entitätspaaren) durchgeführt werden. Die NEPR-Methode kann verwendet werden, um durch die IMTM-Technik erzeugte Entitätspaare nachzubessern. Der Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen kann ermittelt werden. Das Ermitteln kann auf Grundlage eines Analysierens des Satzes von Entitätsmodellen unter Verwendung der NEPR-Methode durchgeführt werden. Die NEPR-Methode kann eine Merkmalsextraktion beinhalten (z.B. unter Verwendung einer Verarbeitung natürlicher Sprache zur Extraktion von Informationen aus einem klinischen Freitext einer elektronischen Patientenakte). Somit kann in Block 665 ein Satz von Merkmalen extrahiert werden. Der Satz von Merkmalen kann sowohl durch den Satz von Entitätsmodellen angegeben als auch aus dem Satz von Ereignisdaten abgeleitet werden. Das Extrahieren kann unter Verwendung einer Methode zur Verarbeitung natürlicher Sprache durchgeführt werden. Verschiedene Kombinationen der Merkmale können in Betracht gezogen werden. Die Kombinationen können nachgebessert oder in Pools zusammengefasst werden, damit die NEPR-Methode einen Schwellenwert einer Genauigkeit, Präzision oder dergleichen erreicht. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
Bei Ausführungsformen kann der Satz von Merkmalen konfiguriert sein, um in Block 667 einen Satz von Kontextelementen zu beinhalten. Kontextelemente können semantische oder syntaktische Merkmale/Komponenten beinhalten. Eine Zeichensetzung in umgebenden Phrasen kann eine verschiedene Bedeutung bestimmter Wörter angeben. Ein einziger Aktivsatz in einem Absatz von Passivsätzen kann auf ein relatives Maß an Wichtigkeit hindeuten. Emojis und deren Platzierung können eine oder mehrere Komponenten des Satzes von Ereignisdaten angeben. Im Allgemeinen kann jedes Merkmal auf Grundlage des Kontextes des betreffenden Merkmals analysiert werden. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
Bei Ausführungsformen kann der Satz von Kombinationen des Satzes von Merkmalen in Block 668 analysiert werden. Ein Satz von Faltungsfaktoren kann berechnet werden. Im Allgemeinen kann das Berechnen ein Formulieren, Errechnen, Nachprüfen, Messen, Abschätzen oder anderweitiges Ermitteln des Satzes von Faltungsfaktoren beinhalten. Das Berechnen kann in Bezug auf den Satz von Kombinationen des Satzes von Merkmalen durchgeführt werden. Im Allgemeinen ist eine Faltung eine mathematische Operation an zwei Funktionen, die eine dritte Funktion erzeugt. Die dritte Funktion kann als eine abgewandelte Version einer der ursprünglichen Funktionen betrachtet werden, die das Integral der punktweisen Multiplikation der beiden Funktionen als eine Funktion des Betrags angibt, um den eine der ursprünglichen Funktionen übersetzt wird. Faltungsfaktoren können somit Attribute, Eigenschaften oder Parameter sein, welche die Art einer solchen dritten Funktion beeinflussen. Eine Faltung kann sich von einer Kreuzkorrelation oder Autokorrelation unterscheiden. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
Bei Ausführungsformen kann der Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen in Block 669 aufgelöst werden. Im Allgemeinen kann das Auflösen ein Entwickeln, Formulieren, Nachprüfen, Berechnen, Errechnen, Identifizieren, Auswählen oder anderweitiges Ermitteln beinhalten. Das Auflösen kann auf Grundlage des Satzes von Faltungsfaktoren durchgeführt werden. So können verschiedene Kandidaten-Entitätsmodelle zum Beispiel gefiltert werden, um lediglich einen Teil des Satzes von Entitätsmodellen (z.B. ein einziges Entitätsmodell) aufzulösen/auszuwählen. Ein solches Filtern/Eingrenzen kann auf Grundlage des Satzes von Faltungsfaktoren erfolgen. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
In Block 680 kann ein Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen erstellt werden. Das Erstellen kann auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen durchgeführt werden. Das Verfahren 600 endet in Block 699. Ausführungsformen des Verfahrens 600 können in Verbindung mit der Entitätsmodell-Erstellung Leistungs- oder Effizienzvorteile bereitstellen. Ausführungsformen können den Verbrauch von Ressourcen wie Bandbreite, Festplattenspeicher, Verarbeitungskapazität oder Arbeitsspeicher verringern.
7 ist ein Ablaufplan, der ein Verfahren 700 für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik zeigt. Teile des Verfahrens 700 können ähnlich oder identisch mit Teilen der Verfahren 400/500/600 sein, und Teile können austauschbar verwendet werden. Das Verfahren 700 beginnt in Block 701.
Bei Ausführungsformen können das Feststellen, das Analysieren, das Ermitteln, das Erstellen und die anderen hier beschriebenen Schritte in Block 704 jeweils auf eine dynamische Weise ausgeführt werden. Die hier beschriebenen Schritte können auf eine dynamische Weise ausgeführt werden, um die Entitätsmodell-Erstellung zu rationalisieren. Zum Beispiel können das Feststellen, das Analysieren, das Ermitteln, das Erstellen und die anderen hier beschriebenen Schritte in Echtzeit, fortlaufend oder während des Betriebs erfolgen. Als ein Beispiel können ein oder mehrere hier beschriebene Schritte während des Betriebs durchgeführt werden (z.B. durch Ausführung der IMTM-Technik und der NEPR-Methode in Echtzeit), um die Entitätsmodell-Erstellung zu rationalisieren (z.B. zu erleichtern, zu fördern, zu verbessern). Auch andere Verfahren zum Durchführen der hier beschriebenen Schritte auf eine dynamische Weise sind möglich und denkbar.
Bei Ausführungsformen können das Feststellen, das Analysieren, das Erstellen und die anderen hier beschriebenen Schritte in Block 706 jeweils auf eine automatisierte Weise ausgeführt werden. Die hier beschriebenen Schritte können auf eine automatisierte Weise ohne Benutzereingriff ausgeführt werden. Bei Ausführungsformen können das Feststellen, das Analysieren, das Ermitteln, das Erstellen und die anderen hier beschriebenen Schritte durch ein internes Modul zur Entitätsmodell-Erstellung durchgeführt werden, das in einer persistenten Speichereinheit einer lokalen Datenverarbeitungseinheit (z.B. einen Netzwerkknoten, einen Mehrknoten-Server) gespeichert wird. Bei Ausführungsformen können das Feststellen, das Analysieren, das Ermitteln, das Erstellen und die anderen hier beschriebenen Schritte durch ein externes Modul zur Entitätsmodell-Erstellung durchgeführt werden, das durch eine entfernte Datenverarbeitungseinheit oder einen entfernten Server gehostet wird (z.B. einen Server, der über ein Abonnement, ein Modell auf Nutzungsgrundlage oder ein anderes Dienstmodell zugänglich ist). Auf diese Weise können Teile der Entitätsmodell-Erstellung unter Verwendung automatisierter Datenverarbeitungseinrichtungen ohne manuelle Aktion durchgeführt werden. Entsprechend können die hier beschriebenen Schritte auf eine automatisierte Weise ohne Benutzereingriff oder manuelle Aktion ausgeführt werden (z.B. unter Verwendung automatisierter Computereinrichtungen, die vollständig maschinell und ohne manuelle Impulse arbeiten). Zudem sind auch andere Verfahren zum Durchführen der hier als automatisiert beschriebenen Schritte möglich und denkbar.
In Block 720 kann ein Satz von Ereignisdaten festgestellt werden. Der Satz von Ereignisdaten kann einem Satz von Ereignissen entsprechen. Bei Ausführungsformen kann in Block 724 festgestellt werden, dass der Satz von Ereignisdaten sowohl strukturierte Daten als auch unstrukturierte Daten beinhaltet. Strukturierte Daten können Informationen mit einem beträchtlichen Maß an Organisation dergestalt beinhalten, dass eine Aufnahme in eine relationale Datenbank nahtlos ist und für eine Suche durch eine einfache Abfrage, durch Suchmaschinenalgorithmen oder eine andere Suchoperation problemlos verfügbar ist. Entsprechend können strukturierte Daten Informationen (z.B. Textdateien) beinhalten, die in betitelten Spalten und Zeilen angezeigt werden, die sich durch Data-Mining-Werkzeuge einfach sortieren und verarbeiten lassen (z.B. die in Feldern in einer Datenbank gespeicherten Daten). Unstrukturierte Daten können Informationen beinhalten, die keine (einfach) identifizierbare/erkennbare interne Struktur aufweisen. Entsprechend können sich unstrukturierte Daten auf Informationen beziehen, die sich nicht in einer herkömmlichen Zeilen-Spalten-Datenbank befinden (z.B. Bücher, Zeitschriften, Dokumente, Metadaten, Patientenakten, Audiodateien, Videodateien, analoge Daten, Bilder, Akten und unstrukturierter Text wie z.B. der Text einer eMail-Nachricht, einer Web-Seite oder eines mittels Textverarbeitung erstellten Dokuments). Somit können unstrukturierte Daten Informationen beinhalten, die kein vordefiniertes Datenmodell aufweisen oder nicht in einer vordefinierten Art und Weise organisiert sind. Ein Satz von Merkmalen zur Verwendung als ein Satz von Analyseparametern (z.B. Beschränkungen für die IMTM-/NEPR-Methoden) kann extrahiert werden. Das Extrahieren kann unter Verwendung einer Methode zur Verarbeitung natürlicher Sprache in Bezug auf den Satz von Ereignisdaten durchgeführt werden. Die Methode zur Verarbeitung natürlicher Sprache kann einen oder mehrere Algorithmen auf Computergrundlage beinhalten, die konfiguriert sind, um eine Bedeutung aus natürlichsprachlichem Inhalt abzuleiten. Beispiele für die Methode zur Verarbeitung natürlicher Sprache können Algorithmen beinhalten, die für ein Wortart-Tagging, ein Parsen, eine Beziehungsextraktion, eine Gefühlsanalyse, einen Informationsabruf, eine Informationsextraktion, eine morphologische Segmentierung oder Ähnliches konfiguriert sind. Auch andere, im Einklang mit hier beschriebenen Ausführungsformen stehende Möglichkeiten kommen in Betracht.
In Block 740 kann der Satz von Ereignisdaten, der dem Satz von Ereignissen entspricht, analysiert werden. Das Analysieren kann unter Verwendung der IMTM-Technik durchgeführt werden. Bei Ausführungsformen kann der Satz von Merkmalen konfiguriert sein, um in Block 741 einen Satz von medizinischen Ereignissen zu beinhalten. Ein Satz von elektronischen Patientenakten-Daten kann hergestellt werden. Der Satz von elektronischen Patientenakten-Daten kann auf Grundlage des Teilsatzes des Satzes von Entitätsmodellen für den Satz von medizinischen Ereignissen hergestellt werden. Bei Ausführungsformen kann der Satz von Ereignissen konfiguriert sein, um in Block 742 einen Satz von Bildereignissen zu beinhalten. Ein Satz von Bilddaten kann verarbeitet werden. Das Verarbeiten kann auf Grundlage des Teilsatzes des Satzes von Entitätsmodellen für den Satz von Bildereignissen durchgeführt werden.
In Block 760 kann ein Satz von Entitätsmodellen für den Satz von Ereignissen ermittelt werden. Das Ermitteln kann auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik durchgeführt werden. Bei Ausführungsformen kann der Satz von Entitätsmodellen für den Satz von Ereignissen in Block 769 ermittelt werden. Das Ermitteln kann unabhängig von einer manuellen Koreferenz-Annotation (z.B. ohne eine solche Annotation) durchgeführt werden. Der Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen kann erstellt werden. Das Erstellen kann unabhängig von einer manuellen Koreferenz-Annotation als Reaktion auf ein Ermitteln des Satzes von Entitätsmodellen für den Satz von Ereignissen durchgeführt werden.
In Block 780 kann ein Teilsatz des Satzes von Entitätsmodellen für den Satz von Ereignissen erstellt werden. Das Erstellen kann auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen durchgeführt werden. Das Verfahren 700 endet in Block 799. Ausführungsformen des Verfahrens 700 können in Verbindung mit der Entitätsmodell-Erstellung Leistungs- oder Effizienzvorteile bereitstellen. Ausführungsformen können den Verbrauch von Ressourcen wie Bandbreite, Festplattenspeicher, Verarbeitungskapazität oder Arbeitsspeicher verringern.
8 zeigt ein Beispiel 800 für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen. Das Beispiel 800 veranschaulicht eine Beispiel-System-Pipeline. Im Rohformat vorliegende klinische Vermerke und Wissensressourcen können unter Verwendung der Beispiel-System-Pipeline oder Ähnlichem auf eine rationalisierte Art und Weise verarbeitet werden. Erwähnungen können sowohl aus strukturierten als auch aus unstrukturierten Vermerken abgerufen und darin erkannt werden. Merkmale können mit Sprachverarbeitungssystemen extrahiert und als Beschränkungen verwendet werden. Ein Gibbs-Sampling kann für eine Parameterabschätzung und für Inferenzen in der NER- und ERD-Schleife mit einer IMTM verwendet werden. Ein neuronales Faltungsnetz kann hergestellt werden, um jedes durch die IMTM erzeugte Entitätspaar nachzubessern und dadurch die Leistung des Systems zu verbessern. Identische Erwähnungen können in einer Kette geclustert und in das abschließende Entitätsketten-Repository ausgegeben werden. Verschiedene andere Möglichkeiten, die im Einklang mit hier sowohl explizit als auch implizit beschriebenen Ausführungsformen stehen, sind denkbar.
9 zeigt ein Beispiel 900 für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen. Das Beispiel 900 ist eine grafische Darstellung der IMTM-Technik für NERs und ERDs. Die IMTM-Technik kann bei einer bestimmten Anzahl von Erwähnungen eine unbestimmte Anzahl von Entitäten verarbeiten. Somit kann das Modell weniger als ein finites Modell denn als ein infinites Modell betrachtet werden. Im Besonderen kann die IMTM-Technik bei einem bestimmten Dokument durchgeführt werden, ohne dass im Voraus bekannt ist, wie viele koreferenzierende Erwähnungen enthalten sind. Bei Verwendung mit einem Gibbs-Sampling kann die IMTM-Technik zum Beispiel Entitäten erzeugen, die nahe bei den tatsächlichen Entitäten liegen. Verschiedene andere Möglichkeiten, die im Einklang mit hier sowohl explizit als auch implizit beschriebenen Ausführungsformen stehen, sind denkbar.
10 zeigt ein Beispiel 1000 für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen. Das Beispiel 1000 kann beginnen, indem eine Merkmalsextraktion (z.B. mit einer Verarbeitung natürlicher Sprache) verwendet wird. Nach dem Extrahieren der Merkmale können verschiedene Kombinationen und Permutationen in einer Schicht zur Einbettung gemischter Merkmale gemischt werden. Die Faltungsschicht kann die Daten filtern oder synthetisieren. Danach können die Daten in Bezug auf Elemente wie z.B. lokale Konnektivität, Tiefe, gemeinsame Parameter usw. analysiert werden. Entsprechend können Elemente mittels Pooling sortiert werden, und es kann eine Vorhersage bereitgestellt werden. Verschiedene andere Möglichkeiten, die im Einklang mit hier sowohl explizit als auch implizit beschriebenen Ausführungsformen stehen, sind denkbar.
11 zeigt ein Beispiel 1100 für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik gemäß Ausführungsformen. Als Reaktion auf eine Entwicklung der NERs und ERDs kann die NEPR die NERs und ERDs weiter nachbessern. Die NEPR kann unter Verwendung verschiedener Erwägungen verschiedene Kontexte der Daten berücksichtigen. Zum Beispiel können Erwähnungsmerkmale aus der IMTM angeben, dass „dieser Kopfschmerz“ e2 ist. Somit können Kontextmerkmale aus der NEPR aufgrund der Nähe von e2 und e5 eine Korrektur zu e5 vornehmen. Verschiedene andere Möglichkeiten, die im Einklang mit hier sowohl explizit als auch implizit beschriebenen Ausführungsformen stehen, sind denkbar.
Insgesamt beziehen sich Ausführungsformen der Offenbarung auf NERs und ERDs in Freitexten unter Verwendung eines IMTM-Verfahrens mit einem neuronalen Netzwerk. Die IMTM-Technik kann Entitätsketten zwischen medizinischen Ereignissen und einer NEPR-Methode herstellen, um eine Leistung zu verbessern. Bei Ausführungsformen kann die Entitätskette identische Entitätsketten beinhalten. Merkmale können eine Unsicherheit von Entitätsdaten in jedem Dokument berücksichtigen. Die Dynamik der IMTM-Technik beim Erzeugen neuer Entitäten kann positive Auswirkungen auf die Notwendigkeit einer Vorabschätzung von Entitätszahlen haben. Bei Ausführungsformen können nachverfolgbare elektronische Langzeit-Patientenakten hergestellt werden, die durch die NERs und ERDs ermöglicht werden. Ausführungsformen, die sich auf ein halbüberwachtes Merkmal beziehen, können positive Auswirkungen mit Blick auf einen Grad der Abhängigkeit von Trainingsdaten haben.
Zusätzlich zu den oben beschriebenen Ausführungsformen sind andere Ausführungsformen mit weniger Arbeitsschritten, mehr Arbeitsschritten oder anderen Arbeitsschritten denkbar. Auch können manche Ausführungsformen einige oder alle der obigen Arbeitsschritte in einer anderen Reihenfolge durchführen. Bei Ausführungsformen können Arbeitsschritte als Reaktion auf andere Arbeitsschritte durchgeführt werden. Die Module werden gemäß einer Ausführungsform veranschaulichend genannt und beschrieben und sollen keine Notwendigkeit eines bestimmten Moduls oder einen Ausschluss anderer möglicher Module (oder Funktionen/Zwecke im Hinblick auf ein spezifisches Modul) bedeuten.
In den vorangegangenen Erläuterungen wird auf verschiedene Ausführungsformen Bezug genommen. Dabei sollte allerdings klar sein, dass diese Offenbarung nicht auf die konkret beschriebenen Ausführungsformen beschränkt ist. Vielmehr wird davon ausgegangen, dass jede Kombination der beschriebenen Merkmale und Elemente, unabhängig davon, ob sie sich auf andere Ausführungsformen beziehen, diese Offenbarung realisiert und umsetzt. Für den Fachmann dürfte offensichtlich sein, dass zahlreiche Änderungen und Abwandlungen möglich sind, ohne vom inhaltlichen Umfang und gedanklichen Wesensgehalt der beschriebenen Ausführungsformen abzuweichen. Obwohl Ausführungsformen dieser Offenbarung Vorteile gegenüber anderen möglichen Lösungen oder gegenüber dem Stand der Technik erzielen können, stellt die Tatsache, ob ein bestimmter Vorteil durch eine gegebene Ausführungsform erzielt wird, darüber hinaus keine Beschränkung dieser Offenbarung dar. Die beschriebenen Aspekte, Merkmale, Ausführungsformen und Vorteile sind somit lediglich veranschaulichend und werden nicht als Elemente oder Beschränkungen der beigefügten Ansprüche betrachtet, sofern dies nicht in einem oder mehreren Ansprüchen ausdrücklich geltend gemacht wird.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) beinhalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Befehle zur Verwendung durch eine Befehlsausführungseinheit behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Compact-Disc-Nur-Lese-Speicher (CD-ROM), eine DVD (Digital Versatile Disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. durch ein Lichtwellenleiterkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Java, Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der ferne Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Anordnungen (FPGA, Field Programmable Gate Arrays) oder programmierbare Logikanordnungen (PLA, Programmable Logic Arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen durch einen Computer umgesetzten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
Ausführungsformen gemäß dieser Offenbarung können Endbenutzern über eine Cloud-Computing-Infrastruktur bereitgestellt werden. Cloud Computing bezieht sich im Allgemein auf die Bereitstellung von skalierbaren Datenverarbeitungsressourcen als ein Dienst über ein Netzwerk. Formeller gesprochen kann Cloud Computing als eine Datenverarbeitungsfähigkeit bezeichnet werden, die eine Abstraktion zwischen der Datenverarbeitungsressource und ihrer zugrunde liegenden technischen Architektur (z.B. Server, Speicher, Netzwerke) bereitstellt und somit einen komfortablen, bedarfsgesteuerten Netzwerkzugriff auf einen gemeinsam genutzten Vorrat von konfigurierbaren Datenverarbeitungsressourcen ermöglicht, die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Dienstanbieter schnell bereitgestellt und freigegeben werden können. Somit ermöglich Cloud Computing einem Benutzer, auf virtuelle Datenverarbeitungsressourcen (z.B. Speicher, Daten, Anwendungen und sogar vollständige virtualisierte Datenverarbeitungssysteme) „in der Cloud“ zuzugreifen, ohne die zugrunde liegenden physischen Systeme (oder Standorte dieser Systeme), die zur Bereitstellung der Datenverarbeitungsressourcen verwendet werden, berücksichtigen zu müssen.
Cloud-Computing-Ressourcen werden einem Benutzer üblicherweise auf einer Pay-per-use-Grundlage bereitgestellt, wobei den Benutzern nur die tatsächlich verwendeten Datenverarbeitungsressourcen (z.B. eine Menge an Speicherplatz, der durch einen Benutzer verwendet wird, oder eine Anzahl von virtualisierten Systemen, die durch den Anwender instanziiert werden) in Rechnung gestellt werden. Ein Benutzer kann jederzeit und von jeder Stelle des Internets aus auf jede der Ressourcen zugreifen, die sich in der Cloud befinden. In Verbindung mit der vorliegenden Offenbarung kann ein Benutzer auf in der Cloud verfügbare Anwendungen oder zugehörige Daten zugreifen. Zum Beispiel können die Knoten, mit denen eine Anwendung erzeugt wird, die einen Datenstrom berechnet, virtuelle Maschinen sein, die durch einen Cloud-Dienstanbieter gehostet werden. Auf diese Weise kann ein Benutzer von jedem Datenverarbeitungssystem mit Verbindung zu einem Netzwerk, das mit der Cloud (z.B. dem Internet) verbunden ist, aus auf diese Informationen zugreifen.
Ausführungsformen der vorliegenden Offenbarung können auch als Teil einer Dienstverarbeitung mit einem Kundenunternehmen, einer gemeinnützigen Organisation, einer Regierungsstelle, einer internen Organisationsstruktur oder Ähnlichem bereitgestellt werden. Diese Ausführungsformen können ein Konfigurieren eines Computersystems und ein Bereitstellen von Software, Hardware und Web-Diensten beinhalten, um einige oder alle der hier beschriebenen Verfahren durchzuführen bzw. zu realisieren. Diese Ausführungsformen können außerdem ein Analysieren der Abläufe des Kunden, ein Erzeugen von Empfehlungen als Reaktion auf die Analyse, ein Schaffen von Systemen, die Teile der Empfehlungen realisieren, ein Integrieren der Systeme in bestehende Prozesse und Infrastrukturen, ein Messen der Verwendung der Systeme, ein Zuordnen von Aufwendungen zu Benutzern des Systems und ein In-Rechnung-Stellen für eine Verwendung des Systems beinhalten.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Obwohl die vorangegangenen Erläuterungen auf beispielhafte Ausführungsformen gerichtet sind, können andere und weitere Ausführungsformen der Erfindung entwickelt werden, ohne von deren wesentlichem inhaltlichen Umfang abzuweichen, wobei ihr inhaltlicher Umfang durch die nachstehenden Ansprüche bestimmt wird. Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Offenbarung wurden zum Zwecke der Veranschaulichung vorgelegt und sind nicht als vollständig oder auf die offenbarten Ausführungsformen beschränkt zu verstehen. Der Fachmann weiß, dass zahlreiche Änderungen und Abwandlungen möglich sind, ohne von Umfang und Geist der beschriebenen Ausführungsformen abzuweichen. Die hier verwendete Begrifflichkeit wurde gewählt, um die Grundsätze der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber marktgängigen Technologien zu erläutern bzw. anderen Fachleuten das Verständnis der hier offenbarten Ausführungsformen zu ermöglichen.
Die hier verwendete Begrifflichkeit dient lediglich zur Beschreibung bestimmter Ausführungsformen und ist nicht als Beschränkung der verschiedenen Ausführungsformen gedacht. Im hier verwendeten Sinne sollen die Singularformen „ein/e/r,“ und „der/die/das“ auch die Pluralformen beinhalten, sofern der Kontext dies nicht eindeutig anderweitig vorgibt. „Satz von“, „Gruppe von“, „einige“ usw. sollen ein oder mehrere Elemente beinhalten. Des Weiteren wird darauf verwiesen, dass die Begriffe „beinhaltet“ und/oder „beinhaltend“ in dieser Beschreibung das Vorhandensein der genannten Merkmale, Ganzzahlen, Schritte, Operationen, Elemente und/oder Komponenten angeben, ohne jedoch das Vorhandensein oder die Hinzufügung von einem/einer oder mehreren anderen Merkmalen, Ganzzahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen derselben auszuschließen. In der obigen ausführlichen Beschreibung beispielhafter Ausführungsformen der verschiedenen Ausführungsformen wurde auf die beigefügten Zeichnungen verwiesen (bei denen gleichlautende Bezugsziffern für identische Elemente stehen), die einen Teil hiervon bilden und in denen zum Zwecke der Veranschaulichung spezifische beispielhafte Ausführungsformen gezeigt werden, in denen die verschiedenen Ausführungsformen realisiert werden können. Diese Ausführungsformen wurden in ausreichender Detailgenauigkeit beschrieben, um dem Fachmann die Realisierung der Ausführungsformen zu ermöglichen, wobei jedoch andere Ausführungsformen verwendet und logische, mechanische, elektrische und andere Änderungen vorgenommen werden können, ohne vom inhaltlichen Umfang der verschiedenen Ausführungsformen abzuweichen. In der obigen Beschreibung wurden zahlreiche spezifische Einzelheiten dargelegt, um ein gründliches Verständnis der verschiedenen Ausführungsformen bereitzustellen. Allerdings können die beschriebenen Ausführungsformen auch ohne diese spezifischen Einzelheiten realisiert werden. In anderen Fällen wurden bekannte Schaltungen, Strukturen und Methoden nicht im Detail gezeigt, um die Ausführungsformen nicht unverständlich zu machen.

Claims

Durch einen Computer realisiertes Verfahren für eine Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik (Infinite Mixture Topic Modeling, Themenmodellierung mit unendlicher Mischung), wobei das Verfahren aufweist: ein Feststellen eines Satzes von Ereignisdaten, der einem Satz von Ereignissen entspricht; ein Analysieren, unter Verwendung der IMTM-Technik, des Satzes von Ereignisdaten, der dem Satz von Ereignissen entspricht; ein Ermitteln, auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik, eines Satzes von Entitätsmodellen für den Satz von Ereignissen; und ein Erstellen, auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen, eines Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Konfigurieren des Satzes von Entitätsmodellen, um einen Satz von Entitätsketten aufzuweisen; und ein Konfigurieren des Teilsatzes des Satzes von Entitätsmodellen, um einen Teilsatz des Satzes von Entitätsketten aufzuweisen.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Konfigurieren des Satzes von Entitätsmodellen, um einen Satz von identischen Entitätsketten aufzuweisen; und ein Konfigurieren des Teilsatzes des Satzes von Entitätsmodellen, um einen Teilsatz des Satzes von identischen Entitätsketten aufzuweisen.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Konfigurieren des Satzes von Entitätsmodellen, um mindestens eine Koreferenz-Auflösung anzugeben; und ein Konfigurieren des Teilsatzes des Satzes von Entitätsmodellen, um einziges Entitätsmodell aufzuweisen.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Einspeisen, unter Verwendung der IMTM-Technik, des Satzes von Ereignisdaten, der dem Satz von Ereignissen entspricht; und ein Verarbeiten, unter Verwendung der IMTM-Technik, einer bestimmten Gruppe von Erwähnungselementen des Satzes von Ereignisdaten, wobei ein betreffendes Erwähnungselement der bestimmten Gruppe von Erwähnungselementen einem oder mehreren klar unterscheidbaren Entitätselementen entspricht.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Clustern, unter Verwendung einer Ähnlichkeitsmetrik und auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik, des Satzes von Ereignisdaten, der dem Satz von Ereignissen entspricht.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Ableiten, unter Verwendung einer Gibbs-Sampling-Methode in Bezug auf den Satz von Ereignisdaten, eines Satzes von IMTM-Parametern zur Verwendung durch die IMTM-Technik.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Analysieren, unter Verwendung einer NEPR-Technik (Neural Entity Pair Refining, neuronale Nachbesserung von Entitätspaaren), des Satzes von Entitätsmodellen für den Satz von Ereignissen; und ein Ermitteln, auf Grundlage eines Analysierens des Satzes von Entitätsmodellen unter Verwendung der NEPR-Technik, des Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Verfahren nach Anspruch 8, des Weiteren aufweisend: ein Extrahieren, unter Verwendung einer Methode zur Verarbeitung natürlicher Sprache, eines Satzes von Merkmalen, wobei der Satz von Merkmalen sowohl durch den Satz von Entitätsmodellen angegeben als auch aus dem Satz von Ereignisdaten abgeleitet wird.
Verfahren nach Anspruch 9, des Weiteren aufweisend: ein Konfigurieren des Satzes von Merkmalen, um einen Satz von Kontextelementen aufzuweisen.
Verfahren nach Anspruch 9, des Weiteren aufweisend: ein Analysieren eines Satzes von Kombinationen des Satzes von Merkmalen; und ein Berechnen, in Bezug auf den Satz von Kombinationen des Satzes von Merkmalen, eines Satzes von Faltungsfaktoren.
Verfahren nach Anspruch 11, des Weiteren aufweisend: ein Auflösen, auf Grundlage des Satzes von Faltungsfaktoren, des Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Konfigurieren des Satzes von Ereignissen, um einen Satz von medizinischen Ereignissen aufzuweisen; und ein Herstellen eines Satzes von elektronischen Patientenakten-Daten auf Grundlage des Teilsatzes des Satzes von Entitätsmodellen für den Satz von medizinischen Ereignissen.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Konfigurieren des Satzes von Ereignissen, um einen Satz von Bildereignissen aufzuweisen; und ein Verarbeiten eines Satzes von Bilddaten auf Grundlage des Teilsatzes des Satzes von Entitätsmodellen für den Satz von Bildereignissen.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Feststellen, dass der Satz von Ereignisdaten sowohl strukturierte Daten als auch unstrukturierte Daten ausweist; und ein Extrahieren, unter Verwendung einer Methode zur Verarbeitung natürlicher Sprache in Bezug auf den Satz von Ereignisdaten, eines Satzes von Merkmalen zur Verwendung als ein Satz von Analyseparametern.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Ermitteln, unabhängig von einer manuellen Koreferenz-Annotation, des Satzes von Entitätsmodellen für den Satz von Ereignissen; und ein Erstellen, auf Grundlage eines Ermittelns des Satzes von Entitätsmodellen für den Satz von Ereignissen unabhängig von einer manuellen Koreferenz-Annotation, des Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Ausführen, auf eine dynamische Weise zum Rationalisieren der Entitätsmodell-Erstellung, eines jeden des: Feststellens, Analysierens, Ermittelns und Erstellens.
Verfahren nach Anspruch 1, des Weiteren aufweisend: ein Ausführen, auf eine automatisierte Weise ohne Benutzereingriff, eines jeden des: Feststellens, Analysierens, Ermittelns und Erstellens.
System zur Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik, wobei das System aufweist: einen Arbeitsspeicher mit einem Satz von durch einen Computer lesbaren Computerbefehlen und einen Prozessor zum Ausführen des Satzes von durch einen Computer lesbaren Befehlen, wobei der Satz von durch einen Computer lesbaren Befehlen aufweist: ein Feststellen eines Satzes von Ereignisdaten, der einem Satz von Ereignissen entspricht; ein Analysieren, unter Verwendung der IMTM-Technik, des Satzes von Ereignisdaten, der dem Satz von Ereignissen entspricht; ein Ermitteln, auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik, eines Satzes von Entitätsmodellen für den Satz von Ereignissen; und ein Erstellen, auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen, eines Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Computerprogrammprodukt zur Entitätsmodell-Erstellung unter Verwendung einer IMTM-Technik, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium mit darin enthaltenen Programmbefehlen aufweist, wobei das durch einen Computer lesbare Speichermedium kein flüchtiges Signal an sich ist, wobei die Programmbefehle durch einen Prozessor ausführbar sind, um den Prozessor zum Durchführen eines Verfahrens zu veranlassen, aufweisend: ein Feststellen eines Satzes von Ereignisdaten, der einem Satz von Ereignissen entspricht; ein Analysieren, unter Verwendung der IMTM-Technik, des Satzes von Ereignisdaten, der dem Satz von Ereignissen entspricht; ein Ermitteln, auf Grundlage eines Analysierens des Satzes von Ereignisdaten unter Verwendung der IMTM-Technik, eines Satzes von Entitätsmodellen für den Satz von Ereignissen; und ein Erstellen, auf Grundlage des Satzes von Entitätsmodellen für den Satz von Ereignissen, eines Teilsatzes des Satzes von Entitätsmodellen für den Satz von Ereignissen.
Computerprogramm, aufweisend ein Programmcodemittel, das so gestaltet ist, dass es das Verfahren nach einem beliebigen der Ansprüche 1 bis 18 durchführt, wenn das Programm auf einem Computer ausgeführt wird.