DE102021004157A1

DE102021004157A1 - Maschinell lernendes Modellieren zum Schutz gegen die Online-Offenlegung empfindlicher Daten

Info

Publication number: DE102021004157A1
Application number: DE102021004157.7A
Authority: DE
Inventors: Irgelkha Mejia; Ronald Oribio; Robert Burke; Michele SAAD
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2020-11-09
Filing date: 2021-08-12
Publication date: 2022-05-12
Also published as: US20220148113A1; US11830099B2; AU2021218244A1; GB2600802A; US20240046399A1; CN114462616A

Abstract

Systeme und Verfahren nutzen maschinell lernende Modelle mit Contentbearbeitungswerkzeugen zum Verhindern oder Eindämmen einer unbeabsichtigten Offenlegung und Verbreitung vertraulicher Daten. Entitäten, die privater Information zugeordnet sind, werden durch Anwenden eines trainierten maschinell lernenden Modells auf einen Satz von unstrukturierten Textdaten, die über ein Eingabefeld einer Schnittstelle empfangen werden, identifiziert. Ein Privatheitskennwert wird für die Textdaten durch Identifizieren von Verbindungen zwischen den Entitäten berechnet, wobei die Verbindungen zwischen den Entitäten zu dem Privatheitskennwert entsprechend einem kumulativen Privatheitsrisiko beitragen, wobei der Privatheitskennwert ein potenzielles Offenliegen der privaten Information angibt. Die Schnittstelle wird aktualisiert, mit dem Ziel des Aufnehmens einer Angabe zum Unterscheiden eines Zielabschnittes des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes von anderen Abschnitten des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes, wobei eine Modifikation an dem Zielabschnitt das durch den Privatheitskennwert angegebene potenzielle Offenliegen der privaten Information ändert.

Description

Technisches Gebiet
Die vorliegende Offenbarung betrifft allgemein die Nutzung künstlicher Intelligenz zur Verhinderung einer unbeabsichtigten Offenlegung vertraulicher Daten. Die vorliegende Offenbarung betrifft insbesondere, jedoch nicht im Sinne einer Beschränkung, Techniken zur Nutzung von maschinell lernenden Modellen mit Contentbearbeitungswerkzeugen zur in Echtzeit erfolgenden Verhinderung oder Eindämmung einer unbeabsichtigten Offenlegung und Verbreitung vertraulicher Daten.
Hintergrund
Techniken der künstlichen Intelligenz zur Verarbeitung von Text sind bei vielerlei Contentbearbeitungswerkzeugen von Nutzen. Bei einem Beispiel werden maschinell lernende Modelle dazu benutzt, das nächste Wort vorherzusagen, wenn ein Nutzer Content für eine Online-Suche eingibt. Bei einem weiteren Beispiel wird maschinelles Lernen in einer Online-Textverarbeitungssoftware benutzt, um Änderungen vorzuschlagen, die die Lesbarkeit von Textcontent verbessert.
Diese Arten von Contentbearbeitungswerkzeugen bergen jedoch oftmals ein Risiko dahingehend, dass vertrauliche Information, so beispielsweise Personen identifizierende Information, unbeabsichtigt offengelegt werden kann. Ein Nutzer kann beispielsweise eine augenscheinlich unschädliche Information in ein Online-Forum eingeben, so beispielsweise den Hinweis, dass der Nutzer ein „Softwareentwickler aus Florida“ sei. Dies kann jedoch in Kombination mit anderem Online-Content zum Identifizieren des Nutzers benutzt werden. In einigen Fällen birgt die Online-Natur von gewissen Contentbearbeitungswerkzeugen spezifische Risiken dahingehend, dass vertrauliche Daten, sobald sie unbeabsichtigt offengelegt sind, schnell und bisweilen auch unwiderruflich verbreitet werden. Die Menge von Information, die Personen im Internet posten, wie auch Probleme der Privatheit infolge des Offenlegens von Personen identifizierender Information nehmen rasch zu. Augenscheinlich unschädliche Datenelemente können, wenn sie zusammengeführt werden, eine vollständige Sicht auf Personen bieten, die deren Freigabe nie beabsichtigt haben oder die dadurch erkannt werden, dass ihre Interaktionen mit dem Internet verfügbar sind.
Zusammenfassung
Gewisse Ausführungsformen implizieren Techniken zur Nutzung von maschinell lernenden Modellen zum Markieren von potenziellen Privatheitsverletzungen in Echtzeit.
Bei einigen Aspekten umfasst ein computerimplementiertes Verfahren ein durch ein Contentabrufsubsystem erfolgendes Detektieren des Eintragens eines Satzes von unstrukturierten Textdaten, die in ein Eingabefeld einer grafischen Schnittstelle eingegeben werden, ein in Reaktion auf das Detektieren des Eintragens und mit einem natürliche Sprache verarbeitenden Subsystem erfolgendes Identifizieren von mehreren Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden eines trainierten maschinell lernenden Modells auf den Satz von unstrukturierten Textdaten in dem Eingabefeld; ein durch ein Kennwertzuteilungssubsystem erfolgendes Berechnen eines Privatheitskennwertes für die Textdaten durch Identifizieren von Verbindungen zwischen den Entitäten, wobei die Verbindungen zwischen den Entitäten zu dem Privatheitskennwert entsprechend einem kumulativen Privatheitsrisiko beitragen, wobei der Privatheitskennwert ein potenzielles Offenliegen der privaten Information durch den Satz von unstrukturierten Textdaten angibt; und ein durch ein Berichtssubsystem erfolgendes Aktualisieren der grafischen Schnittstelle mit dem Ziel des Aufnehmens einer Angabe zum Unterscheiden eines Zielabschnittes des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes von anderen Abschnitten des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes, wobei eine Modifikation an dem Zielabschnitt das durch den Privatheitskennwert angegebene potenzielle Offenliegen der privaten Information ändert.
Bei einigen Aspekten umfasst das Verfahren des Weiteren ein durch das Contentabrufsubsystem erfolgendes Detektieren einer Modifikation an dem Satz von unstrukturierten Textdaten, die in das Eingabefeld der grafischen Schnittstelle eingegeben werden; ein in Reaktion auf das Detektieren der Modifikation und mit dem natürliche Sprache verarbeitenden Subsystem erfolgendes Identifizieren von mehreren modifizierten Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden des trainierten maschinell lernenden Modells auf die modifizierten Textdaten in dem Eingabefeld; ein durch das Kennwertzuteilungssubsystem erfolgendes Berechnen eines modifizierten Privatheitskennwertes für die Textdaten auf Grundlage der modifizierten Entitäten; und ein durch ein Berichtssubsystem erfolgendes Aktualisieren der grafischen Schnittstelle auf Grundlage des modifizierten Privatheitskennwertes.
Bei einigen Aspekten umfasst das Verfahren des Weiteren ein durch das Contentabrufsubsystem erfolgendes Empfangen eines Bildes oder Videos mit Zuordnung zu den unstrukturierten Textdaten; und ein durch ein Medienverarbeitungssubsystem erfolgendes Verarbeiten des Bildes oder Videos zum Identifizieren von Metadaten, wobei wenigstens ein Teilsatz der identifizierten Metadaten des Weiteren in das maschinell lernende Modell zum Identifizieren der Entitäten eingegeben wird.
Bei einigen Aspekten ist der Satz von unstrukturierten Textdaten ein erster Satz von unstrukturierten Textdaten, und die mehreren Entitäten sind mehrere erste Entitäten, wobei das Verfahren des Weiteren umfasst: vor dem Empfangen des ersten Satzes von unstrukturierten Textdaten, durch das Contentabrufsubsystem erfolgendes Detektieren des Eintragens eines zweiten Satzes von unstrukturierten Textdaten, die in das Eingabefeld eingegeben werden; und ein in Reaktion auf das Detektieren des Eintragens und mit dem natürliche Sprache verarbeitenden Subsystem erfolgendes Identifizieren mehrerer zweiter Entitäten, die der privaten Information zugeordnet sind, wenigstens durch Anwenden des trainierten maschinell lernenden Modells auf den zweiten Satz von unstrukturierten Textdaten in dem Eingabefeld, wobei das Kennwertzuteilungssubsystem den Privatheitskennwert auf Grundlage von Verbindungen zwischen den mehreren ersten Entitäten und den mehreren zweiten Entitäten berechnet.
Bei einigen Aspekten zeigt die aktualisierte grafische Schnittstelle des Weiteren eine Angabe des Privatheitskennwertes an. Bei einigen Aspekten beinhaltet das maschinell lernende Modell ein neuronales Netzwerk, und das Verfahren umfasst des Weiteren: Trainieren des neuronalen Netzwerkes durch: durch ein Trainingssubsystem erfolgendes Abrufen von ersten Trainingsdaten für einen ersten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer ersten Datenbank; ein durch das Trainingssubsystem erfolgendes Abrufen von zweiten Trainingsdaten für einen zweiten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer zweiten Datenbank; und ein durch das Trainingssubsystem erfolgendes Trainieren des neuronalen Netzwerkes zum Identifizieren des ersten Entitätstyps und des zweiten Entitätstyps unter Nutzung der ersten Trainingsdaten und der zweiten Trainingsdaten.
Bei einigen Aspekten umfasst das Verfahren des Weiteren ein durch das natürliche Sprache verarbeitende Subsystem erfolgendes Bestimmen von Entitätstypen für die identifizierten Entitäten und ein auf Grundlage der bestimmten Entitätstypen, durch das Kennwertzuteilungssubsystem erfolgendes Zuweisen von Gewichtungen zu Verknüpfungen zwischen Entitäten in einem Graphenmodell, wobei der Privatheitskennwert auf den Gewichtungen beruht.
Bei einigen Aspekten umfasst ein Rechensystem ein Contentabrufsubsystem mit Konfigurierung zum Detektieren des Eintragens von unstrukturierten Textdaten in ein Eingabefeld einer grafischen Schnittstelle; ein natürliche Sprache verarbeitendes Subsystem mit Konfigurierung zum Identifizieren von mehreren Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden eines trainierten maschinell lernenden Modells auf unstrukturierte Textdaten; ein Kennwertzuteilungssubsystem mit Konfigurierung zum Berechnen eines Privatheitskennwertes für die Textdaten durch Anwenden eines Graphenmodells auf die mehreren Entitäten zum Identifizieren von Verbindungen zwischen den Entitäten, wobei die Verbindungen zwischen den Entitäten zu dem Privatheitskennwert entsprechend einem kumulativen Privatheitsrisiko beitragen, wobei der Privatheitskennwert ein potenzielles Offenliegen der privaten Information durch die unstrukturierten Textdaten angibt; und ein Berichtssubsystem mit Konfigurierung zum Aktualisieren der grafischen Schnittstelle mit dem Ziel des Aufnehmens einer Angabe zum Unterscheiden eines Zielabschnittes der unstrukturierten Textdaten innerhalb des Eingabefeldes von anderen Abschnitten der unstrukturierten Textdaten innerhalb des Eingabefeldes, wobei der Zielabschnitt das durch den Privatheitskennwert angegebene potenzielle Offenliegen der privaten Information veranlasst.
Bei einigen Aspekten weist ein nichttemporäres computerlesbares Medium darauf gespeicherte Anweisungen auf, wobei die Anweisungen durch eine Verarbeitungsvorrichtung ausführbar sind, um Vorgänge durchzuführen, die umfassen: Detektieren des Eintragens eines Satzes von unstrukturierten Textdaten, die in ein Eingabefeld einer grafischen Schnittstelle eingegeben werden; einen Schritt zum Berechnen eines Privatheitskennwertes für die Textdaten zur Angabe eines potenziellen Offenliegens privater Information durch den Satz von unstrukturierten Textdaten; und ein auf Grundlage des Privatheitskennwertes erfolgendes Aktualisieren einer Angabe zum Unterscheiden eines Zielabschnittes des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes von anderen Abschnitten des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes.
Die vorliegenden illustrativen Ausführungsformen sind nicht zur Beschränkung oder Festlegung der Offenbarung, sondern zur Bereitstellung von Beispielen, die deren Verständnis fördern, aufgeführt. Zusätzliche Ausführungsformen werden in der Detailbeschreibung erläutert, und die weitere Beschreibung erfolgt dort.
Figurenliste
Merkmale, Ausführungsformen und Vorteile der vorliegenden Offenbarung erschließen sich besser durch ein Studium der nachfolgenden Detailbeschreibung in Verbindung mit der begleitenden Zeichnung.

1 zeigt ein Beispiel für eine Rechenumgebung, in der Contentbearbeitungswerkzeuge maschinell lernende Modelle nutzen, um Contentmodifikationen zum Behandeln von potenziellen Privatheitsverletzungen in Echtzeit anzugeben, entsprechend gewissen Ausführungsformen der vorliegenden Offenbarung.
2 zeigt ein Beispiel für einen Prozess zum Aktualisieren einer Schnittstelle eines Contentbearbeitungswerkzeuges in Echtzeit zur Angabe von potenziellen Bearbeitungen, die das Offenliegen privater Information verringern, entsprechend gewissen Ausführungsformen der vorliegenden Offenbarung.
3A bis 3D zeigen ein Beispiel für eine Sequenz von grafischen Schnittstellen, die unter Nutzung des in 2 dargestellten Prozesses generiert werden, entsprechend gewissen Ausführungsformen der vorliegenden Offenbarung.
4 zeigt ein Beispiel für einen Prozess zum Trainieren eines maschinell lernenden Modells, wie es bei dem Prozess von 2 benutzt wird, entsprechend gewissen Ausführungsformen der vorliegenden Offenbarung.
5 zeigt ein Beispiel für ein Rechensystem, das gewisse hier beschriebene Vorgänge durchführt, entsprechend gewissen Ausführungsformen der vorliegenden Offenbarung.
6 zeigt ein Beispiel für eine Cloudrechenumgebung, in der gewisse hier beschriebene Vorgänge durchgeführt werden, entsprechend gewissen Ausführungsformen der vorliegenden Offenbarung.

Detailbeschreibung
Die vorliegende Offenbarung beinhaltet Systeme und Verfahren zur Nutzung von maschinell lernenden Modellen mit Contentbearbeitungswerkzeugen zum in Echtzeit erfolgenden Verhindern oder Eindämmen einer unbeabsichtigten Offenlegung und Verbreitung vertraulicher Daten. Wie vorstehend erläutert worden ist, bergen Online-Dienste und andere Contentbearbeitungswerkzeuge das Risiko einer unbeabsichtigten Offenlegung vertraulicher Daten, die über das Internet oder andere Datennetzwerke schnell verbreitet werden können. Gewisse hier beschriebene Ausführungsformen befassen sich mit diesem Risiko durch Nutzen von maschinell lernenden Modellen, um potenziell problematischen Content während einer Bearbeitungsphase zu detektieren und an dem Content potenzielle Modifikationen, die die Offenlegung vertraulicher Daten verringern, anzugeben. Derartige Ausführungsformen analysieren beispielsweise unstrukturierte Textdaten zum Identifizieren von Worten oder Wendungen, die privater Information zugeordnet sind. Ein Privatheitskennwert wird auf Grundlage von Verbindungen zwischen diesen Worten oder Wendungen generiert, und es wird auf Grundlage des Privatheitskennwertes Information angezeigt, die einen Nutzer auffordern kann, die Textdaten zu modifizieren, um das Offenlegen privater Information einzudämmen.
Das nachfolgende nicht beschränkende Beispiel ist angegeben, um gewisse Ausführungsformen einzuführen. Bei diesem Beispiel ist ein Privatheitsüberwachungssystem in Kommunikation mit einem Webserver, der Daten zur Wiedergabe einer grafischen Schnittstelle (beispielsweise einer grafischen Nutzerschnittstelle (GUI)) auf einer Nutzervorrichtung bereitstellt. Die grafische Schnittstelle beinhaltet Textfelder, die zum Empfangen von Textdaten konfiguriert sind. Das Privatheitsüberwachungssystem ruft Textdaten, wenn diese von einem Nutzer eingegeben werden, ab, identifiziert Elemente der Textdaten wie auch Beziehungen zwischen verschiedenen Elementen der Textdaten, die ein Privatheitsrisiko darstellen. Das Privatheitsüberwachungssystem detektiert beispielsweise das Eintragen eines Satzes von unstrukturierten Textdaten, die in ein Eingabefeld einer grafischen Schnittstelle eingegeben werden. Die grafische Schnittstelle wird zum Bearbeiten und öffentlichen Posten von Information, so beispielsweise einer Produktbewertung, zum Posten in sozialen Medien, für eine Kleinanzeige und dergleichen mehr benutzt. Das Contentabrufsubsystem überwacht das Eintragen von Information in das Eingabefeld und initiiert beim Detektieren des Eintragens von Information eine Verarbeitung des Textes, um private Angelegenheiten zu identifizieren. Private Angelegenheiten können aus Informationen stammen, die vertrauliche Daten offenlegen, so beispielsweise aus eine Person identifizierender Information (Personally Identifying Information PII), die für sich oder in Kombination mit anderen öffentlich zugänglichen Daten zum Identifizieren einer Person benutzt werden kann. Beispiele für derartige vertrauliche Daten beinhalten die Adresse der Person, die Stadt, eine Bushaltestelle, medizinische Angelegenheiten und dergleichen mehr.
In Fortführung dieses Beispiels verarbeitet das Privatheitsüberwachungssystem die Textdaten zum Identifizieren von Entitäten, die privater Information zugeordnet sind. Zu diesem Zweck wendet das Privatheitsüberwachungssystem ein maschinell lernendes Modell auf die Textdaten an. Das maschinell lernende Modell ist ein eine benannte Entität betreffender Erkenner (named entity recognizer), der auf das Identifizieren von spezifischen Kategorien von Entitäten trainiert ist, die potenziellen privaten Angelegenheiten zugeordnet sind, so beispielsweise Ortsinformation, medizinische Information und dergleichen. Das Privatheitsüberwachungssystem generiert ein Graphenmodell der Entitäten und identifiziert Verbindungen zwischen den Entitäten und dem Umstand, wie die Entitäten zusammenhängen, was zum Generieren eines Privatheitskennwertes benutzt wird, der das potenzielle Offenliegen privater Information durch den Satz von unstrukturierten Textdaten angibt. Die Verbindungen zwischen den Entitäten tragen zu dem Privatheitskennwert entsprechend einem kumulativen Privatheitsrisiko bei. Dies kann über das Graphenmodell implementiert werden, indem Verknüpfungen zwischen verschiedenen Entitäten auf Grundlage von deren kumulativem Risiko gewichtet werden. So führt das Preisgeben zweier Stücke von Ortsinformation, so beispielsweise einer Stadt und einer Straße, beispielsweise zu einer stärkeren Privatheitsverletzung als das Preisgeben eines Stücks von Gesundheitsinformation und eines Stücks von Ortsinformation, so beispielsweise, dass die Person Asthma hat und in Dallas lebt. Entsprechend können Gewichtungen in dem Graphenmodell bei Verknüpfungen zwischen gleichen Entitätstypen schwerwiegender als bei Verknüpfungen zwischen verschiedenen Entitätstypen sein.
Bei diesem Beispiel berechnet das Privatheitsüberwachungssystem auf Grundlage der Entitäten in dem Graph und der gewichteten Verknüpfungen zwischen den Entitäten einen Privatheitskennwert, der beim Vorschlagen oder auf andere Weise erfolgenden Angeben von Bearbeitungen, die das Risiko der Offenlegung vertraulicher Daten senken, von Nutzen ist. Das Privatheitsüberwachungssystem vergleicht den Privatheitskennwert mit einer oder mehreren Schwellen zum Identifizieren dessen, ob der Text modifiziert werden sollte, und zum Identifizieren von vorgeschlagenen Modifikationen (beispielsweise durch Entfernen des Namens einer Straße aus einer Bewertung). Derartige Information, die von dem Privatheitsüberwachungssystem generiert wird, wird an ein Privatheitsüberwachungssystem zum Berichten über die grafische Schnittstelle ausgegeben. Zur Erleichterung der Bearbeitung des Textes aktualisiert das Privatheitsüberwachungssystem die grafische Schnittstelle mit dem Ziel des Aufnehmens einer Angabe zum Unterscheiden eines Zielabschnittes des Satzes von unstrukturierten Textdaten (beispielsweise einer oder mehrerer Entitäten) innerhalb des Eingabefeldes von anderen Abschnitten des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes. Beim Detektieren einer Modifikation an dem Zielabschnitt kann das Privatheitsüberwachungssystem die Analyse wiederholen, um einen aktualisierten Privatheitskennwert zu identifizieren, und die Vorschläge modifizieren oder entfernen. Das System kann private Angelegenheiten daher in Echtzeit identifizieren, indem es Text, wenn der Text von einem Nutzer eingegeben wird, abruft und verarbeitet, um aus dem Stand Vorschläge zu unterbreiten, die dazu benutzt werden können, das Erzeugen von Textcontent (beispielsweise bei einem Online-Post) bei verringertem Offenliegen privater Information oder anderer vertraulicher Daten zu unterstützen.
Wie hier beschrieben wird, bieten gewisse Ausführungsformen Verbesserungen für Rechenumgebungen durch Lösen von Problemen, die für Online-Contentbearbeitungswerkzeuge spezifisch sind. Diese Verbesserungen beinhalten die Bereitstellung einer Echtzeitrückmeldung in einem Bearbeitungswerkzeug, die einen Nutzer über eine potenzielle Offenlegung vertraulicher Daten alarmiert, bevor die vertraulichen Daten im Internet veröffentlicht werden. Online-Rechenumgebungen bergen spezifische Risiken für diesen Typ der Offenlegung vertraulicher Daten, da das Internet oder andere Datennetzwerke eine nahezu instantane Veröffentlichung und Übertragung an eine große Anzahl von Empfängern ermöglicht, wohingegen die Art die Nutzung, die von einem Online-Contentbearbeitungswerkzeug (beispielsweise bei einer Veröffentlichung durch Klicken einer einzigen Schaltfläche) bereitgestellt wird, das Risiko dahingehend erhöht, dass diese Veröffentlichung und Übertragung versehentlich erfolgen. Die riesige Menge von Information, die über das Internet verfügbar ist, beschränkt zudem die Fähigkeit eines Nutzers, genau zu bestimmen, welche gegebenen einzelnen Daten, die in einem Online-Forum gepostet werden, mit anderen öffentlich verfügbaren Daten kombiniert werden können, um den Nutzer zu identifizieren. Da diese Probleme für Rechenumgebungen spezifisch sind, nutzen die hier beschriebenen Ausführungsformen maschinell lernende Modelle und andere automatisierte Modelle, die zum Eindämmen des Risikos einer unbeabsichtigten Verbreitung von Nutzerdaten über das Internet oder ein anderes Datennetzwerk besonders geeignet sind. Ein Rechensystem wendet - und dies bisweilen auch in Echtzeit - beispielsweise automatisch verschiedene Regeln eines bestimmten Typs (beispielsweise verschiedene Funktionen, die in einem oder mehreren Modellen erfasst werden) auf Text an, der in eine Nutzerschnittstelle eingegeben wird. Die Regeln können beim Detektieren einer potenziellen Offenlegung vertraulicher Daten wenigstens aus dem Grund effektiver sein, dass das System unter Nutzung eines großen Corpus von Information darauf trainiert ist, verschiedene Grade von vertraulicher privater Information in Text sowohl für sich als auch in Verbindung mit vorherigen Posts zu identifizieren und zu quantifizieren, anstatt sich auf subjektive Beurteilungen eines Nutzers, der den Content postet, zu verlassen.
Zusätzlich oder alternativ bieten gewisse Ausführungsformen Verbesserungen gegenüber bestehenden Softwarewerkzeugen zum sicheren Erstellen von Online-Content. Bestehende Softwarewerkzeuge erfordern beispielsweise, dass Nutzer bei Nutzung eines auf einem Computer ausgeführten Bearbeitungswerkzeuges den Grad des Risikos, der dem Eingeben gewisser Daten in ein Online-Bearbeitungswerkzeug zugeordnet ist, subjektiv bestimmen. Sich auf solche subjektiven Bestimmungen zu verlassen, kann der Art der Nutzung von Bearbeitungswerkzeugen, die zum Erstellen von Online-Content benutzt werden, abträglich sein. Hier beschriebene Ausführungsformen können einen automatisierten Prozess zum Erstellen von Online-Content vereinfachen, bei dem der Rückgriff auf subjektive, manuelle Bestimmungen durch einen Nutzer vermieden wird. Die Kombination mit einem maschinell lernenden Modell, das mit den strukturellen Merkmalen einer Nutzerschnittstelle gekoppelt ist (beispielsweise durch Vorschläge oder andere Angaben über potenzielle Bearbeitungen zur Verringerung von Offenlegungsrisiken), verbessert beispielsweise die Funktionalität eines Online-Bearbeitungswerkzeuges. Diese Merkmale können den manuellen, subjektiven Aufwand verringern, der mit dem Verhindern der Offenlegung vertraulicher Daten bei bestehenden Contentbearbeitungswerkzeugen einhergeht.
Im Sinne des Vorliegenden wird der Begriff „private Information“ benutzt, um Information, die zum Identifizieren einer Person benutzt werden kann, oder vertrauliche Information über diese Person zu bezeichnen. Beinhalten kann private Information beispielsweise Information, die eine Person direkt identifiziert, so beispielsweise Name, Adresse oder Information über die soziale Sicherung, wie auch Information, die die Person indirekt identifiziert, so beispielsweise Ethnie, Alter und Wohnort. Gewisse Kategorien von Information über eine Person sind ebenfalls privat, so beispielsweise medizinische Angaben und Information über den Arbeitsplatz.
Im Sinne des Vorliegenden wird der Begriff „Entität“ benutzt, um ein Wort oder eine Wendung zu bezeichnen, die einer definierten Kategorie oder einem Typ von Information entsprechen. Eine Entität kann ein Eigenname sein (beispielsweise „John Smith“, „Hauptstraße 124“). Eine Entität kann jedoch auch eine Wendung sein, die eine ausgewählte Kategorie von Information darstellt (beispielsweise „schmerzender Rücken“, „Ananas“, „sieben Enkel“). Entitäten können Kategorien oder Typen entsprechen, so beispielsweise Orten, Dingen, Menschen, medizinischen Angaben und dergleichen. Gewisse Entitäten sind privater Information zugeordnet, so beispielsweise Ortsinformation, medizinische Information und Information über den Arbeitsplatz.
Im Sinne des Vorliegenden wird der Begriff „Privatheitsrisiko“ benutzt, um den Grad der potenziellen Offenlegung privater Information zu bezeichnen. Je privater Information ist und je vertraulicher private Information ist, desto höher ist das Privatheitsrisiko. Das Privatheitsrisiko kann für eine einzelne Offenlegung (beispielsweise für einen einzigen Online-Post) oder kumulativ (beispielsweise für mehrere Online-Posts) nachgewiesen werden.
Beispiel für eine Betriebsumgebung zur Vorhersage einer Privatheitsverletzung in Echtzeit
1 zeigt ein Beispiel für eine Rechenumgebung 100, in der Contentbearbeitungswerkzeuge maschinell lernende Modelle nutzen, um Contentmodifikationen zur in Echtzeit erfolgenden Behandlung von potenziellen Privatheitsverletzungen anzugeben. Bei dem in 1 dargestellten Beispiel postet eine Nutzervorrichtung 102 Information mittels eines Webservers 109. Ein Privatheitsüberwachungssystem 110 bewertet die Information zum Identifizieren von privaten Angelegenheiten unter Nutzung eines Contentabrufsubsystems 112, eines NLP-Subsystems (Natural Language Processing NLP, Verarbeitung natürlicher Sprache) 114, eines Medienverarbeitungssubsystems 116 und eines Berichtssubsystems 120. Die Subsysteme beinhalten ein oder mehrere trainierte maschinell lernende Modelle, die unter Nutzung eines Trainingssubsystems 122 und unter Nutzung von Trainingsdaten 126A bis 126N trainiert worden sind.
Die verschiedenen Subsysteme des Privatheitsüberwachungssystems 110 können in demselben Rechensystem oder in verschiedenen, unabhängig betriebenen Rechensystemen implementiert sein. Das Trainingssubsystem 122 kann beispielsweise eine von dem NLP-Subsystem 114, dem Medienverarbeitungssubsystem 116 und dem Kennwertzuteilungssubsystem 118 separate Entität oder auch dieselbe Entität sein. Verschiedene, unabhängig betriebene Webdienste 109 können mit dem Privatheitsüberwachungssystem 110 kommunizieren, oder es kann das Privatheitsüberwachungssystem 110 ein Teil desselben Online-Dienstes wie der Webdienst sein. Obwohl das System von 1 benutzt werden kann, können andere Ausführungsformen implizieren, dass das Privatheitsüberwachungssystem 110 in eine Softwareanwendung, die auf der Clientvorrichtung 102 ausgeführt wird, eingebaut sind, und zwar beispielsweise als Plug-in in eine Art von Textverarbeitungssoftware.
Einige Ausführungsformen der Rechenumgebung 100 beinhalten eine Nutzervorrichtung 102. Beispiele für eine Nutzervorrichtung beinhalten unter anderem einen PC, einen Tablet-Computer, einen Desktop-Computer, eine Verarbeitungseinheit, eine beliebige Kombination aus diesen Vorrichtungen oder eine beliebige andere geeignete Vorrichtung mit einem oder mehreren Prozessoren. Ein Nutzer der Nutzervorrichtung 102 interagiert mit einer grafischen Schnittstelle 104 durch Austauschen von Daten mit dem Webserver 109 und dem Privatheitsüberwachungssystem 110 über ein Datennetzwerk.
Die Nutzervorrichtung ist kommunikationstechnisch mit dem Webserver 109 und dem Privatheitsüberwachungssystem 110 über das Datennetzwerk gekoppelt. Beispiele für das Datennetzwerk beinhalten unter anderem das Internet, ein Ortsbereichsnetzwerk („LAN“), ein drahtloses Bereichsnetzwerk, ein verdrahtetes Bereichsnetzwerk, ein Großbereichsnetzwerk und dergleichen.
Die grafische Schnittstelle 104 ist eine Schnittstelle, so beispielsweise eine GUI, die Information anzeigen und empfangen kann. Die grafische Schnittstelle 104 beinhaltet ein Contentbearbeitungswerkzeug zum Empfangen und Modifizieren von Content (beispielsweise Content, der online gepostet werden soll). Die grafische Schnittstelle 104 beinhaltet ein Textfeld 105 zum Empfangen von Textdaten 106. Das Textfeld 105 ist beispielsweise ein Schnittstellenelement mit Konfigurierung zum Empfangen von eingetippten Textdaten 106 von einem Nutzer der Nutzervorrichtung 102. Konfiguriert ist das Textfeld 105 alternativ oder zusätzlich bei einigen Ausführungsformen zum Empfangen von Textdaten, die das System identifiziert, indem es eine gesprochene Nutzereingabe (beispielsweise unter Nutzung von Sprache-zu-Text-Verarbeitungstechniken) identifiziert.
Bei einigen Implementierungen beinhaltet die grafische Schnittstelle 104 des Weiteren Hochladeelemente 107, mit denen ein Nutzer zusätzliche Information, so beispielsweise Bilder oder Videos, hochladen kann. In Reaktion auf die nutzerseitige Auswahl eines Hochladeelementes geht die grafische Schnittstelle 104 zu einer Ansicht über, die zum Hochladen verfügbare Dateien zeigt, die einen Nutzer zur Aufnahme eines Fotos auffordert, und dergleichen mehr.
Die grafische Schnittstelle 104 ist des Weiteren konfiguriert zum Anzeigen von Privatheitsalarmen 108 in Reaktion auf Signale von dem Privatheitsüberwachungssystem 110 (direkt oder durch Vermittlung des Webservers 109). Die Privatheitsalarme 108 beinhalten beispielsweise Information zur Kennzeichnung eines Risikos, das Abschnitten der Textdaten 106 zugeordnet ist (beispielsweise einen Privatheitsrisikokennwert, verschiedene farbige Markierungen (flags), Warnungen und dergleichen). Bei einigen Implementierungen geben die Privatheitsalarme 108 Abschnitte der Textdaten 106 an, die einem potenziellen Offenliegen privater Information zugeordnet sind (beispielsweise durch Hervorheben, Drucken in einer anderen Farbe, Sprechblasen mit erläuterndem Text und dergleichen). Beispiele für eine grafische Schnittstelle 104, die Textfelder 105, Hochladeelemente 107 und Privatheitsalarme 108 beinhaltet, sind in 3A bis 3D dargestellt.
Bei einigen Ausführungsformen ist der Webserver 109 einer Entität zugeordnet, so beispielsweise einem sozialen Netzwerk, einem Online-Händler oder verschiedenen anderen Webseiten, die Nutzern das Posten von Information ermöglichen. Der Webserver 109 beinhaltet eine Funktionalität zum Betreiben einer Webseite (die ein Contentbearbeitungswerkzeug beinhalten kann) und Annehmen einer zum Modifizieren der Webseite vorgesehenen Eingabe von der Nutzervorrichtung 102 und/oder dem Privatheitsüberwachungssystem 110. Bei einigen Implementierungen ist der Webserver 109 eine separate Entität und eine separate Rechenvorrichtung bezüglich des Privatheitsüberwachungssystems 110. Alternativ ist der Webserver 109 bei einigen Implementierungen eine Komponente des Privatheitsüberwachungssystems 110.
Das Privatheitsüberwachungssystem 110 überwacht aktualisierte Information, die von der Nutzervorrichtung 102 über die grafische Schnittstelle 104 empfangen wird, und analysiert die Information hinsichtlich eines Privatheitsrisikos. Bei einigen Ausführungsformen wird sodann eine Angabe des Privatheitsrisikos durch Aktualisieren der grafischen Schnittstelle 104 präsentiert. Das Privatheitsüberwachungssystem 110 beinhaltet ein Contentabrufsubsystem 112, ein NLP-Subsystem (Natural Language Processing NLP, Verarbeitung natürlicher Sprache) 114, ein Medienverarbeitungssubsystem 116, ein Kennwertzuteilungssubsystem 118, ein Berichtssubsystem 120 und ein Trainingssubsystem 122. Bei einigen Ausführungsformen beinhaltet das Privatheitsüberwachungssystem des Weiteren eine oder mehrere Datenspeichereinheiten (124A, 124B, ... 124N) zum Speichern von Trainingsdaten (A-Trainingsdaten 126A, B-Trainingsdaten 126B, ..., N-Trainingsdaten 126N) oder ist kommunikationstechnisch mit diesen gekoppelt.
Das Contentabrufsubsystem 112 beinhaltet Hardware und/oder Software mit Konfigurierung zum Abrufen von Content, den ein Nutzer in die grafische Schnittstelle 104 eingibt. Das Contentabrufsubsystem 112 ist konfiguriert zum Abrufen von unstrukturierten Textdaten 106, wenn diese in das Textfeld 105 der grafischen Schnittstelle 104 eingegeben werden. Bei einigen Implementierungen ist das Contentabrufsubsystem 112 des Weiteren konfiguriert zum Abrufen von Medien, so beispielsweise von Bildern und Videos, die über die Hochladeelemente 107 hochgeladen werden.
Das NLP-Subsystem 114 beinhaltet Hardware und/oder Software mit Konfigurierung zur Durchführung einer Verarbeitung natürlicher Sprache zum Identifizieren von Entitäten (beispielsweise von gewissen Worten und Wendungen), die einem Privatheitsrisiko zugeordnet sind. Bei einigen Ausführungsformen wendet das NLP-Subsystem 114 ein maschinell lernendes Modell an, das auf das Erkennen von Entitäten trainiert ist, die einem Privatheitsrisiko zugeordnet sind, so beispielsweise von gesundheitsbezogenen Worte oder Wendungen, Straßennamen, Städtenamen und dergleichen. Beispiele für Wendungen, die einem Privatheitsrisiko zugeordnet werden können, beinhalten:

- Die Aussage „für unser Badezimmer oben“ impliziert ein mehr als eingeschossiges Haus.
- Die Aussage „Sommer in Texas“ trägt zum Feststellen des Aufenthaltsortes eines Nutzers bei.
- Die Aussage „Besorgen eines Screenreaders für die Privatheit im Cafe nebenan“ trägt zum Feststellen des Aufenthaltsortes eines Nutzers bei.
- Die Aussage „Gekauft für das Asthma meines Sohnes“ gibt eine medizinische Angabe preis.

Das Medienverarbeitungssubsystem 116 beinhaltet Hardware und/oder Software mit Konfigurierung zum Analysieren von Mediendateien zum Identifizieren von Entitäten. Das Medienverarbeitungssubsystem 116 ist konfiguriert zum Verarbeiten eines Bildes oder Videos zum Identifizieren von Metadaten und/oder Text innerhalb des Bildes selbst. Bei einigen Aspekten werden die Entitäten durch Analysieren einer Mediendatei zum Identifizieren von Metadaten (darunter beispielsweise Ortsinformation) identifiziert. Alternativ oder zusätzlich identifiziert das Medienverarbeitungssubsystem 116 die Entitäten durch Analysieren eines Bildes (beispielsweise zum Identifizieren eines Wortes auf einem Schild in einem Foto).
Das Kennwertzuteilungssubsystem 118 beinhaltet Hardware und/oder Software mit Konfigurierung zum Generieren eines Privatheitskennwertes auf Grundlage der Entitäten, die von dem NLP-Subsystem 114 und/oder dem Medienverarbeitungssubsystem 116 identifiziert werden. Das Kennwertzuteilungssubsystem 118 generiert beispielsweise einen Graphen von identifizierten Entitäten. Durch (faktorartiges) Einbeziehen von Gewichtungen, die den Verknüpfungen zwischen den Entitäten zugewiesen werden, generiert das Kennwertzuteilungssubsystem 118 den Privatheitskennwert, der das Offenliegen der gesamten Information der Entitäten als Ganzes darstellt. Bei einigen Aspekten identifiziert das Kennwertzuteilungssubsystem des Weiteren vorgeschlagene Handlungen, bestimmte Worte, die entfernt oder modifiziert werden sollten, und dergleichen, wie hier noch beschrieben wird.
Das Berichtssubsystem 120 beinhaltet Hardware und/oder Software mit Konfigurierung zum Generieren und an den Nutzer erfolgenden Übertragen von Alarmen, die den Privatheitskennwert und andere Information, die von dem Kennwertzuteilungssubsystem 118 generiert wird, beinhalten kann. Das Berichtssubsystem 120 veranlasst das Anzeigen von Privatheitsalarmen 108 auf der grafischen Schnittstelle 104. Die Privatheitsalarme 108 beinhalten grafische Anzeigen, so beispielsweise Text, hervorgehobene Textabschnitte und dergleichen mittels desgleichen. Alternativ oder zusätzlich beinhalten die Privatheitsalarme 108 bei einigen Implementierungen akustische Alarme, so beispielsweise ein Piepen oder eine Sprachausgabe.
Das Trainingssubsystem 122 beinhaltet Hardware und/oder Software mit Konfigurierung zum Trainieren eines oder mehrerer maschinell lernender Modelle, die von dem NLP-Subsystem 114, dem Medienverarbeitungssubsystem 116 und/oder dem Kennwertzuteilungssubsystem 118 benutzt werden. Ein exemplarischer Trainingsprozess wird nachstehend anhand 4 beschrieben.
Die Datenspeichereinheiten 124A, 124B, ..., 124N können als eine oder mehrere Datenbanken oder als ein oder mehrere Datenserver implementiert sein. Die Datenspeichereinheiten 124A, 124B, ..., 124N beinhalten Trainingsdaten 126A, 126B, ..., 126N, die von dem Trainingssubsystem 122 und andere Engines des Privatheitsüberwachungssystems 110, wie nachstehend noch detaillierter beschrieben wird, benutzt werden.
Beispiele für Vorgänge der Vorhersage einer Privatheitsverletzung in Echtzeit
2 zeigt ein Beispiel für einen Prozess 200 zum in Echtzeit erfolgenden Aktualisieren einer Schnittstelle eines Contentbearbeitungswerkzeuges zum Angeben von potenziellen Bearbeitungen, die das Offenlegen privater Information verringern. Bei diesem Beispiel detektiert das Privatheitsüberwachungssystem 110 eine Eingabe in die grafische Schnittstelle 104 über das Contentabrufsubsystem 112. Die Eingabe wird in einer Pipeline verarbeitet, die das NLP-Subsystem 114, das Kennwertzuteilungssubsystem 118 und in einigen Fällen das Medienverarbeitungssubsystem 116 beinhaltet. Stellt ein Abschnitt der Eingabe ein über eine akzeptable Schwelle hinausgehendes Risiko hinsichtlich der Offenlegung privater Information dar, so modifiziert das Berichtssubsystem 120 die grafische Nutzerschnittstelle 104 mit dem Ziel des Aufnehmens von Privatheitsalarmen 108, die veranlassen können, dass der Nutzer die eingegebene Information modifiziert. Alternativ oder zusätzlich kann das Privatheitsüberwachungssystem bei anderen Ausführungsformen als Teil einer Softwareanwendung, die auf einer Clientvorrichtung ausgeführt wird, ausgeführt werden, wobei die Softwareanwendung einen oder mehrere der Blöcke 202 bis 206, 212 und 214 durchführen kann. Bei einigen Ausführungsformen implementieren eine oder mehrere Verarbeitungsvorrichtungen die in 2 dargestellten Vorgänge durch Ausführen eines geeigneten Programmcodes. Zu illustrativen Zwecken wird der Prozess 200 anhand gewisser in den Figuren dargestellter Beispiele beschrieben. Andere Implementierungen sind jedoch möglich.
Bei Block 202 empfängt das Contentabrufsubsystem einen Satz von unstrukturierten Textdaten, die in ein Eingabefeld der grafischen Schnittstelle eingegeben werden. Gibt ein Nutzer Textdaten in die grafische Schnittstelle ein, so detektiert und identifiziert das Contentabrufsubsystem die eingegebenen Textdaten. Das Contentabrufsubsystem ruft die unstrukturierten Textdaten beispielsweise als Stream oder in Chunks ab, wenn der Nutzer Text über die grafische Nutzerschnittstelle eintippt. Das Contentabrufsubsystem kann den Satz von unstrukturierten Textdaten direkt von der Nutzervorrichtung oder über einen zwischengeschalteten Webserver abrufen.
Eine Verarbeitungsvorrichtung führt einen Programmcode des Contentabrufsubsystems 112 zum Implementieren des Blocks 202 aus. Der Programmcode für das Contentabrufsubsystem 112, der in einem nichttemporären computerlesbaren Medium gespeichert ist, wird beispielsweise von einer oder mehreren Verarbeitungsvorrichtungen ausgeführt.
Ein oder mehrere Vorgänge in Blöcken 204 bis 210 implementieren einen Schritt zum Berechnen eines Privatheitskennwertes für die Textdaten zur Angabe eines potenziellen Offenliegens privater Information durch den Satz von unstrukturierten Textdaten. Bei einigen Implementierungen empfängt das Contentabrufsubsystem bei Block 204 ein Bild oder Video mit Zuordnung zu den unstrukturierten Textdaten. Das Contentabrufsubsystem identifiziert beispielsweise ein Bild oder Video in Reaktion auf ein Detektieren dessen, dass ein Nutzer mit der Schaltfläche „Hochladen“ interagiert und eine auf der Nutzervorrichtung gespeicherte Mediendatei auswählt. Alternativ oder zusätzlich nimmt der Nutzer ein Bild oder Video während des Vorlegens über die grafische Nutzerschnittstelle auf.
Bei Block 206 verarbeitet das Medienverarbeitungssubsystem die Bild- oder Videodatei zum Identifizieren von Metadaten. Bei einigen Ausführungsformen extrahiert das Medienverarbeitungssubsystem Metadaten aus einer empfangenen Mediendatei (beispielsweise JPEG, MP4 und dergleichen). Alternativ oder zusätzlich analysiert das Medienverarbeitungssubsystem die Bild- oder Videodaten selbst zum Identifizieren von Worten. Ein Bild beinhaltet beispielsweise den Namen einer Straße, eines Gebäudes oder einer Bushaltestelle. Das Medienverarbeitungssubsystem führt eine optische Zeichenerkennung an einem Bild oder Video aus, um weiter darin Worte zu identifizieren. Sowohl die Metadaten wie auch die identifizierten Worte können von dem Privatheitsüberwachungssystem als zusätzliche Textdaten zur Nutzung bei der Privatheitsanalyse behandelt werden.
Bei Block 208 verarbeitet das NLP-Subsystem die Textdaten zum Identifizieren von mehreren Entitäten, die privater Information zugeordnet sind, unter Nutzung eines trainierten maschinell lernenden Modells. Beispiele für Typen von Entitäten, die einem Privatheitsrisiko zugeordnet sind, beinhalten Namen, Straßen und örtliche Orientierungspunkte, so beispielsweise Schulen, Museen, Bushaltestellen und dergleichen. Weitere Beispiele für Entitäten, die einem Privatheitsrisiko zugeordnet sind, beinhalten Information über den Gesundheitszustand, Information über den familiären Status und Information über den Status des Arbeitsplatzes. Bei einigen Implementierungen wird wenigstens ein Teilsatz der Metadaten, der bei Block 206 identifiziert wird, des Weiteren in das maschinell lernende Modell zum Identifizieren der Entitäten eingegeben.
Bei einigen Ausführungsformen verarbeitet das NLP-Subsystem die Daten in Reaktion auf das Detektieren des Eintragens der Textdaten bei Block 202. Bei einigen Implementierungen verarbeitet das NLP-Subsystem des Weiteren Information, die aus einer Mediendatei bei Block 206 identifiziert worden ist. Das NLP-Subsystem identifiziert die mehreren Entitäten, die der privaten Information zugeordnet sind, wenigstens durch Anwenden eines trainierten maschinell lernenden Modells auf den Satz von unstrukturierten Textdaten in dem Eingabefeld. Alternativ oder zusätzlich wendet das NLP-Subsystem das trainierte maschinell lernende Modell auf identifizierte Bildmetadaten und/oder Worte, die bei Block 206 aus Bildern identifiziert worden sind, an.
Bei einigen Aspekten ist das trainierte maschinell lernende Modell ein eine benannte Entität betreffender Erkenner (named entity recognizer), der auf das Identifizieren von gewissen Worten oder Kategorien von Worten, die einem Privatheitsrisiko zugeordnet sind, trainiert worden ist. Der eine benannte Entität betreffende Erkenner verarbeitet Textdaten zum Identifizieren von Entitäten innerhalb der Textdaten und markiert die Textdaten sodann mit Information im Zusammenhang mit den identifizierten Entitäten. Das maschinell lernende Modell wird unter Nutzung von Techniken wie beispielsweise den nachstehend anhand 4 beschriebenen trainiert. Bei einigen Implementierungen ist das maschinell lernende Modell ein neuronales Netzwerk, so beispielsweise eine rekurrentes neuronales Netzwerk (RNN), ein faltungstechnisches neuronales Netzwerk (CNN) oder ein neuronales Deep-Netzwerk. Bei einigen Implementierungen ist das maschinell lernende Modell ein Ensemble-Modell (darunter beispielsweise ein neuronales Netzwerk und ein anderer Typ von Modell, so beispielsweise eine regelbasiertes Modell).
Bei Block 210 berechnet das Kennwertzuteilungssubsystem einen Privatheitskennwert für die Textdaten durch Identifizieren von Verbindungen zwischen den Entitäten. Bei einigen Ausführungsformen generiert das Kennwertzuteilungssubsystem ein Graphenmodell (auch als Graph bezeichnet) von Entitäten, das Verbindungen zwischen den Entitäten beinhaltet. Die Knoten des Graphen sind Entitäten, die Entitäten, die bei Block 202 aus Textdaten identifiziert worden sind, wie auch Entitäten, die bei Block 206 aus Bildmetadaten oder den Bildern selbst identifiziert worden sind, beinhalten können. Die Verbindungen zwischen den Entitäten tragen zu dem Privatheitskennwert entsprechend einem kumulativen Privatheitsrisiko bei. Beispielsweise werden die Verbindungen zwischen verschiedenen Entitäten verschieden gewichtet, um das erhöhte Risiko des gemeinsamen Offenliegens gewisser Entitäten zu berücksichtigen. Bei einem spezifischen Beispiel stellen ein Straßenname und ein Städtename zusammen ein vergleichsweise hohes kumulatives Privatheitsrisiko dar, da beide zusammen zum Identifizieren eines Ortes benutzt werden können, während die Kombination einer verabreichten Medikamentierung und eines Straßennamens ein geringeres kumulatives Privatheitsrisiko darstellen, da die Entitäten weniger stark zusammenhängen. Das Kennwertzuteilungssubsystem kann sodann den Privatheitskennwert als Funktion der Anzahl von Verknüpfungen und der Gewichtungen dieser Verknüpfungen generieren. Entsprechend bestimmt das Kennwertzuteilungssubsystem bei einigen Ausführungsformen Entitätstypen (beispielsweise den medizinischen Zustand, die Straße, das Alter und dergleichen). Unter Nutzung der bestimmten Entitätstypen weist das Kennwertzuteilungssubsystem den Verknüpfungen zwischen Entitäten in einem Graphenmodell Gewichtungen zu, wobei der Privatheitskennwert eine Funktion der Gewichtungen ist. Der Privatheitskennwert gibt ein potenzielles Offenliegen privater Information durch den Satz von unstrukturierten Textdaten an.
Bei einigen Aspekten bestimmt das Kennwertzuteilungssubsystem den Vertraulichkeitsgrad einer jeden identifizierten Entität. Bei einigen Aspekten werden die Entitäten gewichtet oder mit verschiedenen Vertraulichkeitskategorien etikettiert. Gewissen Entitäten wird beispielsweise entsprechend dem Entitätstyp eine höhere Gewichtung als anderen Entitäten zugewiesen. Bei einem spezifischen Beispiel werden spezifischere Entitäten stärker als allgemeinere Entitäten gewichtet (Beispielsweise wird der Name der Straße, in der der Nutzer lebt, stärker als der Name des Kontinents, auf dem der Nutzer lebt, gewichtet). Bei einigen Ausführungsformen wird das maschinell lernende Modell zum Erkennen dieser Vertraulichkeitsgrade (beispielsweise unter Nutzung der zugewiesenen Etiketten) trainiert. Entitäten im Zusammenhang mit medizinischer, gesundheitlicher und finanzieller Information werden beispielsweise mit dem höchsten Vertraulichkeitgrad etikettiert. Ein anderer Satz von Entitäten kann sodann mit einem mittleren Vertraulichkeitsgrad etikettiert werden (beispielsweise solche, die mit der Demografie und dem Aufenthaltsort zusammenhängen).
Bei einigen Aspekten generiert das Kennwertzuteilungssubsystem einen personalisierten Graph für den Nutzer auf Grundlage eines oder mehrerer Texteinträge. Bei einigen Ausführungsformen generiert das Kennwertzuteilungssubsystem einen Graph, der Information beinhaltet, die aus mehreren Texteinträgen (beispielsweise aus mehreren Bewertungen, mehreren Posts in sozialen Medien und dergleichen) hergeleitet ist. Bei einem Beispiel ist der Text, der bei Block 202 empfangen wird, eine Produktbewertung, die von dem System in Echtzeit detektiert wird. Das Privatheitsüberwachungssystem ist mit anderen Seiten, so beispielsweise sozialen Medien, gekoppelt, um andere Posts, die von dem Nutzer in anderen Kontexten getätigt werden, zu identifizieren. Zusammen kann diese Information zum Generieren des Graphen benutzt werden. Alternativ oder zusätzlich generiert das Kennwertzuteilungssubsystem den Graph unter Nutzung des aktuellen Texteintrages. Der Graph besteht aus Knoten in Form der identifizierten Entitäten und Verbindungen zwischen den Knoten, die entsprechend der Beziehung zwischen den Entitäten gewichtet werden. Bei einigen Ausführungsformen werden die Gewichtungen entsprechend Regeln zugewiesen. Alternativ wird maschinelles Lernen zum Berechnen von geeigneten Gewichtungen benutzt. Auf Grundlage der Verbindungen und ihrer Gewichtungen generiert das Kennwertzuteilungssubsystem einen Kennwert zur Angabe der gesamten offenliegenden vertraulichen Information.
Gibt ein Nutzer beispielsweise eine Bewertung ein, so erstellt das Kennwertzuteilungssubsystem einen personalisierten Graphen von extrahierten Entitäten, die gemäß dem Vertraulichkeitsgrad dem Rang nach geordnet sind, wodurch ein Kennwert für die Bewertung des Nutzers erzeugt wird. Kehrt ein Nutzer zu dem System zurück und beginnt mit dem Verfassen einer weiteren Bewertung, so wird der zugehörige Graph der vertraulichen Entitäten erweitert (sodass Entitäten aus einer vorherigen Bewertung mit der neuen Bewertung verknüpft werden). Auf diese Weise wird einer Bewertung entsprechend der Information, die sie isoliert preisgibt, wie auch in Kombination mit Information, die bei vorherigen Bewertungen offengelegt worden ist, ein Kennwert zugeteilt.
Entsprechend detektiert das Contentabrufsubsystem bei einigen Aspekten vor dem Empfangen des ersten Satzes von unstrukturierten Textdaten (beispielsweise bei einem vorherigen Post des Nutzers) das Eintragen eines zweiten Satzes von unstrukturierten Textdaten, die in das Eingabefeld eingegeben werden. Das Contentabrufsubsystem identifiziert in Reaktion auf das Detektieren des Eintragens und mit dem natürliche Sprache verarbeitenden System mehrere zweite Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden des trainierten maschinell lernenden Modells auf den zweiten Satz von unstrukturierten Textdaten in dem Eingabefeld. Diese mehreren zweiten Entitäten können dieselben, aber auch andere Entitäten, die der Nutzer bei einem vorherigen Post eingegeben hat, darstellen. Der Nutzer hat beispielsweise Text, der die Entitäten „Hauptstraße“, „Georgia“ und „Neurochirurg“ bei einer Produktbewertung beinhaltet, am 6. September eingegeben. Später am 25. Oktober hat der Nutzer eine weitere Bewertung eingegeben, die die Entitäten „Georgia“, „fünfter Stock“ und „Abendessen neben meinem Wohnhaus“ beinhaltet. Das Kennwertzuteilungssubsystem aktualisiert den Graph für den Nutzer und berechnet den Privatheitskennwert als Funktion von Verbindungen zwischen den mehreren ersten Entitäten und den mehreren zweiten Entitäten.
Bei einigen Aspekten werden die Gewichtungen, die Verknüpfungen zwischen den Entitäten zugewiesen werden, mit der Zeit schwächer. Verknüpfungen zwischen Entitäten in demselben Post werden beispielsweise stärker gewichtet, wobei die Gewichtungen mit der Zeit schwächer werden. Bei einem spezifischen Beispiel weist eine Entität in einem aktuellen Post eine Verknüpfungsgewichtung von 0,7 mit einer weiteren Entität in dem aktuellen Post, eine Verknüpfungsgewichtung von 0,5 mit einer weiteren Entität in einem Post vom vorherigen Tag und eine Verknüpfungsgewichtung von 0,1 mit einem Post von vor zwei Monaten auf.
Bei einigen Aspekten generiert das Kennwertzuteilungssubsystem den Privatheitskennwert als Funktion der gewichteten Verknüpfungen zwischen den Entitäten und der Vertraulichkeitsgrade der Entitäten selbst. Das Kennwertzuteilungssubsystem nutzt den generierten Graph beispielsweise zum Identifizieren der Knoten und Verknüpfungen zwischen den Knoten und nutzt die entsprechenden Gewichtungen zum Berechnen des Privatheitskennwertes. Als spezifisches Beispiel kann ein Privatheitskennwert unter Nutzung der Funktion $P = 5 \sum_{i} W_{e i} + 3 \sum_{j} W_{i j}$
berechnet werden, wobei P der Privatheitskennwert ist, W_ei die i-te Entitätsgewichtung ist und W_lj die Verknüpfungsgewichtung ist. Bei einigen Implementierungen aktualisiert das Kennwertzuteilungssubsystem den Kennwert kontinuierlich, wenn zusätzlicher Text detektiert wird. Setzt der Nutzer beispielsweise das Eintippen von zusätzlichem Text fort, so wird der Privatheitskennwert aktualisiert, damit er die zusätzlich detektierten Entitäten widerspiegelt.
Bei einigen Aspekten wird der Privatheitskennwert des Weiteren von dem Kennwertzuteilungssubsystem zum Identifizieren eines Privatheitsrisikogrades (beispielsweise eines Sicherheitsgrades) benutzt. Das Kennwertzuteilungssubsystem vergleicht den berechneten Privatheitskennwert beispielsweise mit einer oder mehreren Schwellen. Ist der Privatheitskennwert unter einer Schwelle, so ist der Privatheitsrisikograd „niedrig“; ist der Privatheitskennwert unter einer zweiten Schwelle, so ist der Privatheitsrisikograd „gemäßigt“; und ist der Privatheitskennwert größer oder gleich der zweiten Schwelle, so ist der Privatheitsrisikograd „hoch“.
Eine Verarbeitungsvorrichtung führt einen Programmcode des Kennwertzuteilungssubsystems 118 zum Implementieren von Block 210 aus. Bei einem Beispiel wird der Programmcode für das Kennwertzuteilungssubsystem 118, der in einem nichttemporären computerlesbaren Medium gespeichert ist, von einer oder mehreren Verarbeitungsvorrichtungen ausgeführt. Das Ausführen des Kennwertzuteilungssubsystems 118 veranlasst, dass die Verarbeitungsvorrichtung den Privatheitskennwert berechnet.
Bei Block 212 aktualisiert das Berichtssubsystem die grafische Schnittstelle mit dem Ziel des Aufnehmens einer Angabe zum Unterscheiden eines Zielabschnittes des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes von anderen Abschnitten des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes. Das Berichtssubsystem aktualisiert die grafische Schnittstelle beispielsweise durch Übertragen von Anweisungen an die Nutzervorrichtung (und/oder einen zwischengeschalteten Webserver) und veranlasst dadurch, dass die Nutzervorrichtung die aktualisierte grafische Schnittstelle anzeigt. Das Berichtssubsystem überträgt beispielsweise Anweisungen, die veranlassen, dass die grafische Schnittstelle derart modifiziert wird, dass Entitäten hervorgehoben werden, die Entitäten fett oder in anderen Fonts gezeigt werden, ein Kästchen um die Entitäten herum platziert wird und dergleichen mehr. Alternativ oder zusätzlich veranlasst das Berichtssubsystem die Anzeige einer Angabe eines Privatheitsrisikogrades (beispielsweise eines Sicherheitsgrades), so beispielsweise eines farbigen Codes und/oder von Text. Alternativ oder zusätzlich überträgt das Berichtssubsystem ein Signal, das veranlasst, dass die grafische Schnittstelle Text anzeigt, der das potenzielle Privatheitsrisiko, das die markierten Textdaten darstellen, erläutert. Beispiele für Ansichten einer grafischen Schnittstelle, die Angaben zum Unterscheiden eines Zielabschnittes des Textes und eines Privatheitsrisikogrades anzeigt, sind in 3A bis 3D dargestellt. Bei einigen Implementierungen veranlasst das Berichtssubsystem die Anzeige einer Wortwolke (word cloud), die alles, was ein Nutzer kollektiv über Posts hinweg offenbart hat und was zum Identifizieren des Nutzers benutzt werden kann, abbildet.
Bei einigen Implementierungen werden, wie in 3A bis 3C dargestellt ist, wenn zusätzliche Textdaten von dem Nutzer eingegeben werden, zusätzliche Worte hervorgehoben, und es wird der Privatheitskennwert auf einen Grad höheren Risikos modifiziert. Entsprechend wiederholt, wenn der Nutzer den Text modifiziert, das Privatheitsüberwachungssystem dynamisch die Schritte 202 bis 212 zum Generieren eines aktualisierten Privatheitskennwertes und Anzeigen von aktualisierten oder zusätzlichen Angaben zum Unterscheiden von Zielabschnitten des Textes.
Bei Block 214 ändert eine Modifikation an dem Zielabschnitt das von dem Privatheitskennwert angegebene potenzielle Offenliegen der privaten Information. Ein Nutzer interagiert beispielsweise mit der grafischen Schnittstelle zum Modifizieren des Zielabschnittes. Das Contentabrufsubsystem detektiert eine Modifikation an dem Satz von unstrukturierten Textdaten, die in das Eingabefeld der grafischen Schnittstelle eingegeben werden. In Reaktion auf das Detektieren der Modifikation identifiziert das natürliche Sprache verarbeitende Subsystem mehrere modifizierte Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden des trainierten maschinell lernenden Modells auf den modifizierten Satz von unstrukturierten Textdaten in dem Eingabefeld. Das Kennwertzuteilungssubsystem berechnet einen modifizierten Privatheitskennwert für die Textdaten als Funktion der modifizierten Entitäten.
In Reaktion auf die Angabe/Angaben, die von dem Privatheitsüberwachungssystem über die grafische Schnittstelle bei Block 212 eingegeben worden ist/sind, löscht oder modifiziert der Nutzer einen Abschnitt der Textdaten. Bei einem spezifischen Beispiel löscht der Nutzer eine Wendung, die als potenzielles Privatheitsrisiko hervorgehoben angezeigt worden ist. Entsprechend berechnet das Kennwertzuteilungssubsystem den Privatheitskennwert erneut, dieses Mal jedoch mit weniger Entitäten und Verknüpfungen, was einen Privatheitskennwert ergibt, der einen niedrigeren Risikograd (beispielsweise einen niedrigeren Privatheitskennwert) angibt. Ein Beispiel für eine solche Situation ist in 3C und 3D dargestellt.
Bei einigen Ausführungsformen stellt das Privatheitsüberwachungssystem ein Contentbearbeitungswerkzeug bereit, das ein Element beinhaltet, mit dem ein Nutzer eine Rückmeldung zur Steuerung bzw. Regelung der Vertraulichkeit der Privatheitskennwertzuteilung bereitstellt. Wie in 3A bis 3D dargestellt ist, beinhaltet die grafische Schnittstelle beispielsweise Gleitschieber (beispielsweise 312), die der Nutzer zum Steuern bzw. Regeln der Privatheitsvertraulichkeit des Modells nutzen kann. Ist die Privatheitsvertraulichkeit höher, so ist wahrscheinlicher, dass das System Privatheitsalarme generiert. Ist beispielsweise der Privatheitsvertraulichkeitsgrad erhöht, so werden die Modelle, die zum Generieren des Privatheitskennwertes benutzt werden, modifiziert, um mehr Entitäten zu identifizieren und/oder Entitäten und Verknüpfungen zwischen den Entitäten stärker zu gewichten. Für einen niedrigeren Privatheitsvertraulichkeitsgrad werden gewisse Entitäten als nicht risikobehaftet identifiziert und/oder nicht stark gewichtet. Bei einigen Aspekten führt das Privatheitsüberwachungssystem die Vorgänge bei Blöcken 202 bis 210 in Reaktion auf das Detektieren einer Änderung an einem derartigen die Privatheitsvertraulichkeit modifizierenden Element erneut aus, was einen modifizierten Privatheitskennwert ergeben kann.
Auf Grundlage des aktualisierten Privatheitskennwertes aktualisiert das Berichtssubsystem die grafische Schnittstelle. Das Berichtssubsystem aktualisiert die grafische Schnittstelle beispielsweise mit dem Ziel des Aufnehmens von weniger Angaben zum Unterscheiden von Zielabschnitten von Textdaten. Alternativ oder zusätzlich aktualisiert das Berichtssubsystem die grafische Schnittstelle mit dem Ziel des Angebens eines neuen Privatheitskennwertes oder Privatheitsrisikogrades.
Exemplarische grafische Nutzerschnittstellen mit Privatheitsalarmen
3A bis 3D zeigen Beispiele für Ansichten 300 bis 370 einer grafischen Schnittstelle entsprechend gewissen Ausführungsformen der vorliegenden Offenbarung. Bei einigen Aspekten beinhaltet die grafische Schnittstelle 104 ein Online-Contentbearbeitungstool, das einen Bearbeitungsmodus aufweist, in dem ein Nutzer einen Post (beispielsweise eine Produktbewertung, einen Kommentar und dergleichen) erstellen kann. Das Online-Werkzeug beinhaltet des Weiteren einen „Veröffentlichungsmodus“, in dem der Kommentar für andere Nutzer zugänglich ist (und der ursprüngliche Nutzer ihn gegebenenfalls nicht bearbeiten kann). Wird der Text über die grafische Schnittstelle 104 eingegeben, so wird die Analyse des Textes, wie vorstehend anhand 2 beschrieben worden ist, ausgelöst. Der sich ergebende Privatheitskennwert wird zum Anzeigen von Angaben von Privatheitsrisiken über die grafische Schnittstelle 104 benutzt, wie in den Ansichten 300 bis 370 der grafischen Schnittstelle gezeigt ist.
3A zeigt ein Beispiel für eine Ansicht 300 einer grafischen Schnittstelle. Die Ansicht 300 der grafischen Schnittstelle beinhaltet ein Texteingabefeld 302, in das ein Nutzer einen Text 304 eingegeben hat. Die Ansicht 300 der grafischen Schnittstelle beinhaltet des Weiteren ein Fotohochladeelement 308 (mit „Add Photo“ (Foto hinzufügen) bezeichnet) und ein Videohochladeelement 306 (mit „Add Video“ (Video hinzufügen) bezeichnet). Gibt der Nutzer den Text 304 in das Texteingabefeld 302 ein, so generiert das Privatheitsüberwachungssystem einen Privatheitskennwert in Echtzeit, wie vorstehend anhand 2 beschrieben worden ist. Bei dem in 3A gezeigten Beispiel wird der Privatheitskennwert von dem Privatheitsüberwachungssystem zum Identifizieren eines Privatheitsrisikogrades benutzt. In diesem Fall ist eine Wendung als potenzielles Privatheitsrisiko 310 hervorgehoben, nämlich „my bad back“ (mein schmerzender Rücken). Das Privatheitsüberwachungssystem veranlasst, dass dieser Text hervorgehoben wird, um dem Nutzer Content zu zeigen, dessen Entfernung oder Modifizierung der Nutzer gegebenenfalls wünscht. Da in dem Text 304 nur eine risikobehaftete Wendung ist, ist der Privatheitsrisikograd 314 vergleichsweise niedrig. Dies wird angegeben, indem das „Smartmeter“ in Grün mit dem Text „Mostly safe review content“ (Weitgehend sicherer Bewertungscontent'' angezeigt wird. Bei einigen Ausführungsformen beinhaltet die Ansicht 300 der grafischen Schnittstelle des Weiteren einen Gleitschieber 312, der eine Nutzerrückmeldung annimmt, um die Vertraulichkeit des Privatheitskennwertes zu steuern bzw. zu regeln. Über den Gleitschieber 312 kann der Nutzer einen Privatheitsvertraulichkeitsgrad modifizieren, der von dem Privatheitsüberwachungssystem benutzt wird, um den Privatheitskennwert zu generieren und zu bestimmen, ob Alarme angezeigt werden sollen. Der Gleitschieber 312 kann mit einem Standardprivatheitsvertraulichkeitsgrad (beispielsweise „mittel“) beginnen, der dann über eine Nutzereingabe angepasst werden kann.
3B zeigt ein Beispiel für eine Ansicht 330 einer aktualisierten grafischen Schnittstelle. Die Ansicht 330 der grafischen Schnittstelle beinhaltet ein Texteingabefeld 332, in das ein Nutzer einen Text 334 eingegeben hat. Die Ansicht 330 der grafischen Schnittstelle beinhaltet des Weiteren ein Fotohochladeelement 338 (mit „Add Photo“ (Foto hinzufügen) bezeichnet) und ein Videohochladeelement 336 (mit „Add Video“ (Video hinzufügen) bezeichnet). Gibt der Nutzer den Text 334 in das Texteingabefeld 332 ein, so aktualisiert das Privatheitsüberwachungssystem den Privatheitskennwert. Setzt der Nutzer das Eingeben von Text fort, so aktualisiert das System den Privatheitskennwert in Echtzeit, wie vorstehend anhand 2 beschrieben worden ist. Bei dem in 3B gezeigten Beispiel beinhaltet der Text 334 vier Wendungen, die als potenzielle Privatheitsrisiken 340 hervorgehoben sind, nämlich „my bad back“ (mein schmerzender Rücken), „wife and grandkids“ (Ehefrau und Enkel), „Florida“ und „software engineer“ (Softwareentwickler). Mit der Hinzufügung weiterer Wendungen, die potenzielle Privatheitsrisiken sind, ist der Privatheitsrisikograd 344 auf einen gemäßigten Grad erhöht worden. Dies wird angegeben, indem das „Smartmeter“ in Orange mit dem Text „Some potentially compromising content“ (einiger potenziell kompromittierender Content) angezeigt wird. Die Ansicht 330 der grafischen Schnittstelle beinhaltet des Weiteren einen Gleitschieber 342, der eine Nutzerrückmeldung annimmt, um die Vertraulichkeit des Privatheitskennwertes zu steuern bzw. zu regeln. In diesem Fall ist die ausgewählte Privatheitsvertraulichkeit hoch, was bedingt, dass mehr Worte hervorgehoben sind und ein höherer Privatheitsrisikograd 344 im Vergleich zu dem Fall gegeben ist, in dem die Privatheitsvertraulichkeit mittel oder niedrig war, wobei in diesem Fall gewisse Wendungen ohne Auslösen einer Privatheitswarnung benutzt werden können.
3C zeigt ein Beispiel für eine Ansicht 350 einer weiteren aktualisierten grafischen Schnittstelle. Die Ansicht 350 der grafischen Schnittstelle beinhaltet ein Texteingabefeld 352, in das ein Nutzer einen Text 354 eingegeben hat. Die Ansicht 350 der grafischen Schnittstelle beinhaltet des Weiteren ein Fotohochladeelement 358 (mit „Add Photo“ (Foto hinzufügen) bezeichnet) und ein Videohochladeelement 356 (mit „Add Video“ (Video hinzufügen) bezeichnet). Gibt der Nutzer den Text 354 in das Texteingabefeld 352 ein, so aktualisiert das Privatheitsüberwachungssystem den Privatheitskennwert in Echtzeit, wie vorstehend anhand 2 beschrieben worden ist. Bei dem in 3C gezeigten Beispiel sind fünf Wendungen als potenzielle Privatheitsrisiken 360 hervorgehoben, nämlich „my bad back“ (mein schmerzender Rücken), „wife and grandkids“ (Ehefrau und Enkel), „Florida“, „software engineer“ (Softwareentwickler) und „coffee shop down the street“ (Cafe unten an der Straße). Mit der Hinzufügung einer weiteren Wendung, die ein potenzielles Privatheitsrisiko darstellt, wird der Privatheitsrisikograd 364 auf einen vergleichsweise hohen Grad erhöht. Dies wird angegeben, indem das „Smartmeter“ in Rot mit dem Text „Several pieces of compromising content“ (einige Teile mit kompromittierendem Content) angezeigt wird. Die Ansicht 350 der grafischen Schnittstelle beinhaltet des Weiteren einen Gleitschieber 362, der eine Nutzerrückmeldung annimmt, um die Vertraulichkeit des Privatheitskennwertes zu steuern bzw. zu regeln. Über den Gleitschieber 362 kann der Nutzer einen Privatheitsvertraulichkeitsgrad modifizieren, der von dem Privatheitsüberwachungssystem benutzt wird, um den Privatheitskennwert zu generieren und zu bestimmen, ob Alarme angezeigt werden.
3D zeigt ein Beispiel für eine Ansicht 370 einer weiteren aktualisierten grafischen Schnittstelle. Die Ansicht 370 der grafischen Schnittstelle beinhaltet ein Texteingabefeld 372, in das ein Nutzer einen Text 374 eingegeben hat. Die Ansicht 370 der grafischen Schnittstelle beinhaltet des Weiteren ein Fotohochladeelement 378 (mit „Add Photo“ (Foto hinzufügen) bezeichnet) und ein Videohochladeelement 376 (mit „Add Video“ (Video hinzufügen) bezeichnet).
Bei dem in 3D gezeigten Beispiel hat der Nutzer Text (beinhaltend „software engineer“ (Softwareentwickler)) in Reaktion auf den in 3C gezeigten hohen Privatheitsrisikograd 364 entfernt. Entsprechend hat das Privatheitsüberwachungssystem den Privatheitskennwert auf Grundlage des aktualisierten Textes 374 neu berechnet, was einen niedrigeren Privatheitsrisikograd 384 ergibt, der in der Ansicht 370 der grafischen Schnittstelle angezeigt ist. Bei dem in 3D gezeigten Beispiel sind vier Wendungen vorhanden, die als potenzielle Privatheitsrisiken 380 hervorgehoben sind, nämlich „my bad back“ (mein schmerzender Rücken), „wife and grandkids“ (Ehefrau und Enkel), „Florida“ und „coffee shop down the street“ (Cafe unten an der Straße). Mit der Entfernung einer Wendung, die ein potenzielles Privatheitsrisiko ist, ist der Privatheitsrisikograd 354 wieder auf den mittleren Grad gesenkt worden. Dies wird angezeigt, indem das „Smartmeter“ in Orange mit dem Text „Some potentially compromising content“ (einiger potenziell kompromittierender Content) angezeigt wird. Die Ansicht 370 der grafischen Schnittstelle beinhaltet des Weiteren einen Gleitschieber 382, der eine Nutzerrückmeldung annimmt, um die Vertraulichkeit des Privatheitskennwertes zu steuern bzw. zu regeln. Über den Gleitschieber 382 kann der Nutzer einen Privatheitsvertraulichkeitsgrad modifizieren, der von dem Privatheitsüberwachungssystem benutzt wird, um den Privatheitskennwert zu generieren und zu bestimmen, ob Alarme angezeigt werden sollen.
Beispiele für Vorgänge zum Trainieren eines maschinell lernenden Modells
4 zeigt ein Beispiel für einen Prozess 400 zum Trainieren eines maschinell lernenden Modells, wie es bei dem Prozess von 2 verwendet wird, entsprechend gewissen Ausführungsformen. Bei diesem Beispiel ruft das Trainingssubsystem 122 des Privatheitsüberwachungssystems 110 Trainingsdaten aus mehreren Datenbanken (beispielsweise aus der Datenspeichereinheit 124A, der Datenspeichereinheit 124B und dergleichen) ab. Das Trainingssubsystem 122 trainiert ein maschinell lernendes Modell auf das Erkennen von verschiedenen Typen von Entitäten, die einem Privatheitsrisiko zugeordnet sind, wobei dieses maschinell lernende Modell bei Block 208 von 2 benutzt werden kann, um Entitäten, die privater Information zugeordnet sind, zu identifizieren. Bei einigen Ausführungsformen implementieren eine oder mehrere Verarbeitungsvorrichtungen Vorgänge, die in 4 dargestellt sind, durch Ausführen eines geeigneten Programmcodes. Zu illustrativen Zwecken wird der Prozess 400 anhand gewisser Beispiele beschrieben, die in den Figuren dargestellt sind. Andere Implementierungen sind jedoch möglich.
Bei Block 402 ruft das Trainingssubsystem erste Trainingsdaten für einen ersten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer ersten Datenbank ab. Die Datenspeichereinheit 124A speichert beispielsweise eine Liste von E-Mail-Adressen. Andere Beispiele für Typen von Entitäten, die aus einer bestimmten Datenbank abgerufen werden können, beinhalten gesundheitliche Angaben (die beispielsweise von einer Gesundheitsberatungswebseite abgerufen werden), Namen von Menschen, Namen von Ländern, Namen von Straßen, Adressen und dergleichen mehr.
Bei Block 404 empfängt das Trainingssubsystem zweite Trainingsdaten für einen zweiten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer zweiten Datenbank. Das Trainingssubsystem kann die zweiten Trainingsdaten im Wesentlichen auf ähnliche Weise wie die ersten Trainingsdaten bei Block 402 empfangen. In einigen Fällen sind die zweiten Trainingsdaten einem anderen Entitätstyp zugeordnet und stammen aus einer anderen Datenbank (beispielsweise sind die ersten Trainingsdaten eine Liste von medizinischen Angaben von einer medizinischen Webseite, während die zweiten Trainingsdaten eine Liste von E-Mail-Adressen aus einem Online-Verzeichnis sind).
Bei Block 406 ordnet das Trainingssubsystem den ersten und zweiten Trainingsdaten Etiketten für die ersten und zweiten Entitätstypen zu. Bei einigen Ausführungsformen etikettiert das Trainingssubsystem die ersten Trainingsdaten entsprechend dem benannten Entitätstyp des Gesamtdatensatzes (beispielsweise „E-Mail-Adresse“, „Arbeitgeber“, „Orientierungspunkt in der Nähe“ und dergleichen mehr). In einigen Fällen etikettiert das Trainingssubsystem die zweiten Trainingsdaten entsprechend einem anderen benannten Entitätstyp für diesen jeweiligen Datensatz.
Bei einigen Aspekten identifiziert das Trainingssubsystem Datensätze, die bereits gemäß einem gewissen Entitätstyp, so beispielsweise Name, E-Mail-Adresse, Straße, medizinische Angabe und dergleichen mehr, gruppiert worden sind. Bei einigen Ausführungsformen ordnet das Trainingssubsystem jedem Element in diesem Datensatz automatisch ein Etikett zu, das das Datenelement als eines vom jeweiligen Typ identifiziert. Auf diese Weise ist das Etikett bereits dem Entitätstyp in dem Datensatz zugeordnet, und es muss nicht jede Entität einzeln analysiert und etikettiert werden, was ein zeitraubender Prozess ist, der oftmals zum Generieren von Trainingsdaten benutzt wird.
Bei einigen Aspekten wird ein kuratierter Satz von Entitäten mit verschiedenen Vertraulichkeitsgraden etikettiert. Entitäten im Zusammenhang mit medizinischer, gesundheitlicher und finanzieller Information sind mit dem höchsten Vertraulichkeitsgrad etikettiert. Ein anderer Satz von Entitäten kann sodann mit einem mittleren Vertraulichkeitsgrad etikettiert werden (beispielsweise solche im Zusammenhang mit der Demographie und dem Aufenthaltsort). Diese Etikettierung der Entität kann in einer groben, hohen, mittleren und niedrigeren oder einer feineren Abstufung der Grade erfolgen.
Bei Block 408 trainiert das Trainingssubsystem das maschinell lernende Modell (beispielsweise ein neuronales Netzwerk) zum Identifizieren des ersten Entitätstyps und des zweiten Entitätstyps unter Nutzung der ersten Trainingsdaten und der zweiten Trainingsdaten. Bei einigen Implementierungen wird das maschinell lernende Modell unter Nutzung einer Rückverfolgung (backpropagation) trainiert. Das maschinell lernende Modell empfängt beispielsweise Trainingsdaten als Eingabe und gibt ein vorhergesagtes Ergebnis aus. Das Ergebnis wird mit dem Etikett, das den Trainingsdaten zugewiesen worden ist, verglichen. Bei einigen Implementierungen wird der Vergleich vorgenommen, indem Gradienten auf Grundlage der Eingabe und des vorhergesagten Ergebnisses bestimmt werden (beispielsweise durch Minimieren einer Verlustfunktion durch Berechnen und Minimieren eines Verlustwertes, der einen Fehler zwischen dem vorhergesagten Ergebnis und dem tatsächlichen Etikettenwert darstellt). Der berechnete Gradient wird sodann zum Aktualisieren von Parametern des maschinell lernenden Modells benutzt.
Alternativ oder zusätzlich trainiert das Trainingssubsystem das Modell zum Erkennen eines Formates, das privater Information zugeordnet ist. Das Modell wird beispielsweise darauf trainiert, __@__.com als E-Mail-Adressen und __Str. als Straßennamen zu erkennen.
Bei einigen Aspekten wird das maschinell lernende Modell an kuratierten Datensätzen von Text mit verschiedenen Vertraulichkeitsgraden trainiert. Kuratierte Datensätze von Text im Zusammenhang mit persönlicher finanzieller Information, medizinischer und gesundheitsbezogener Information werden beispielsweise mit dem höchsten Vertraulichkeitsgrad klassifiziert. Diese vertraulichen Textdatensätze werden sodann benutzt, um ein Modell mit dem Ziel zu trainieren, Entitäten, die in den kuratierten Sätzen hervortreten, zu detektieren. Der kuratierte Satz von benannten Entitäten, der verschiedene Vertraulichkeitsgrade entweder in Isolation oder in Kombination mit anderen Entitäten widerspiegelt, wird zum Trainieren des Modells benutzt, damit dieses deren Nutzung detektiert und die Vertraulichkeit der von dem Nutzer bereitgestellten Bewertung mit einem Kennwert versieht.
Eine Verarbeitungsvorrichtung führt einen Programmcode des Trainingssubsystems 122 aus, um die Blöcke 402 bis 408 zu implementieren. Der Programmcode für das Trainingssubsystem 122, der in einem nichttemporären computerlesbaren Medium gespeichert ist, wird beispielsweise von einer oder mehreren Verarbeitungsvorrichtungen ausgeführt. Das Ausführen des Codes des Trainingssubsystems 122 veranlasst, dass die Verarbeitungsvorrichtung auf die Trainingsdaten 126A bis 126N von demselben nichttemporären computerlesbaren Medium oder einem anderen nichttemporären computerlesbaren Medium aus zugreift. Bei einigen Ausführungsformen impliziert das Zugreifen auf die Trainingsdaten ein über einen Datenbus erfolgendes Kommunizieren von geeigneten Signalen zwischen einem lokalen nichttemporären computerlesbaren Medium und der Verarbeitungsvorrichtung. Bei zusätzlichen oder alternativen Ausführungsformen impliziert das Zugreifen auf die Trainingsdaten ein über ein Datennetzwerk erfolgendes Kommunizieren von geeigneten Signalen zwischen einem Rechensystem, das das nichttemporäre computerlesbare Medien beinhaltet, und einem Rechensystem, das die Verarbeitungsvorrichtung beinhaltet.
Beispiel für ein Rechensystem zur Vorhersage einer Privatheitsverletzung in Echtzeit
Ein beliebiges geeignetes Rechensystem oder eine solche Gruppe von Rechensystemen können zum Durchführen der hier beschriebenen Vorgänge benutzt werden. 5 zeigt exemplarische Beispiele für ein Rechensystem 500, das ein Kennwertzuteilungssubsystem 118 ausführt. Bei einigen Ausführungsformen führt das Rechensystem 500 zudem das Contentabrufsubsystem 112, das NLP-Subsystem 114, das Medienverarbeitungssubsystem 116, das Berichtssubsystem 120 und/oder das Trainingssubsystem 122, wie in 1 dargestellt ist, aus. Bei anderen Ausführungsformen führt ein separates Rechensystem, das Vorrichtungen aufweist, die zu den in 5 gezeigten ähnlich sind (beispielsweise einen Prozessor, einen Speicher und dergleichen), eines oder mehrere der Subsysteme 112 bis 122 aus.
Die dargestellten Beispiele für ein Rechensystem 500 beinhalten einen Prozessor 502, der kommunikationstechnisch mit einer oder mehreren Speichervorrichtungen 504 gekoppelt ist. Der Prozessor 502 führt einen computerausführbaren Programmcode, der in einer Speichervorrichtung 504 gespeichert ist, aus, greift auf Information, die in der Speichervorrichtung 504 gespeichert ist, zu, oder beides. Beispiele für den Prozessor 502 beinhalten einen Mikroprozessor, eine anwendungsspezifische integrierte Schaltung („ASIC“), ein feldprogrammierbares Gate Array („FPGA“) oder eine beliebige andere geeignete Verarbeitungsvorrichtung. Der Prozessor 502 kann eine beliebige Anzahl von Verarbeitungsvorrichtungen, darunter auch eine einzige Verarbeitungsvorrichtung, beinhalten.
Die Speichervorrichtung 504 beinhaltet ein beliebiges geeignetes nichttemporäres computerlesbares Medium zum Speichern von Daten, Programmcode oder beidem. Beinhalten kann ein computerlesbares Medium eine beliebige elektronische, optische, magnetische oder andere Speichervorrichtung, die für einen Prozessor computerlesbare Anweisungen oder anderen Programmcode bereitstellen kann. Nicht beschränkende Beispiele für ein computerlesbares Medium beinhalten eine magnetische Platte, einen Speicherchip, einen ROM, einen RAM, eine ASIC, einen optischen Speicher, ein Magnetband oder einen anderen magnetischen Speicher oder ein beliebiges anderes Medium, von dem eine Verarbeitungsvorrichtung Anweisungen lesen kann. Beinhalten können die Anweisungen prozessorspezifische Anweisungen, die von einem Compiler oder Interpreter aus Code generiert werden, der in einer beliebigen geeigneten Computerprogrammiersprache geschrieben ist, darunter beispielsweise C, C++, C#, Visual Basic, Java, Python, Perl, JavaScript und ActionScript.
Das Rechensystem 500 kann zudem eine Anzahl von externen oder internen Vorrichtungen, so beispielsweise von Eingabe- oder Ausgabevorrichtungen, beinhalten. Das Rechensystem 500 ist beispielsweise mit einer oder mehreren Eingabe-/Ausgabe-Schnittstellen („I/O“) 508 gezeigt. Eine I/O-Schnittstelle 508 kann eine Eingabe von Eingabevorrichtungen empfangen oder eine Ausgabe für Ausgabevorrichtungen bereitstellen. Ein oder mehrere Busse 506 sind zudem in dem Rechensystem 500 beinhaltet. Der Bus 506 koppelt kommunikationstechnisch eine oder mehrere Komponenten eines jeweiligen aus dem Rechensystem 500.
Das Rechensystem 500 führt Programmcode aus, der den Prozessor 502 zum Durchführen eines oder mehrerer der hier beschriebenen Vorgänge konfiguriert. Der Programmcode beinhaltet beispielsweise das Contentabrufsubsystem 112, das NLP-Subsystem 114 oder andere geeignete Anwendungen, die einen oder mehrere der hier beschriebenen Vorgänge durchführen. Der Programmcode kann in der Speichervorrichtung 504 oder auf einem beliebigen geeigneten computerlesbaren Medium residieren und kann von dem Prozessor 502 oder einem beliebigen anderen geeigneten Prozessor ausgeführt werden. Bei einigen Ausführungsformen sind sowohl das Contentabrufsubsystem 112 wie auch das NLP-Subsystem 114 in der Speichervorrichtung 504, wie in 5 dargestellt ist, gespeichert. Bei zusätzlichen oder alternativen Ausführungsformen sind eines oder mehrere von dem Contentabrufsubsystem 112 und dem NLP-Subsystem 114 in verschiedenen Speichervorrichtungen verschiedener Rechensysteme gespeichert. Bei zusätzlichen oder alternativen Ausführungsformen ist der vorbeschriebene Programmcode in einer oder mehreren anderen Speichervorrichtungen, die über ein Datennetzwerk zugänglich sind, gespeichert.
Das Rechensystem 500 kann auf eines oder mehrere von den A-Trainingsdaten 126A, den B-Trainingsdaten 126B und den N-Trainingsdaten 126N auf beliebige geeignete Weise zugreifen. Bei einigen Ausführungsformen sind einige oder alle von dem einen oder den mehreren dieser Datensätze, Modelle und Funktionen in der Speichervorrichtung 504 gespeichert, wie bei dem Beispiel von 5 dargestellt ist. Ein Rechensystem 500, das das Trainingssubsystem 122 ausführt, kann beispielsweise auf die A-Trainingsdaten 126A, die von einem externen System gespeichert werden, zugreifen.
Bei zusätzlichen oder alternativen Ausführungsformen sind eines oder mehrere dieser Datensätze, Modelle und Funktionen in derselben Speichervorrichtung (so beispielsweise einer der Speichervorrichtungen 504) gespeichert. Ein gemeinsames Rechensystem, so beispielsweise das Privatheitsüberwachungssystem 110, das in 1 dargestellt ist, kann beispielsweise das Contentabrufsubsystem 112 und das Kennwertzuteilungssubsystem 118 wie auch die Trainingsdaten 126A hosten. Bei zusätzlichen oder alternativen Ausführungsformen werden eines oder mehrere der Programme, Datensätze, Modelle und Funktionen, die hier beschrieben sind, in einer oder mehreren anderen Speichervorrichtungen, die über ein Datennetzwerk zugänglich sind, gespeichert.
Das Rechensystem 500 beinhaltet zudem eine Netzwerkschnittstellenvorrichtung 510. Die Netzwerkschnittstellenvorrichtung 510 beinhaltet eine beliebige Vorrichtung oder Gruppe von Vorrichtungen, die zum Einrichten einer verdrahteten oder drahtlosen Datenverbindung zu einem oder mehreren Datennetzwerken geeignet ist. Nicht beschränkende Beispiele für die Netzwerkschnittstellenvorrichtung 510 beinhalten einen Ethernet-Netzwerkadapter, ein Modem und dergleichen. Das Rechensystem 500 kann mit einer oder mehreren anderen Rechenvorrichtungen (beispielsweise einer Rechenvorrichtung, die eine grafische Schnittstelle 104, wie in 1 dargestellt ist, ausführt) über ein Datennetzwerk unter Nutzung der Netzwerkschnittstellenvorrichtung 510 kommunizieren.
Bei einigen Ausführungsformen kann die Funktionalität, die von der Rechenvorrichtung 500 bereitgestellt wird, von einem cloudbasierten Dienst angeboten werden, der von einer Cloudinfrastruktur 600 bereitgestellt wird, die wiederum von einem Clouddienstanbieter vorgehalten wird. 6 zeigt beispielsweise ein Beispiel für eine Cloudinfrastruktur 600, die einen oder mehrere Dienste anbietet, darunter einen Dienst, der eine ein virtuelles Objekt betreffende Funktionalität, wie in der vorliegenden Offenbarung beschrieben ist, anbietet. An einem derartigen Dienst kann eine Anzahl von Nutzerteilnehmern teilnehmen, oder er kann von diesen genutzt werden, und zwar unter Nutzung von Nutzervorrichtungen 610A, 610B und 610C über ein Netzwerk 608. Der Dienst kann beispielsweise über ein SaaS-Modell (Software as a Service SaaS, Software als Dienst) angeboten werden. Ein oder mehrere Nutzer können an einem derartigen Dienst teilnehmen.
Bei der in 6 dargestellten Ausführungsform beinhaltet die Cloudinfrastruktur 600 einen oder mehrere Servercomputer 602, die zum Durchführen einer Verarbeitung zur Bereitstellung eines oder mehrerer Dienste, die von dem Clouddienstanbieter angeboten werden, konfiguriert sind. Ein oder mehrere Servercomputer 602 können das Contentabrufsubsystem 112, das NLP-Subsystem 114, das Medienverarbeitungssubsystem 116, das Kennwertzuteilungssubsystem 118, das Berichtssubsystem 120 und/oder das Trainingssubsystem 122, wie in 1 dargestellt ist, implementieren. Die Subsysteme 112 bis 122 können unter ausschließlicher Nutzung von Software (beispielsweise unter Nutzung von Code, eines Programms oder von Anweisungen, die von einem oder mehreren Prozessoren, die durch eine Cloudinfrastruktur 600 bereitgestellt werden, ausgeführt werden können), aber auch in Hardware oder Kombinationen hieraus implementiert sein. Einer oder mehrere der Servercomputer 602 können beispielsweise Software ausführen, um die Dienste und Funktionalitäten, die von den Subsystemen 112 bis 122 bereitgestellt werden, zu implementieren, wobei die Software bei Ausführung durch einen oder mehrere Prozessoren des Servercomputers / der Servercomputer 602 veranlasst, dass die Dienste und Funktionalitäten bereitgestellt werden.
Der Code, das Programm oder die Anweisungen können auf einem beliebigen geeigneten nichttemporären computerlesbaren Medium gespeichert werden, so beispielsweise auf einer beliebigen geeigneten elektronischen, optischen, magnetischen oder anderen Speichervorrichtung, die für einen Prozessor computerlesbare Anweisungen oder anderen Programmcode bereitstellen kann. Nicht beschränkende Beispiele für ein computerlesbares Medium beinhalten eine Magnetplatte, einen Speicherchip, einen ROM, einen RAM, eine ASIC, einen optischen Speicher, ein Magnetband oder einen anderen magnetischen Speicher oder ein beliebiges anderes Medium, von dem eine Verarbeitungsvorrichtung Anweisungen lesen kann. Beinhalten können die Anweisungen prozessorspezifische Anweisungen, die von einem Compiler oder Interpreter aus Code generiert werden, der in einer beliebigen geeigneten Computerprogrammiersprache geschrieben ist, darunter beispielsweise C, C++, C#, Visual Basic, Java, Python, Perl, JavaScript und ActionScript. Bei verschiedenen Beispielen kann/können der Servercomputer / die Servercomputer 602 einen flüchtigen Speicher, einen nichtflüchtigen Speicher oder eine Kombination hieraus beinhalten.
Bei der in 6 dargestellten Ausführungsform beinhaltet die Cloudinfrastruktur 600 zudem eine Netzwerkschnittstellenvorrichtung 606, die Kommunikationen zu der Cloudinfrastruktur 600 hin oder von dieser her ermöglichen. Bei gewissen Ausführungsformen beinhaltet die Netzwerkschnittstellenvorrichtung 606 eine beliebige Vorrichtung oder eine solche Gruppe von Vorrichtungen, die zum Errichten einer verdrahteten oder drahtlosen Datenverbindung zu dem Netzwerk 608 geeignet ist. Nicht beschränkende Beispiele für die Netzwerkschnittstellenvorrichtung 606 beinhalten einen Ethernet-Netzwerkadapter, ein Modem und/oder dergleichen. Die Cloudinfrastruktur 600 kann mit den Nutzervorrichtungen 610A, 610B und 610C über das Netzwerk 608 unter Nutzung der Netzwerkschnittstellenvorrichtung 606 kommunizieren.
Eine grafische Schnittstelle (beispielsweise die in 1 gezeigte grafische Schnittstelle 104) kann auf jeder der Nutzervorrichtungen, so beispielsweise der A-Nutzervorrichtung 610A, der B-Nutzervorrichtung 610B und der C-Nutzervorrichtung 610C, angezeigt werden. Ein Nutzer der Nutzervorrichtung 610A kann mit der angezeigten grafischen Schnittstelle interagieren, um beispielsweise Textdaten einzugeben und Mediendateien hochzuladen. In Reaktion hierauf kann eine Verarbeitung zum Identifizieren und Anzeigen von Privatheitsalarmen von dem Servercomputer / den Servercomputern 602 durchgeführt werden. In Reaktion auf diese Alarme kann der Nutzer mit der grafischen Schnittstelle interagieren, um die Textdaten zu bearbeiten, um wiederum private Angelegenheiten zu behandeln.
Allgemeine Betrachtungen
Es sind zahlreiche spezifische Details angegeben worden, um ein eingehendes Verständnis des beanspruchten Erfindungsgegenstandes zu ermöglichen. Einem Fachmann auf dem Gebiet erschließt sich jedoch, dass der beanspruchte Erfindungsgegenstand auch ohne diese spezifischen Details praktisch umgesetzt werden kann. In anderen Fällen sind Verfahren, Einrichtungen oder Systeme, die einem Durchschnittsfachmann bekannt sind, nicht detailliert beschrieben worden, um den beanspruchten Erfindungsgegenstand nicht unklar zu machen.
Es wird, außer dies ist explizit anders angegeben, davon ausgegangen, dass in der vorliegenden Beschreibung Erläuterungen unter Einsatz von Begriffen wie „Verarbeiten“, „Berechnen“, „Rechnen“, „Bestimmen“ und „Identifizieren“ oder dergleichen Handlungen oder Prozesse einer Rechenvorrichtung, so beispielsweise eines oder mehrerer Computer oder einer ähnlichen elektronischen Rechenvorrichtung oder solcher Vorrichtungen, bezeichnen, die Daten manipulieren oder transformieren, die als physische bzw. physikalische, elektronische oder magnetische Quantitäten innerhalb von Speichern, Registern oder anderen Informationsspeichervorrichtungen, Übertragungsvorrichtungen oder Anzeigevorrichtungen der Rechenplattform dargestellt werden.
Das hier erläuterte System oder die Systeme ist/sind nicht auf eine spezielle Hardwarearchitektur oder Konfiguration beschränkt. Eine Rechenvorrichtung kann eine beliebige geeignete Anordnung von Komponenten beinhalten, die ein Ergebnis, das von einer oder mehreren Eingaben abhängt, bereitstellen. Geeignete Rechenvorrichtungen beinhalten mikroprozessorbasierte Mehrzweckcomputervorrichtungen, die auf gespeicherte Software zugreifen, die das Rechensystem programmieren oder es von einer Allzweckrecheneinrichtung zu einer spezialisierten Recheneinrichtung, die eine oder mehrere Ausführungsformen des vorliegenden Erfindungsgegenstandes implementiert, konfigurieren. Eine beliebige geeignete Programmierung, ein solches Skripting oder ein anderer Typ von Sprache oder auch Kombinationen von Sprachen können benutzt werden, um die hier enthaltenen Lehren in Software, die zum Programmieren oder Konfigurieren einer Rechenvorrichtung benutzt wird, zu implementieren.
Ausführungsformen der hier offenbarten Verfahren können im Betrieb derartiger Rechenvorrichtungen durchgeführt werden. Die Reihenfolge der Blöcke, die bei den vorstehenden Beispielen präsentiert werden, kann variiert werden. So können die Blöcke beispielsweise umgeordnet, kombiniert und/oder in Teilblöcke zerlegt werden. Bestimmte Blöcke oder Prozesse können auch parallel durchgeführt werden.
Die Nutzung von „geeignet/ausgelegt zu/für“ oder „konfiguriert zu/für“ ist sprachlich offen und inklusiv gemeint, sodass Vorrichtungen nicht ausgeschlossen sind, die zur Durchführung zusätzlicher Aufgaben oder Schritte geeignet/ausgelegt oder konfiguriert sind. Zusätzlich ist die Nutzung von „auf Grundlage von / beruhend auf sprachlich dahingehend offen und inklusiv gemeint, dass ein Prozess, ein Schritt, eine Berechnung oder eine andere Handlung „auf Grundlage von / beruhend auf‟ einer oder mehreren aufgeführten Bedingungen oder Werten in der Praxis auch auf zusätzlichen Bedingungen oder Werten über die aufgeführten hinaus beruhen kann. Überschriften, Listen und Nummerierungen, die hier enthalten sind, dienen der einfacheren Erläuterung und sind nicht beschränkend gemeint.
Obwohl der vorliegende Erfindungsgegenstand detailliert anhand spezifischer Ausführungsformen beschrieben worden ist, sollte einsichtig sein, dass ein Fachmann auf dem Gebiet beim Erwerb von Verständnis für das Vorgesagte ohne Weiteres Alternativen zu den Ausführungsformen, Varianten und Äquivalenten hierzu konzipieren kann. Entsprechend sollte einsichtig sein, dass die vorliegende Offenbarung rein zu exemplarischen Zwecken und nicht zu Zwecken der Beschränkung präsentiert worden ist und die Einbeziehung von derartigen Abwandlungen, Varianten und/oder Hinzufügungen zu dem vorliegenden Erfindungsgegenstand nicht ausschließt, wie sich einem Durchschnittsfachmann auf dem Gebiet ohne Weiteres erschließt.

Claims

Computerimplementiertes Verfahren, umfassend: durch ein Contentabrufsubsystem erfolgendes Detektieren des Eintragens eines Satzes von unstrukturierten Textdaten, die in ein Eingabefeld einer grafischen Schnittstelle eingegeben werden; in Reaktion auf das Detektieren des Eintragens und mit einem natürliche Sprache verarbeitenden Subsystem erfolgendes Identifizieren von mehreren Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden eines trainierten maschinell lernenden Modells auf den Satz von unstrukturierten Textdaten in dem Eingabefeld; durch ein Scoring- bzw. Kennwertzuteilungssubsystem erfolgendes Berechnen eines Privatheitsscores bzw. -kennwertes für die Textdaten durch Identifizieren von Verbindungen zwischen den Entitäten, wobei die Verbindungen zwischen den Entitäten zu dem Privatheitskennwert entsprechend einem kumulativen Privatheitsrisiko beitragen, wobei der Privatheitskennwert ein potenzielles Offenliegen der privaten Information durch den Satz von unstrukturierten Textdaten angibt; und durch ein Berichtssubsystem erfolgendes Aktualisieren der grafischen Schnittstelle mit dem Ziel des Aufnehmens einer Angabe zum Unterscheiden eines Zielabschnittes des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes von anderen Abschnitten des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes, wobei eine Modifikation an dem Zielabschnitt das durch den Privatheitskennwert angegebene potenzielle Offenliegen der privaten Information ändert.
Verfahren nach Anspruch 1, des Weiteren umfassend: durch das Contentabrufsubsystem erfolgendes Detektieren einer Modifikation an dem Satz von unstrukturierten Textdaten, die in das Eingabefeld der grafischen Schnittstelle eingegeben werden; in Reaktion auf das Detektieren der Modifikation und mit dem natürliche Sprache verarbeitenden Subsystem erfolgendes Identifizieren von mehreren modifizierten Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden des trainierten maschinell lernenden Modells auf die modifizierten Textdaten in dem Eingabefeld; durch das Kennwertzuteilungssubsystem erfolgendes Berechnen eines modifizierten Privatheitskennwertes für die Textdaten auf Grundlage der modifizierten Entitäten; und durch ein Berichtssubsystem erfolgendes Aktualisieren der grafischen Schnittstelle auf Grundlage des modifizierten Privatheitskennwertes.
Verfahren nach Anspruch 1 oder 2, des Weiteren umfassend: durch das Contentabrufsubsystem erfolgendes Empfangen eines Bildes oder Videos mit Zuordnung zu den unstrukturierten Textdaten; und durch ein Medienverarbeitungssubsystem erfolgendes Verarbeiten des Bildes oder Videos zum Identifizieren von Metadaten, wobei wenigstens ein Teilsatz der identifizierten Metadaten des Weiteren in das maschinell lernende Modell zum Identifizieren der Entitäten eingegeben wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Satz von unstrukturierten Textdaten ein erster Satz von unstrukturierten Textdaten ist und die mehreren Entitäten mehrere erste Entitäten sind, wobei das Verfahren des Weiteren umfasst: vor dem Empfangen des ersten Satzes von unstrukturierten Textdaten: durch das Contentabrufsubsystem erfolgendes Detektieren des Eintragens eines zweiten Satzes von unstrukturierten Textdaten, die in das Eingabefeld eingegeben werden; und in Reaktion auf das Detektieren des Eintragens und mit dem natürliche Sprache verarbeitenden Subsystem erfolgendes Identifizieren von mehreren zweiten Entitäten, die der privaten Information zugeordnet sind, wenigstens durch Anwenden des trainierten maschinell lernenden Modells auf den zweiten Satz von unstrukturierten Textdaten in dem Eingabefeld, wobei das Kennwertzuteilungssubsystem den Privatheitskennwert auf Grundlage von Verbindungen zwischen den mehreren ersten Entitäten und den mehreren zweiten Entitäten berechnet.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die aktualisierte grafische Schnittstelle des Weiteren eine Angabe des Privatheitskennwertes anzeigt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das maschinell lernende Modell ein neuronales Netzwerk beinhaltet, wobei das Verfahren des Weiteren umfasst: Trainieren des neuronalen Netzwerkes durch: durch ein Trainingssubsystem erfolgendes Abrufen von ersten Trainingsdaten für einen ersten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer ersten Datenbank; durch das Trainingssubsystem erfolgendes Abrufen von zweiten Trainingsdaten für einen zweiten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer zweiten Datenbank; und durch das Trainingssubsystem erfolgendes Trainieren des neuronalen Netzwerkes auf das Identifizieren des ersten Entitätstyps und des zweiten Entitätstyps unter Nutzung der ersten Trainingsdaten und der zweiten Trainingsdaten.
Verfahren nach einem der vorhergehenden Ansprüche, des Weiteren umfassend: durch das natürliche Sprache verarbeitende Subsystem erfolgende Bestimmen von Entitätstypen für die identifizierten Entitäten; und auf Grundlage der bestimmten Entitätstypen, durch das Kennwertzuteilungssubsystem erfolgendes Zuweisen von Gewichtungen zu Verknüpfungen zwischen Entitäten in einem Graphenmodell, wobei der Privatheitskennwert auf den Gewichtungen beruht.
Rechensystem, umfassend: ein Contentabrufsubsystem, das zum Detektieren des Eintragens von unstrukturierten Textdaten in ein Eingabefeld einer grafischen Schnittstelle konfiguriert ist; ein natürliche Sprache verarbeitendes Subsystem, das zum Identifizieren von mehreren Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden eines trainierten maschinell lernenden Modells auf unstrukturierte Textdaten konfiguriert ist; ein Scoring- bzw. Kennwertzuteilungssubsystem, das zum Berechnen eines Privatheitsscores bzw. -kennwertes für die Textdaten durch Anwenden eines Graphenmodells auf die mehreren Entitäten zum Identifizieren von Verbindungen zwischen den Entitäten konfiguriert ist, wobei die Verbindungen zwischen den Entitäten zu dem Privatheitskennwert entsprechend einem kumulativen Privatheitsrisiko beitragen, wobei der Privatheitskennwert ein potenzielles Offenliegen der privaten Information durch die unstrukturierten Textdaten angibt; und ein Berichtssubsystem, das zum Aktualisieren der grafischen Schnittstelle mit dem Ziel des Aufnehmens einer Angabe zum Unterscheiden eines Zielabschnittes der unstrukturierten Textdaten innerhalb des Eingabefeldes von anderen Abschnitten der unstrukturierten Textdaten innerhalb des Eingabefeldes konfiguriert ist, wobei der Zielabschnitt das durch den Privatheitskennwert angegebene potenzielle Offenliegen der privaten Information veranlasst.
Rechensystem nach Anspruch 8, wobei: das Contentabrufsubsystem des Weiteren konfiguriert ist zum Detektieren einer Modifikation an Textdaten, die in das Eingabefeld der grafischen Schnittstelle eingegeben werden; das natürliche Sprache verarbeitende Subsystem des Weiteren konfiguriert ist zum in Reaktion auf das Detektieren der Modifikation erfolgenden Identifizieren von mehreren modifizierten Entitäten, die privater Information zugeordnet sind, wenigstens durch Anwenden des trainierten maschinell lernenden Modells auf die modifizierten Textdaten in dem Eingabefeld; das Kennwertzuteilungssubsystem des Weiteren konfiguriert ist zum Berechnen eines modifizierten Privatheitskennwertes für die Textdaten auf Grundlage der modifizierten Entitäten; und das Berichtssubsystem des Weiteren konfiguriert ist zum Aktualisieren der grafischen Schnittstelle auf Grundlage des modifizierten Privatheitskennwertes.
Rechensystem nach Anspruch 8 oder 9, wobei das Contentabrufsubsystem des Weiteren konfiguriert ist zum Empfangen eines Bildes oder Videos mit Zuordnung zu den unstrukturierten Textdaten; des Weiteren umfassend ein Medienverarbeitungssubsystem mit Konfigurierung zum Verarbeiten des Bildes oder Videos zum Identifizieren von Metadaten, wobei wenigstens ein Teilsatz der identifizierten Metadaten des Weiteren zum Identifizieren der Entitäten benutzt wird.
Rechensystem nach einem der Ansprüche 8 bis 10, wobei: die Textdaten ein erster Satz von unstrukturierten Textdaten sind und die mehreren Entitäten mehrere erste Entitäten sind, das Contentabrufsubsystem des Weiteren konfiguriert ist zum vor dem Empfangen des ersten Satzes von unstrukturierten Textdaten erfolgenden Empfangen eines zweiten Satzes von unstrukturierten Textdaten; das natürliche Sprache verarbeitende Subsystem des Weiteren konfiguriert ist zum Verarbeiten des zweiten Satzes von unstrukturierten Textdaten zum Identifizieren von mehreren zweiten Entitäten, die der privaten Information zugeordnet sind, unter Nutzung des trainierten maschinell lernenden Modells; und der Privatheitskennwert auf Grundlage von Verbindungen zwischen den mehreren ersten Entitäten und den mehreren zweiten Entitäten berechnet wird.
Rechensystem nach einem der Ansprüche 8 bis 11, wobei die aktualisierte grafische Schnittstelle des Weiteren eine Angabe des Privatheitskennwertes anzeigt.
Rechensystem nach einem der Ansprüche 8 bis 12, wobei: das maschinell lernende Modell ein neuronales Netzwerk beinhaltet; und das Rechensystem des Weiteren beinhaltet: ein Trainingssubsystem mit Konfigurierung zum Trainieren des neuronalen Netzwerkes durch: Abrufen von ersten Trainingsdaten für einen ersten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer ersten Datenbank; Abrufen von zweiten Trainingsdaten für einen zweiten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer zweiten Datenbank; und Trainieren des neuronalen Netzwerkes auf das Identifizieren des ersten Entitätstyps und des zweiten Entitätstyps unter Nutzung der ersten Trainingsdaten und der zweiten Trainingsdaten.
Rechensystem nach einem der Ansprüche 8 bis 13, wobei der Privatheitskennwert berechnet wird durch: Bestimmen von Entitätstypen für die identifizierten Entitäten; und auf Grundlage der bestimmten Entitätstypen erfolgendes Zuweisen von Gewichtungen zu Verknüpfungen zwischen Entitäten in einem Graphenmodell, wobei der Privatheitskennwert auf den Gewichtungen beruht.
Nichttransitorisches bzw. Nichttemporäres computerlesbares Medium, auf dem Anweisungen gespeichert sind, wobei die Anweisungen durch eine Verarbeitungsvorrichtung ausführbar sind, um Operationen bzw. Vorgänge durchzuführen, die umfassen: Detektieren des Eintragens eines Satzes von unstrukturierten Textdaten, die in ein Eingabefeld einer grafischen Schnittstelle eingegeben werden; einen Schritt zum Berechnen eines Privatheitskennwertes für die Textdaten zur Angabe eines potenziellen Offenliegens privater Information durch den Satz von unstrukturierten Textdaten; und auf Grundlage des Privatheitskennwertes erfolgendes Aktualisieren einer Angabe zum Unterscheiden eines Zielabschnittes des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes von anderen Abschnitten des Satzes von unstrukturierten Textdaten innerhalb des Eingabefeldes.
Nichttemporäres computerlesbares Medium nach Anspruch 15, wobei die Vorgänge des Weiteren umfassen: Detektieren einer Modifikation an dem Satz von unstrukturierten Textdaten, die in das Eingabefeld der grafischen Schnittstelle eingegeben werden; einen Schritt zum Berechnen eines modifizierten Privatheitskennwertes für die Textdaten; und Aktualisieren der grafischen Schnittstelle auf Grundlage des modifizierten Privatheitskennwertes.
Nichttemporäres computerlesbares Medium nach Anspruch 15 oder 16, wobei die Vorgänge des Weiteren umfassen: Empfangen eines Bildes oder Videos mit Zuordnung zu den unstrukturierten Textdaten; und Verarbeiten des Bildes oder Videos zum Identifizieren von Metadaten, wobei wenigstens ein Teilsatz der identifizierten Metadaten des Weiteren zum Berechnen des Privatheitskennwertes benutzt wird.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 15 bis 17, wobei der Satz von unstrukturierten Textdaten ein erster Satz von unstrukturierten Textdaten ist, wobei die Vorgänge des Weiteren umfassen: vor dem Empfangen des ersten Satzes von unstrukturierten Textdaten erfolgendes Detektieren des Eintragens eines zweiten Satzes von unstrukturierten Textdaten, die in das Eingabefeld eingegeben werden; wobei der Privatheitskennwert auf Grundlage des ersten Satzes von unstrukturierten Textdaten und des zweiten Satzes von unstrukturierten Textdaten berechnet wird.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 15 bis 18, wobei das aktualisierte Eingabefeld des Weiteren eine Angabe des Privatheitskennwertes anzeigt.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 15 bis 19, wobei der Schritt zum Berechnen des Privatheitskennwertes beinhaltet: Nutzen eines neuronalen Netzwerkes zum Identifizieren von Entitäten, die zu dem Privatheitskennwert beitragen, wobei die Vorgänge des Weiteren umfassen: Trainieren des neuronalen Netzwerkes durch: Abrufen von ersten Trainingsdaten für einen ersten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer ersten Datenbank; Abrufen von zweiten Trainingsdaten für einen zweiten Entitätstyp, der einem Privatheitsrisiko zugeordnet ist, aus einer zweiten Datenbank; und Trainieren des neuronalen Netzwerkes auf das Identifizieren des ersten Entitätstyps und des zweiten Entitätstyps unter Nutzung der ersten Trainingsdaten und der zweiten Trainingsdaten.