DE102018129138A1

DE102018129138A1 - Verfahren und System zur Bestimmung eines Paars von Tabellenspalten zur Verknüpfung

Info

Publication number: DE102018129138A1
Application number: DE102018129138.8A
Authority: DE
Inventors: Markus Schröder; Sven Böhmert; Heiko Maus; Geraldine BOUS; Andy Bruntsch; Benny Kneissl
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2020-05-20

Abstract

Die Erfindung betrifft ein Verfahren zur Bestimmung eines Paars von Tabellenspalten aus einer ersten Tabelle (10) und einer zweiten Tabelle (20) zur Verknüpfung der ersten Tabelle (10) mit der zweiten Tabelle (20), insbesondere zur Anwendung im Gebiet der Automobilindustrie, wobei das Verfahren die folgenden Schritte umfasst:a) Extrahieren einer Vielzahl von Datenwerten (13, 23) aus der ersten Tabelle (10) und der zweiten Tabelle (20), wobei jeder Datenwert (13, 23) einer Tabellenspalte zugeordnet ist;b) Bestimmen für eine Vielzahl von Tabellenspalten der ersten Tabelle (10) jeweils einen ersten regulären Ausdruck (81), wobei der jeweilige erste reguläre Ausdruck (81) eine Vielzahl von Datenwerten (13, 23) der jeweiligen Tabellenspalte erfasst;c) Bestimmen für eine Vielzahl von Tabellenspalten der zweiten Tabelle (20) jeweils einen zweiten regulären Ausdruck (82), wobei der jeweilige zweite reguläre Ausdruck (82) eine Vielzahl von Datenwerten (13, 23) der jeweiligen Tabellenspalte erfasst;d) Vergleichen einer Vielzahl von ersten regulären Ausdrücken (81) mit einer Vielzahl von zweiten regulären Ausdrücken (82) zur Bestimmung von Ähnlichkeitswerten (91, 92), die jeweils eine Ähnlichkeit zwischen den Datenwerten (13, 23) einer Tabellenspalte der ersten Tabelle (10) zu Datenwerten (13, 23) einer Tabellenspalte der zweiten Tabelle (20) angeben;e) Auswahl eines Paars von Tabellenspalten basierend auf den Ähnlichkeitswerten (91, 92);f) Ausgeben des ausgewählten Paars von Tabellenspalten und/oder Verknüpfung der ersten Tabelle (10) mit der zweiten Tabelle (20) mittels der Datenwerte (13, 23) der Tabellenspalten des ausgewählten Paars.

Description

Die Erfindung betrifft ein Verfahren zur Bestimmung eines Paars von Tabellenspalten aus einer ersten Tabelle und aus einer zweiten Tabelle, die zur Verknüpfung der Tabellen miteinander geeignet sind. Das Verfahren soll insbesondere im Gebiet der Automobilindustrie zur Anwendung kommen. Des Weiteren betrifft die Erfindung ein entsprechendes System zur Bestimmung eines entsprechenden Paars von Tabellenspalten.
Zur Herstellung, Wartung und Optimierung von Fahrzeugen werden in modernen Unternehmen diverse Datenbestände gepflegt. Entsprechende Daten und Datenwerte sind auf Servern in unterschiedlichen Datenbanken gespeichert. Ein häufig verwendetes Datenformat ist die relationale Datenbank, die einzelne Dateneinträge in Tabellen organisiert.
Durch das Verknüpfen (eng. „join“) entsprechender relationaler Datenbanken können Informationen gewonnen werden, die zur Optimierung von Fertigungsprozessen herangezogen werden können. Weiterhin ist es möglich, Abläufe genauer zu verstehen und zu überwachen. Ein Anwendungsbericht ist die Bauteilrückverfolgung. Beispielsweise kann ein Ausfall einer Komponente in einem Fahrzeug zu einem Unfall führen. Tritt ein entsprechender Defekt auf, so kann durch die Nutzung von vorhandenen (Komponenten-) Daten darauf geschlossen werden, welche Fahrzeuge für entsprechende Unfälle anfällig sind. Gegebenenfalls kann die hierdurch gewonnene Information genutzt werden, um Software innerhalb der Fahrzeuge zu aktualisieren oder die Fahrer aufzufordern, gefährdete Komponenten austauschen zu lassen.
Es sind zahlreiche Anwendungsfälle denkbar, bei denen eine intelligente Verknüpfung von bestehenden Datenbanksystemen Vorteile für die Wartung, Optimierung und Herstellung von Fahrzeugen herbeiführt. In der Realität existieren jedoch häufig diverse Datenbestände nebeneinander, wobei ein Verknüpfen der einzelnen Datenbestände, beispielsweise Tabellen aufgrund der unterschiedlichen Struktur, Datenqualität und/oder Nomenklatur scheitert. Theoretisch ist es möglich, mit einem Brute-Force-Ansatz Datenbestände zu konsolidieren und miteinander zu verknüpfen. Der hierfür notwendige Rechenaufwand ist jedoch eklatant und dieser Ansatz scheitert meistens an der Qualität der sich ergebenden Daten.
Ausgehend von diesem Stand der Technik ist es Aufgabe der vorliegenden Erfindung ein verbessertes Verfahren zur Verknüpfung von Tabellen anzugeben. Das Verfahren soll insbesondere effizient und fehlertolerant sein. Des Weiteren sollen ein entsprechendes System und ein computerlesbarer Speicher mit entsprechenden Instruktionen angegeben werden.
Die Aufgabe wird durch das Verfahren gemäß dem Anspruch 1 gelöst.
Insbesondere wird die Aufgabe durch ein Verfahren zur Bestimmung eines Paars von Tabellenspalten aus einer ersten Tabelle und einer zweiten Tabelle zur Verknüpfung der ersten Tabelle mit der zweiten Tabelle gelöst, wobei das Verfahren folgende Schritte umfasst:

a) Extrahieren einer Vielzahl von Datenwerten aus der ersten Tabelle und der zweiten Tabellen, wobei jeder Datenwert einer Tabellenspalte zugeordnet ist;
b) Bestimmen für eine Vielzahl von Tabellenspalten der ersten Tabelle jeweils einen ersten regulären Ausdruck, wobei der jeweilige erste reguläre Ausdruck eine Vielzahl von Datenwerten der jeweiligen Tabellenspalte erfasst;
c) Bestimmen für eine Vielzahl von Tabellenspalten der zweiten Tabelle jeweils einen zweiten regulären Ausdruck, wobei der jeweilige zweite reguläre Ausdruck eine Vielzahl von Datenwerten der jeweiligen Tabellenspalte erfasst;
d) Vergleichen einer Vielzahl von ersten regulären Ausdrücken mit einer Vielzahl von zweiten regulären Ausdrücken zur Bestimmung von Ähnlichkeitswerten, die jeweils eine Ähnlichkeit zwischen den Datenwerten einer Tabellenspalte der ersten Tabelle zu Datenwerten einer Tabellenspalte der zweiten Tabelle angeben;
e) Auswahl eines Paars von Tabellenspalten basierend auf den Ähnlichkeitswerten;
f) Ausgeben des ausgewählten Paars von Tabellenspalten und/oder Verknüpfen der ersten Tabelle mit der zweiten Tabelle mittels der Datenwerte der Tabellenspaten des ausgewählten Paars.

Ein (wesentlicher) Aspekt der vorliegenden Erfindung besteht darin, dass zur Bestimmung möglicher Verknüpfungen die Inhalte der einzelnen Tabellen wesentliche Informationen liefern. Letztendlich ist es ein Gedanke der vorliegenden Erfindung, die Datenwerte einzelner Tabellen zu berücksichtigen und Kriterien zu berechnen, die es ermöglichen, Rückschlüsse auf die Verknüpfbarkeit einzelner Tabellen zu ziehen. Konkret sollen Paare von Tabellenspalten angegeben werden, die sich zur Verknüpfung von Tabellen eignen.
Das Verfahren ist nicht nur auf die Verknüpfung von zwei Tabellen eingeschränkt. Vielmehr können mehrere Tabellen in Reihe oder in beliebigen Ringkonstellationen miteinander verknüpft werden. Auch lässt sich das Verfahren auf Situationen anwenden, bei denen mehrere Spaltenpaare in zwei oder mehreren Tabellen miteinander verknüpft werden.
Die Erzeugung von regulären Ausdrücken basierend auf den Daten ermöglicht es, die Verknüpfbarkeit von einzelnen Tabellenspalten effizient und mit einem relativ geringen Rechenaufwand zu bewerten. Insbesondere ist das Abprüfen vieler Tabellenspalten gegeneinander möglich, ohne die Rechenressourcen einzelner Rechner übermäßig zu belasten. Weiterhin können entsprechende reguläre Ausdrücke gespeichert werden, so dass nach der Auswahl zweier Tabellen sehr schnell festgestellt werden kann, welche Spaltenpaare sich zur Verknüpfung anbieten.
Reguläre Ausdrücke (engl.: „regular expressions“) sind bekannt. Sie beschreiben eine Menge von Zeichenketten mit Hilfe von syntaktischen Regeln.
Eine exemplarische Definition von regulären Ausdrücken lässt sich dem Buch „Reguläre Ausdrücke“ von Jeffrey Friedl entnehmen (O'Reilly, ISBN 3-89721-720-1).
Verfahren zur Bestimmung der Ähnlichkeit von regulären Ausdrücken sind aus anderen Anwendungsgebieten bekannt (z.B. P. Powell, „RESIM-an algorithm for finding the similarity of regular expression based patterns and strings," [1992] Conference Record of the Twenty-Sixth Asilomar Conference on Signals, Systems & Computers, Pacific Grove, CA, 1992, pp. 283-288 vol.1.).
Erfindungsgemäß können diese bekannten Verfahren zur Bestimmung der Ähnlichkeit von Zeichenketten zur Verknüpfung von Tabellen verwandt werden. Weiterhin kann die Identität von Teilausdrücken des jeweiligen regulären Ausdrucks erfasst werden, um einen Ähnlichkeitswert zu berechnen. In einer Ausführungsform kann eine Ähnlichkeit von regulären Ausdrücken auch dadurch bestimmt werden, dass der jeweilige reguläre Ausdruck eine ähnliche oder identische Menge von Datenwerten erfasst. Hierbei wird nicht auf die Anzahl der Datenwerte, sondern auf deren konkrete Beschaffenheit abgestellt (Überdeckungsgrad der Datenmenge).
In einer Ausführungsform umfasst das Verfahren ein Vergleichen zumindest einiger der Datenwerte der Tabellenspalte der ersten Tabelle mit zumindest einigen Datenwerten der Tabellenspalte der zweiten Tabelle, um mindestens einen Datenüberlappungswert für ein Paar von Tabellenspalten zu berechnen. Ein entsprechender Datenüberlappungswert gibt an, inwieweit identische und/oder hochgradig ähnliche Datenwerte in unterschiedlichen Tabellenspalten von vorzugsweise unterschiedlichen Tabellen vorkommen. Die Auswahl eines Paars von Tabellenspalten gemäß Schritt e) kann zusätzlich basierend auf dem zumindest einen Datenüberlappungswert erfolgen. Die Berechnung einer oder mehrerer Datenüberlappungswerte ermöglicht es, die Fehlerrate bei der Verknüpfung von Tabellen deutlich zu reduzieren. Da die Berechnung eines Datenüberlappungswerts rechenintensiv sein kann, wird in einer Ausführungsform der Erfindung nur dann eine derartige Berechnung vorgenommen, wenn das entsprechende Paar von Tabellenspalten bereits als vielversprechender Kandidat (z.B. ähnliche reguläre Ausdrücke), klassifiziert wurde.
In einer Ausführungsform umfasst das Verfahren ein Erstellen einer Datenstruktur, insbesondere eines (gerichteten) Wissensgraphen. Die Datenstruktur kann dazu verwendet werden, um einzelne Daten der Tabellen strukturiert zu verwalten. Hierbei kann es sich um deskriptive Daten ebenso wie um konkrete Datenwerte handeln. Beispielsweise kann die Datenstruktur eine Menge von Datenwerten einzelnen Tabellenspalten zuordnen. Zusätzlich und/oder alternativ kann die Datenstruktur einige oder mehrere Tabellenspalten einer Tabelle zuordnen. Zusätzlich oder alternativ kann die Datenstruktur einer der Vielzahl von Tabellenspalten einen Spaltennamen und/oder einer Vielzahl von Tabellen Tabellennamen zuordnen. Weiterhin kann die Datenstruktur dazu verwendet werden, um die bereits beschriebenen regulären Ausdrücke einzelnen Tabellenspalten zuzuordnen.
Eine entsprechende Datenstruktur, insbesondere ein gerichteter Graph ermöglicht einen schnelle und semantisch sinnvolle Navigation innerhalb der Datenstruktur.
Das Verfahren kann weiterhin ein Erzeugen einer Annotierung für eine Vielzahl von Tabellennamen und/oder Spaltennamen umfassen. Die Annotierungen können derart in dem Wissensgraphen gespeichert werden, dass diese von mindestens einem Spaltennamen und/oder Tabellennamen referenziert werden. Die Annotierungen können verwendet werden, um weitere Beziehungen zwischen Begriffen, beispielsweise Spalten- und/oder Tabellennamen herzustellen. Weiterhin können die Annotierungen verwendet werden, um dem Benutzer weitere Informationen zu Datenwerten, Tabellen und/oder Spalten zu geben.
Weiterhin kann der Wissensgraph, insbesondere die Annotierungen, dazu genutzt werden, um Kandidaten von Tabellen und/oder Tabellenspalten zu identifizieren, die in mindestens einem der Schritte c) bis f) berücksichtigt werden. Theoretisch können Begriffe, Spaltennamen und Tabellennamen, in ein semantisches Netz eingeordnet werden, um Beziehungen zwischen einzelnen Tabellen in einem frühen Bearbeitungsschritt zu erkennen. Insofern ist es möglich, bereits aufgrund der semantischen Nähe von einzelnen Begriffen Tabellen zu identifizieren, die sich wahrscheinlich miteinander verknüpfen lassen. Dementsprechend lassen sich auch innerhalb von einzelnen Tabellen anhand eines entsprechenden semantischen Netzes oder anhand von entsprechenden Annotierungen Spalten identifizieren, die wahrscheinlich geeignet sind, miteinander verknüpft zu werden. Hierfür kann beispielsweise ein semantischer Abstand zwischen einzelnen Begriffen berechnet werden.
Durch die Verwendung dieser Informationen müssen weniger Daten analysiert werden, so dass ein geringerer Rechenaufwand notwendig ist.
In einer Ausführungsform umfasst das Verfahren ein Bestimmen eines Präfix-Namensclusters für Tabellennamen und/oder Spaltennamen und/oder ein Bestimmen eines Postfix-Namensclusters für Tabellennamen und/oder Spaltennamen, wobei in Schritt e) die Auswahl (zusätzlich) basierend darauf erfolgt, ob die Tabellenspalten demselben Postfix- und/oder Präfix-Namenscluster zugeordnet sind. Die Präfix- und Postfix-Namenscluster sowohl für die Tabellennamen wie auch für die Spaltennamen können in einer (einzigen) oder mehreren Datenstrukturen erfasst werden. Die Zugehörigkeit zu einem bestimmten Postfix- und/oder Präfix-Namensclusters kann als Bewertungskriterium herangezogen werden, um zu bestimmen, ob sich ein ausgewähltes Spaltenpaar miteinander verknüpfen lässt.
Dementsprechend können Präfix- und/oder Postfix-Wertecluster für Datenwerte erzeugt werden. Die Präfix-Wertecluster können in den gleichen Datenstrukturen organisiert werden wie die Präfix- und/oder Postfix-Namenscluster. In einer Ausführungsform umfasst das Verfahren die nachfolgenden Schritte:

- ein Bestimmen eines Präfix-Werteclusters für Datenwerte, wobei der Präfix-Wertecluster die Tabellenspalten einem Cluster zuweist, die eine Vielzahl von Datenwerten beinhalten, die mit demselben Präfix beginnen; und/oder
- ein Bestimmen eines Postfix-Werteclusters für Datenwerte, wobei der Postfix-Wertecluster die Tabellenspalten einem Cluster zuweist, die eine Vielzahl von Datenwerten beinhalten, die mit demselben Postfix enden; wobei in Schritt e) die Auswahl (zusätzlich) basierend darauf erfolgt, ob die Tabellenspalte demselben Cluster aus dem Postfix- Wertecluster und/oder Präfix-Wertecluster zugeordnet sind.

Auch hier ergibt sich ein Vorteil hinsichtlich der Geschwindigkeit der Durchführung sowie hinsichtlich der Qualität der ausgewählten Kandidaten von Spalten.
Das Bestimmen der regulären Ausdrücke kann mittels genetischer Programmierung erfolgen. Die Bestimmung von entsprechenden regulären Ausdrücken ist exemplarisch in dem Paper „Inference of Regular Expression for Text Extraction from Examples“ (A. Bartoli, A. De Lorenzo, E. Medvet and F. Tarlao, „Inference of Regular Expressions for Text Extraction from Examples," in IEEE Transactions on Knowledge and Data Engineering, vol. 28, no. 5, pp. 1217-1230, May 1 2016) beschrieben. Erfindungsgemäß können andere Verfahren angewandt werden.
Das Verfahren kann weiterhin ein Klassifizieren mindestens einer Tabellenspalte in mindestens einer der Tabellen als Primärschlüssel-Tabellenspalte umfassen, wobei das Klassifizieren als Primärschlüssel-Tabellenspalte einen Vergleich der einzelnen Datenwerte der mindestens einen Tabellenspalte hinsichtlich deren Identität umfasst. In einer Ausführungsform wird eine Tabellenspalte nur dann als Primärschlüssel-Tabellenspalte klassifiziert, wenn nur eine geringe Anzahl von Datenwerten innerhalb dieser Tabellenspalte übereinstimmt. Das heißt, es gibt keine oder nur sehr wenige identische Datenwerte in der jeweiligen Spalte. In einer Ausführungsform dürfen maximal 10 % der Datenwerte mehr als einmal vorkommen. In einer anderen Ausführungsform liegt die Grenze bei 5 oder gar bei 1 %. In einer Ausführungsform dürfen keine Datenwerte doppelt in einer bestimmten Tabellenspalte enthalten sein, um die entsprechende Tabellenspalte als Primärschlüssel-Tabellenspalte zu identifizieren.
Die Klassifikation als Primärschlüssel-Tabellenspalte und/oder als Fremdschlüssel-Tabellenspalte kann nicht nur dafür herangezogen werden, um möglichst effizient ein Spaltenpaar auszuwählen, das sich zur Verknüpfung zweier Tabellen eignet. Die entsprechende Klassifikation kann auch dafür herangezogen werden, um aus den bekannten Arten zur Verknüpfung von relationalen Datenbanken eine besonders geeignete Verknüpfung auszuwählen. Arten der Tabellenverknüpfung können beispielsweise ein Inner-Join und/oder ein Outer-Join sein. Erfindungsgemäß kann eine bestimmte Art der Tabellenverknüpfung entweder vorgeschlagen und/oder (automatisch) vorgenommen werden.
Die Bewertung, ob eine bestimmte Tabellenspalte als Primärschlüssel-Tabellenspalte klassifiziert wurde, kann im Schritt e) berücksichtigt werden. Aufgrund dieser Klassifikation können eine Vielzahl von Tabellenspalten unberücksichtigt bleiben.
In einer Ausführungsform umfasst das Verfahren (zusätzlich) ein Klassifizieren mindestens einer Tabellenspalte in mindestens einer Tabelle als Fremdschlüssel-Tabellenspalte, wobei das Klassifizieren als Fremdschlüssel-Tabellenspalte ein Vergleichen der einzelnen Daten der mindestens einen Tabellenspalte hinsichtlich deren Identität und/oder Wiederholungsrate umfasst. Eine häufige Wiederholung der gleichen oder hochgradig ähnlicher Datenwerte innerhalb einer Spalte kann in dieser Ausführungsform als Indikator verwendet werden, um eine bestimmte Tabellenspalte als Fremdschlüssel-Tabellenspalte zu klassifizieren. In einer Ausführungsform wird eine Spalte dann als Fremdschlüssel-Tabellenspalte klassifiziert, wenn mehr als 50 % der Einträge häufiger als 1-mal vorkommen.
Die eingangs genannte Aufgabe wird weiterhin durch ein computerlesbares Speichermedium mit Instruktionen zur Implementierung des bereits beschriebenen Verfahrens gelöst. Dies gilt insbesondere, wenn die Instruktionen auf mindestens einer Recheneinheit ausgeführt werden.
Es ergeben sich ähnliche Vorteile, wie diese bereits in Verbindung mit dem Verfahren beschrieben wurden. Erfindungsgemäß können die Instruktionen auch auf mehrere computerlesbare Speichermedien verteilt sein.
Weiterhin wird die Aufgabe durch ein System mit einem computerlesbaren Speichermedium wie dies vorab beschrieben wurde gelöst, wobei das System vorzugsweise mindestens eine Recheneinheit zur Ausführung der Instruktionen umfasst.
In einer Ausführungsform umfasst das System eine Vielzahl von Maschinen, wobei mindestens ein Aktuator der Maschinen in Abhängigkeit eines Ereignisses aktiviert wird, das durch das Abfragen von mindestens zwei Tabellen gewonnen wurde, die mittels des beschriebenen Verfahrens verknüpft wurden. Bei den Maschinen kann es sich beispielsweise um Herstellungsmaschinen und/oder Fahrzeuge handeln. Soweit es sich um ein Fahrzeug handelt, kann der Aktuator eine Anzeige sein.
Auch hier ergeben sich entsprechende Vorteile.
Allgemein ist festzustellen, dass sich die Erfindung insbesondere dann bewährt, wenn sie in Szenarien mit sehr großen, heterogenen Datenmengen eingesetzt wird. Dies ist meist der Fall, wenn große Mengen an Tabellen, die aus verschiedensten Datenbanken stammen, z.B. auf einem „Data Lake“ zusammenlaufen. Der Mehrwert wird dann aus der Möglichkeit generiert, Daten aus verschiedenen Bereichen (Datensilos) zu verknüpfen (Entwicklung, Produktion, Logistik, After Sales, ...). Das beschriebene Verfahren ermöglicht genau dies durch eine automatische Extraktion von Verknüpfungsmöglichkeiten über viele Tabellen, ggf. auch über viele Datenbanken, hinweg.
Nachfolgend wird die Erfindung mittels mehrerer Ausführungsbeispiele beschrieben, die anhand von Abbildungen näher erläutert werden.
Figurenliste

1 ein vernetztes System zur Anwendung der Erfindung mit einer Vielzahl von Fahrzeugen;
2 zwei zu verknüpfende Tabellen;
3 einen Wissensgraph, der gemäß den Vorgaben der Tabellen aus 2 erzeugt wurde;
4 reguläre Ausdrücke, die zu den Datenwerten der Tabellen aus 2 erzeugt wurden;
5 eine Präfix-Tabelle;
6 die Präfix-Tabelle aus 5 mit Referenzen auf die Tabellen aus 2;
7 eine weitere Präfix-Tabelle;
8 eine Postfix-Tabelle;
9 ein Wissensgraph, der mit einem Wörterbuch und einem Abkürzungsverzeichnis verknüpft ist;
10 eine Auswertungstabelle.

In der nachfolgenden Beschreibung werden für gleiche und gleichwirkende Teile dieselben Bezugsziffern verwendet.
1 zeigt ein System umfassend eine Vielzahl von Fahrzeugen 120, 120' die kommunikativ mit einem Datenverarbeitungsserver 150 verbunden sind. Zur Kommunikation zwischen den einzelnen Teilnehmern ist ein Kommunikationsnetzwerk 1 vorgesehen.
Der Datenverarbeitungsserver 150 verfügt über eine Datenbank 160. Weitere Datenbanken 160 können vorgesehen sein.
2 zeigt zwei Tabellen die auf dem Datenbankserver 160 gespeichert sind. Hierbei handelt es sich um eine Fahrzeugtabelle 10 sowie um eine Prozessergebnistabelle 20.
Die Fahrzeugtabelle 10 umfasst drei Tabellenspalten, die jeweils einen Spaltennamen tragen:

- „id“;
- „gear“;
- „lenk2“ (Spaltenname 11).

Die Fahrzeugtabelle umfasst insgesamt drei Tabellenzeilen, die in 2 dargestellt sind, wobei die erste Zeile in der Spalte „id“ den Datenwert „00739“ eingetragen hat.
Demgemäß umfasst die Prozessergebnistabelle 20 drei Tabellenspalten mit den nachfolgenden Spaltennamen:

- „prid“ (Spaltenname 21);
- „faz“;
- „erg“.

Auch die Prozessergebnistabelle 20 hat eine Vielzahl von Datenwerten, u.a. den Datenwert 23 (Wert=„1“).
In 2 sind die Fahrzeugtabelle 10 und die Prozessergebnistabelle 20 rein exemplarisch mit jeweils insgesamt neun Datenwerten 13, 23 dargestellt. Erfindungsgemäß können die jeweiligen Tabellen deutlich größer sein und deutlich mehr Spalten und/oder Zeilen umfassen.
In dem Ausführungsbeispiel wird anhand der über die Fahrzeugtabelle 10 und Prozessergebnistabelle 20 vorliegenden Informationen ein Wissensgraph 70 erzeugt, wie er beispielsweise in 3 dargestellt ist. In dem Wissensgraph weisen die Instanzen, die die Fahrzeugtabelle 10 und die Prozessergebnistabelle 20 repräsentieren auf den Knoten Tabelle, der angibt, dass es sich hierbei um Tabellen handelt. Des Weiteren verweisen diese Knoten auf die jeweiligen Spaltennamen, beispielsweise Spaltenname 11 bzw. Spaltenname 21 der jeweiligen Tabelle 10 bzw. 20. Die Spaltennamen weisen ihrerseits wieder auf den Knoten „Column“, der angibt, dass es sich bei den Spaltennamen um Knoten handelt, die Spalten modellieren.
Der Spaltenname 21 („erg“) weist des Weiteren auf zwei Datenwerte („0“ und „1“), die ihrerseits wiederum durch einen entsprechenden Verweis auf den Knoten „Value“ als Datenwerte kategorisiert bzw. klassifiziert sind.
In einem Ausführungsbeispiel der Erfindung werden für jede Tabellenspalte der Fahrzeugtabelle 10 und der Prozessergebnistabelle 20 reguläre Ausdrücke 81, 82 erzeugt (vgl. 4). Diese regulären Ausdrücke können optional in einer Tabelle, nämlich der Tabelle für reguläre Ausdrücke 80 gespeichert werden. Aus dieser Tabelle ergeben sich für die Datenwerte 13 der Fahrzeugtabelle 10 die nachfolgenden regulären Ausdrücke:

- „00/d+“ für die Tabellenspalte „id“;
- „[A-Z]“ für die Tabellenspalte „gear“;
- „R|L“ für die Tabellenspalte „lenk2“

Entsprechende reguläre Ausdrücke ergeben sich für die Prozessereignistabelle 20. Die regulären Ausdrücke werden in einer bevorzugten Ausführungsform in dem Wissensgraphen gespeichert. Eine Erstellung der Tabelle für reguläre Ausdrücke 80 kann temporär zur Auswertung der Ergebnisse erfolgen. Dies ist aber erfindungsgemäß nicht notwendig.
Erfindungsgemäß werden die regulären Ausdrücke derart gewählt, dass sie nach Möglichkeit alle Datenwerte 13, 23 in der jeweiligen Tabellenspalte erfassen. Weiterhin sollen die regulären Ausdrücke derart gewählt sein, dass sie nach Möglichkeit keine größeren Abweichungen von den betroffenen Datenwerten 13 zulassen. Der jeweilige reguläre Ausdruck sollte also so gewählt werden, dass er die vorgegebenen Datenwerte 13, 23 möglichst präzise definiert.
Entsprechende Verfahren zur Inferenz von regulären Ausdrücken sind bekannt. Erfindungsgemäß kann beispielsweise aus einem der drei nachfolgenden Ansätze ausgewählt werden:

1. Trivialansatz: Bestimmung der alphanumerischen Werte für jede Stelle des zu erfassenden Datenwerts 13, 23;
2. Einfacher Ansatz: Bestimmung eines regulären Ausdrucks anhand der Wildcards „\d“ und „\w“;
3. Ansatz wie durch Bartoli et al vorgeschlagen („Inference of regular expressions for text extraction from examples.“ IEEE Transactions on Knowledge and Data Engineering 28.5 (2016): 1217-1230)

Für die nachfolgend angegebene Zahlenfolge können sich so die nachfolgenden regulären Ausdrücke ergeben:

Werte	Trivialansatz	Einfacher Ansatz	Ansatz gemäß Bartoli et al.
87, 01, 02, 86, 05, 98, ...	[0-9]+	\d+	\w\d
RZ579KLT0, RZ578KLT0, RZ570KLT02, RZ570KLT01, RZ570KLT05, RZ570KLT04, RZ579KLT01, ...	RZ57[0-9]KLT0[0-9]	\w+\d+\w+\d+	\w++
ZWKZ, ZHIB, ZIHM, ZDMY, ZVBE, ...	Z[A-Z]+	\w+	\w++

Um das erfindungsgemäße Verfahren zur Identifikation von Spaltenpaaren, die für eine Verlinkung/Verknüpfung von Tabellen eingesetzt werden können, umzusetzen, können in einem Ausführungsbeispiel neben einer Beurteilung der Ähnlichkeit der regulären Ausdrücke 81, 82 weitere Parameter herangezogen werden. Hierfür sinnvolle Parameter sind die Zuordnung zum gleichen Präfix-Cluster 52, 53 oder einem gemeinsamen - identischen - Postfix-Cluster 62, 63.
5 zeigt exemplarisch eine Präfix-Werte-Clustertabelle 50, in der Cluster für Datenwerte 13, 23 erfasst sind. Die Präfix-Datenwerte-Clustertabelle 50 hat einen ersten Präfix-Cluster 52 für das Präfix „P“ und einen zweiten Präfix-Cluster für das Präfix „00“ erfasst. Die Präfix-Werte-Clustertabelle 50 gibt weiterhin für jeden dieser Präfix-Cluster 52, 53 eine Größe des Clusters („Size“) sowie eine Länge des Präfix („Prefix length“) an. Die Größe gibt an, wie viele Datenwerte zu dem jeweiligen Präfix existieren.
Die 6 zeigt, dass der erste Präfix-Cluster 52 auf genau eine Tabellenspalte („prid“) der Prozessergebnistabelle 20 zeigt. Dementsprechend zeigt der zweite Präfix-Cluster 53 auf zwei Tabellenspalten in der Fahrzeugtabelle 10 sowie in der Prozessergebnistabelle 20 („id“, „faz“). Somit bieten sich die Tabellenspalten „id“ und „faz“ für eine Verknüpfung an.
Die 7 und 8 zeigen weitere Präfix- und Postfix-Cluster, wobei es sich hier um Präfix-Namenscluster und somit um die Präfix-Namensclustertabelle 60 sowie um die Postfix-Namensclustertabelle 61 handelt. Die beiden Tabellen geben Cluster an, beispielsweise die Postfix-Cluster 62, 63, die sich auf einzelne Tabellen oder Spaltennamen beziehen. Konkret gibt die Postfix-Namensclustertabelle 61 an, dass im ersten Postfix-Cluster 62 für das Postfix „erg“ zwei Einträge existieren (vgl. 3, Tabellenname „proerg“ sowie Spaltenname 21 „erg“). Dementsprechend gibt der zweite Postfix-Cluster für das Postfix „id“ an, dass dementsprechend zwei Einträge für das Postfix „id“ existieren (vgl. „id“ und „prid“ in 3).
9 zeigt eine Annotierung des Wissensgraphen 70 anhand einer Abkürzungstabelle 3 und einer Nachschlagetabelle 4. Die Annotierungen können dazu verwandt werden, um zu bestimmten Spaltennamen 11, 21 oder Zeilennamen oder Datenwerten 13, 23 Wortfelder zu referenzieren, die eine ähnliche oder identische Bedeutung haben. Theoretisch ist es auch möglich, ein semantisches Netz aufzubauen, um Ähnlichkeit zwischen den gewählten Begriffen zu bestimmen.
Die 10 zeigt exemplarisch eine Auswertungstabelle 90, die basierend auf den anhand der vorhergehenden Figuren beschriebenen Ergebnissen aufgebaut wurde. Diese gibt exemplarisch die Verknüpfbarkeit zwischen den Spalten „gear“ und „prid“ sowie zwischen den Spalten „id“ und „faz“ der Fahrzeugtabelle 10 und der Prozessergebnistabelle 20 an. Anhand der Tabelle ergibt es sich, dass die generierten regulären Ausdrücke (vgl. 4 für die Tabellenspalten „gear“ und „prid“) eine geringe Ähnlichkeit haben (Wert=„0,0“). Auch finden sich diesbezüglich keine identischen Präfix-Cluster wieder. Im Ergebnis kommt das erfindungsgemäße Verfahren dazu, dass sich diese beiden Spalten nicht verknüpfen lassen („Joinable prediction“=„NO“).
Beim Vergleich der Spalten „id“ und „faz“ ergibt sich jedoch eine hohe Ähnlichkeit hinsichtlich der regulären Ausdrücke („Wert=1,0“). Weiterhin gibt es eine hohe Korrespondenz bzw. ein hoher Überlappungsgrad der Werte aus den beiden Spalten („Unique value coverage“=90 %). Insofern kommt das Verfahren, obwohl es keinen übergeordneten Präfix-Cluster gibt zu dem Ergebnis, dass eine Verknüpfung wahrscheinlich möglich ist („Joinable prediction=YES“).
Der Überlappungsgrad kann durch ein Vergleichen zumindest einiger der Datenwerte der Tabellenspalten der Fahrzeugtabelle 10 mit zumindest einigen Datenwerten der Tabellenspalten der Prozessergebnistabelle 20 berechnet werden. In einem Ausführungsbeispiel, wird zumindest für die Spalte mit ähnlichen regulären Ausdrücken ein Datenüberlappungswert berechnet.
Ein entsprechender Datenüberlappungswert gibt an, inwieweit identische und/oder hochgradig ähnliche Datenwerte in unterschiedlichen Tabellenspalten von vorzugsweise unterschiedlichen Tabellen vorkommen.
In den vorab beschriebenen Ausführungsbeispielen, wurden stets reguläre Ausdrücke verwendet, um mindestens einen Ähnlichkeitswert zur Auswahl eines Paars von verknüpfbaren Tabellenspalten zu bestimmen. Allgemein kann jedes der beschriebenen Teilverfahren (z.B. zur Bestimmung eines Überlappungsgrads, eines Präfix- und/oder Postfix-Clusters) gesondert, insbesondere ohne die Nutzung von regulären Ausdrücken, verwendet werden, um Ähnlichkeitswerte zu bestimmen und dieses bei der Verknüpfung von Tabellen einzusetzen. Erfindungsgemäß wird der Wissensgraph eingesetzt, um Aussagen über die Verknüpfbarkeit von Spalten treffen zu können und/oder entsprechende Verknüpfungen automatisiert oder teilautomatisiert vorzunehmen.
Vorhergehend wurde die Erfindung mit starkem Bezug auf die Automobilindustrie beschrieben. Erfindungsgemäß kann das Verfahren sowie die Vorrichtung jedoch auch in anderen Bereichen der Technik eingesetzt werden. Industrielle Betriebe mit längeren Wertschöpfungsketten (von Entwicklung, über Produktion bis zu Vertreib) sind besonders geeignet, um Gebrauch von der erfindungsgemäßen Lehre zu machen.
Bezugszeichenliste

1: Kommunikationsnetzwer
3: Abkürzungstabelle
4: Nachschlagetabelle
10: Fahrzeugtabelle „faz“
11: Spaltennamen
13: Datenwert
20: Prozessergebnistabelle „proerg“
21: Spaltennamen
23: Datenwert
50: Präfix-Wertecluster-Tabelle
52, 53: Präfix-Cluster
60: Präfix-Namens-Clustertabelle
61: Postfix-Namens-Clustertabelle
62, 63: Postfix-Cluster
70: Wissensgraph
80: Tabelle für reguläre Ausdrücke
81, 82: Regulärer Ausdruck
90: Auswertungstabelle
91, 92: Reg-Ähnlichkeitswert
150: Datenverarbeitungsserver
120, 120': Fahrzeug
160: Datenbank

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

P. Powell, „RESIM-an algorithm for finding the similarity of regular expression based patterns and strings,“ [1992] Conference Record of the Twenty-Sixth Asilomar Conference on Signals, Systems & Computers, Pacific Grove, CA, 1992, pp. 283-288 vol.1. [0013]
A. Bartoli, A. De Lorenzo, E. Medvet and F. Tarlao, „Inference of Regular Expressions for Text Extraction from Examples,“ in IEEE Transactions on Knowledge and Data Engineering, vol. 28, no. 5, pp. 1217-1230, May 1 2016 [0024]

Claims

Verfahren zur Bestimmung eines Paars von Tabellenspalten aus einer ersten Tabelle (10) und einer zweiten Tabelle (20) zur Verknüpfung der ersten Tabelle (10) mit der zweiten Tabelle (20), insbesondere zur Anwendung im Gebiet der Automobilindustrie, wobei das Verfahren die folgenden Schritte umfasst: a) Extrahieren einer Vielzahl von Datenwerten (13, 23) aus der ersten Tabelle (10) und der zweiten Tabelle (20), wobei jeder Datenwert (13, 23) einer Tabellenspalte zugeordnet ist; b) Bestimmen für eine Vielzahl von Tabellenspalten der ersten Tabelle (10) jeweils einen ersten regulären Ausdruck (81), wobei der jeweilige erste reguläre Ausdruck (81) eine Vielzahl von Datenwerten (13, 23) der jeweiligen Tabellenspalte erfasst; c) Bestimmen für eine Vielzahl von Tabellenspalten der zweiten Tabelle (20) jeweils einen zweiten regulären Ausdruck (82), wobei der jeweilige zweite reguläre Ausdruck (82) eine Vielzahl von Datenwerten (13, 23) der jeweiligen Tabellenspalte erfasst; d) Vergleichen einer Vielzahl von ersten regulären Ausdrücken (81) mit einer Vielzahl von zweiten regulären Ausdrücken (82) zur Bestimmung von Ähnlichkeitswerten (91, 92), die jeweils eine Ähnlichkeit zwischen den Datenwerten (13, 23) einer Tabellenspalte der ersten Tabelle (10) zu Datenwerten (13, 23) einer Tabellenspalte der zweiten Tabelle (20) angeben; e) Auswahl eines Paars von Tabellenspalten basierend auf den Ähnlichkeitswerten (91, 92); f) Ausgeben des ausgewählten Paars von Tabellenspalten und/oder Verknüpfung der ersten Tabelle (10) mit der zweiten Tabelle (20) mittels der Datenwerte (13, 23) der Tabellenspalten des ausgewählten Paars.
Verfahren nach Anspruch 1, gekennzeichnet durch ein Vergleichen zumindest einiger der Datenwerte (13, 23) der Tabellenspalte der ersten Tabelle (10) mit zumindest einigen Datenwerten (13, 23) der Tabellenspalte der zweiten Tabelle (20), um mindestens einen Datenüberlappungswert für ein Paar von Tabellenspalten zu berechnen, wobei in Schritt e) die Auswahl (zusätzlich) basierend auf dem zumindest einen Datenüberlappungswert erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch ein Erstellen einer Datenstruktur, insbesondere eines (gerichteten) Wissensgraphen (70), wobei die Datenstruktur: - eine Menge von Datenwerten (13, 23) einzelnen Tabellenspalten, und/oder - jede der Tabellenspalten einer Tabelle (10, 20); und/oder - einer Vielzahl von Tabellenspalten einen Spaltennamen (11, 21); und/oder - einer Vielzahl von Tabellen (10, 20) Tabellennamen; und/oder - die regulären Ausdrücke (81, 82) den einzelnen Tabellenspalten; zuordnet.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch eine Erzeugung einer Annotierung für eine Vielzahl von Tabellennamen und/oder Spaltennamen (11, 21), wobei vorzugsweise einzelne Annotierungen derart in dem Wissensgraph (70) gespeichert sind, dass diese von mindestens einem Spaltennamen (11, 21) und/oder Tabellennamen referenziert werden.
Verfahren nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 4, dadurch gekennzeichnet, dass der Wissensgraph (70), insbesondere die Annotierungen dazu genutzt werden, um Kandidaten von Tabellen (10, 20) und/oder Tabellenspalten zu identifizieren, die in mindestens einem der Schritte c) bis f) berücksichtigt werden.
Verfahren nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 5, gekennzeichnet durch - ein Bestimmen eines Präfix-Namensclusters für Tabellennamen und/oder Spaltennamen (11, 21); und/oder - ein Bestimmen eines Postfix-Namensclusters für Tabellennamen und/oder Spaltennamen (11, 21); wobei in Schritt e) die Auswahl (zusätzlich) basierend darauf erfolgt, ob die Tabellenspalte demselben Postfix- und/oder Präfix-Namenscluster zugeordnet ist.
Verfahren nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 5 oder 6, gekennzeichnet durch - ein Bestimmen eines Präfix-Werteclusters für Datenwerte (13, 23), wobei der Präfix-Wertecluster die Tabellenspalten einem Cluster zuweist, die eine Vielzahl von Datenwerten (13, 23) beinhalten, die mit demselben Präfix beginnen; und/oder - ein Bestimmen eines Postfix- Werteclusters (62, 63) für Datenwerte (13, 23), wobei der Postfix-Wertecluster die Tabellenspalten einem Cluster zuweist, die eine Vielzahl von Datenwerten (13, 23) beinhalten, die mit demselben Postfix enden; wobei in Schritt e) die Auswahl (zusätzlich) basierend darauf erfolgt, ob die Tabellenspalte demselben Cluster aus dem Postfix- Wertecluster (62, 63) und/oder Präfix-Wertecluster zugeordnet sind.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in Schritt c) der jeweilige reguläre Ausdruck (81, 82) mittels genetischer Programmierung erzeugt wird.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch - ein Klassifizieren mindestens einer Tabellenspalte in mindestens einer der Tabellen (10, 20) als Primärschlüssel-Tabellenspalte, wobei das Klassifizieren als Primärschlüssel-Tabellenspalte ein Vergleichen der einzelnen Datenwerte (13, 23) der mindestens einen Tabellenspalte hinsichtlich deren Identität umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch - ein Klassifizieren mindestens einer Tabellenspalte in mindestens einer Tabelle als Fremdschlüssel-Tabellenspalte, wobei das Klassifizieren als Fremdschlüssel-Tabellenspalte ein Vergleichen der einzelnen Datenwerte (13, 23) der mindestens einen Tabellenspalte hinsichtlich deren Identität und/oder Wiederholungsrate umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass in Abhängigkeit von der Klassifikation als Fremdschlüssel- und/oder Primärschlüssel-Tabellenspalte eine bestimmte Art der Tabellenverknüpfung, z.B. Inner-Join-Verknüpfung und/oder Outer-Join-Verknüpfung, vorgeschlagen und/oder vorgenommen wird.
Computerlesbares Speichermedium mit Instruktionen zur Implementierung des Verfahrens nach einem der vorhergehenden Ansprüche, wenn die Instruktionen auf mindestens einer Recheneinheit ausgeführt werden.
System mit einem computerlesbaren Speichermedium nach Anspruch 1 sowie mindestens einer Recheneinheit zur Ausführung der Instruktionen.
System nach Anspruch 13, umfassend eine Vielzahl von Maschinen, insbesondere Fahrzeuge, wobei mindestens ein Aktuator der Maschinen in Abhängigkeit eines Ergebnisses aktiviert wird, das durch das Abfragen von mindestens zwei Tabellen (10, 20) gewonnen wurde, die mittels des beschriebenen Verfahrens verknüpft wurden.