DE102022207482B4 - Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit - Google Patents

Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit Download PDF

Info

Publication number
DE102022207482B4
DE102022207482B4 DE102022207482.3A DE102022207482A DE102022207482B4 DE 102022207482 B4 DE102022207482 B4 DE 102022207482B4 DE 102022207482 A DE102022207482 A DE 102022207482A DE 102022207482 B4 DE102022207482 B4 DE 102022207482B4
Authority
DE
Germany
Prior art keywords
data
quality index
value
entries
data quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102022207482.3A
Other languages
English (en)
Other versions
DE102022207482A1 (de
Inventor
Hannah Schlotter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZF Friedrichshafen AG
Original Assignee
ZF Friedrichshafen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZF Friedrichshafen AG filed Critical ZF Friedrichshafen AG
Priority to DE102022207482.3A priority Critical patent/DE102022207482B4/de
Publication of DE102022207482A1 publication Critical patent/DE102022207482A1/de
Application granted granted Critical
Publication of DE102022207482B4 publication Critical patent/DE102022207482B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex (1) von Daten, umfassend: Empfangen von strukturierten Daten, welche insbesondere in Spalten und Zeilen strukturierte Einträge umfassen, Empfangen und/oder Bestimmen von Informationen über die Daten, Auswerten der Informationen über die Daten, um zumindest eine Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1) zu erlangen, und Bestimmen des Datenqualitätsindex (1) der Daten auf Basis der zumindest einen Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1).

Description

  • Die vorliegende Erfindung betrifft ein computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex von Daten, ein Computerprogramm und eine Steuereinheit, die dazu ausgestaltet ist, das Verfahren auszuführen.
  • Datenqualität spielt in der heutigen datengesteuerten Welt eine wichtige Rolle. So ist es beispielsweise wichtig, nicht selbst erzeugte Daten oder Datensätze hinsichtlich deren Qualität zu prüfen, bevor diese weiteren Prozessen zugrunde gelegt werden. So ist es für einen Verarbeiter von Daten beispielsweise von besonderem Interesse, den Datenhintergrund der Daten zu verstehen und die Daten nicht nur oberflächlich zu analysieren. Es kann jedoch sehr zeitaufwendig sein, den entsprechenden Dateneigentümer oder Datenersteller zu identifizieren und zu finden, der detailliert Auskunft über den jeweiligen Datensatz geben kann, um den Datenhintergrund zu verstehen. Dies erfordert in der Regel einen regelmäßigen Austausch mit anderen Personen. Oft ist es so, dass der Verarbeiter und der Ersteller der Daten in unterschiedlichen Abteilungen oder sogar unterschiedlichen Regionen eingesetzt ist, wodurch ein hoher Kommunikationsaufwand entsteht. Ferner muss der Datenhintergrund bei jeder erneuten Verwendung der Daten erneut geprüft werden, wenn sich beispielsweise eine neue Person für die Arbeit mit dem jeweiligen Datensatz interessiert. Dies ist nicht effizient und verlangsamt Entwicklungsprozesse.
  • Daher ist es eine Aufgabe der vorliegenden Erfindung ein Verfahren und eine Vorrichtung bereitzustellen, welche einen Datenhintergrund von einem bereitgestellten Datensatz einfach zugänglich machen kann, um diese Daten grundlegend zu verstehen und eine weitere Verarbeitung der Daten darauf zu basieren.
  • Verfahren bzw. Vorrichtungen, die sich mit Daten auseinandersetzen, sind beispielsweise aus US 2021 / 0 263 900 A1 , US 2014 / 0 229 456 A1 , US 2013 / 0 185 309 A1 und US 2020 / 0 380 379 A1 bekannt.
  • Das Problem wird mit einem Verfahren mit den Merkmalen des Anspruchs 1, mit einem Computerprogramm mit den Merkmalen des Anspruchs 15 und mit einer Steuereinheit mit den Merkmalen des Anspruchs 16 gelöst.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex von Daten bereitgestellt, wobei das Verfahren umfasst:
    • Empfangen von strukturierten Daten, welche insbesondere in Spalten und Zeilen strukturierte Einträge umfassen,
    • Empfangen und/oder Bestimmen von Informationen über die Daten,
    • Auswerten der Informationen über die Daten, um zumindest eine Komponente des Datenqualitätsindex zu erlangen,
    • Bestimmen des Datenqualitätsindex der Daten auf Basis der zumindest einen Komponente des Datenqualitätsindex und
    • Aussortieren und/oder Vorsortieren und/oder Auswählen von Bauteilen, wobei dazu der Datenqualitätsindex genutzt wird.
  • Gegenüber dem bekannten Stand der Technik kann mit dem obigen Verfahren eine Datenqualität der empfangenen oder erlangten Daten gemessen oder bestimmt werden. Ferner ist es bei dem obigen Verfahren nicht notwendig, eine Vielzahl verschiedener Annahmen und/oder Voraussetzungen zu erfüllen, um Daten hinsichtlich ihrer Datenqualität zu analysieren. Gemäß einer Ausführungsform umfasst der Datenqualitätsindex sechs verschiedenen Komponenten. Jede Komponente kann durch ein oder mehrere mathematische Maße oder Formeln berechnet werden. Durch die mathematischen Formeln ist eine objektive Messung von Datenqualität möglich. Jedes Maß kann normiert sein, d. h. für alle Berechnungen kann ein einheitliches Ergebnisintervall verwendet werden. Bei unterschiedlichen Zahlenintervallen würde demgegenüber die Gefahr bestehen, dass einzelne Komponenten des Datenqualitätsindex aufgrund ihres größeren Zahlenintervalls künstlich gewichtet würden. Durch die Normierung ist jede Komponente gleich wichtig und somit ungewichtet. Optional können durch eine Vorgabe von Gewichtungsfaktoren eine oder mehrere Komponenten gewichtet werden. Für die Berechnung einzelner Komponenten sind Informationen über die Daten oder den Datensatz notwendig (beispielsweise Informationen über die Spalten und/oder Zeilen der Daten). Diese Informationen über die Daten (z.B. Metadaten) können als Zwischenlösung in einem Datenwörterbuch abgespeichert werden. Das Datenwörterbuch kann die Daten beschreiben und somit Informationen über die Daten bereitstellen. Ferner können die Informationen aus einem Datenkatalog abgerufen werden. In dem Datenkatalog können sowohl die Informationen über die Daten als auch die Daten selbst zentral oder dezentral gespeichert sein.
  • Gemäß einer Ausführungsform umfasst der Datenqualitätsindex sechs verschiedene Komponenten und neun mathematische Maße (d.h. mathematische Formeln). Die mathematischen Maße oder Formeln können auch als Subkomponenten der Komponenten des Datenqualitätsindex bezeichnet sein. Der Datenqualitätsindex kann jedoch flexibel durch weitere Komponenten und/oder Subkomponenten erweitert werden. Denkbar ist, dass der Datenqualitätsindex nach Art der Daten in seiner Zusammensetzung und Berechnung unterschieden wird, wie z.B. für die Daten betreffend Zeitreihen. Der Datenqualitätsindex kann besonders vorteilhaft für Daten (Datensätze) in Art eines Tabellenschemas bestimmt werden.
  • Eine hohe Datenqualität ist eine essenzielle Voraussetzung für alle datengetriebenen Projekte und Ergebnisse. Ohne eine ausreichende Datenqualität besteht die Gefahr von Missinterpretationen und Fehlentscheidungen. Datenqualität kann sehr subjektiv ausgelegt werden. Ohne die Definition von Datenqualität mit mathematischen Formeln ist keine transparente und objektive Bewertung der Daten möglich. Gemäß einem Aspekt der vorliegenden Erfindung werden strukturierte Daten als Eingangsdaten (d.h. als strukturierte Daten oder strukturierter Datensatz) dem Verfahren zur Verfügung gestellt. Strukturierte Daten können dabei beispielsweise in Tabellenform in Spalten und Zeilen angeordnet sein. Im Sinne der vorliegenden Erfindung sind strukturierte Daten insbesondere keine semantischen Daten, Bilddaten, Tondaten oder Videodaten. Die Daten können Einträge (d.h. Werte) in Spalten und Zeilen umfassen. Die Einträge können numerische und/oder Schriftzeichen umfassen. Jeder Eintrag kann einer Zelle eingefügt sein, die eindeutig durch eine Spalte und eine Zeile zuordenbar ist, eingetragen. Die Daten können aus einem Informationsmanagementsystem erlangt werden. Alternativ oder zusätzlich können die Daten auch direkt dem Verfahren zur Verfügung gestellt werden. Ferner ist es denkbar, dass das Verfahren an eine Datenbank oder mehrere Datenbanken (z.B. „Data Lakes“) angeschlossen wird, um sämtlichen dort gespeicherten Daten einen Datenqualitätsindex zuzuweisen.
  • Die Informationen über die Daten können zusammen mit den Daten gespeichert sein und somit gleichzeitig mit den eigentlichen Daten dem Verfahren zur Verfügung gestellt werden (d. h. empfangen werden). Gegenüber den eigentlichen strukturierten Daten, welche Messwerte oder simulierte Daten für ein technisches Bauteil umfassen, umfassen die Informationen über die Daten Informationen, die die strukturierten Daten beschreiben. Mit anderen Worten können die Informationen über die Daten eine Beschreibung und/oder eine Charakterisierung der strukturierten Daten sein. Die Informationen über die Daten können ausgewertet werden, um die zumindest eine Komponente des Datenqualitätsindex zu erlangen oder zu bestimmen. Mit anderen Worten können zur Bestimmung der zumindest einen Komponente des Datenqualitätsindex die strukturierten Daten nicht verändert oder bearbeitet werden. So können lediglich die Informationen über die Daten ausgewertet werden. Mit anderen Worten können die eigentlichen Daten oder Datensätze nicht verändert oder in sonstiger Weise bearbeitet werden. Basierend auf der zumindest einen Komponente des Datenqualitätsindex kann dann der Datenqualitätsindex der Daten bestimmt werden. Somit kann eine objektive Bewertung der strukturierten Daten bereitgestellt sein. Der Datenqualitätsindex kann dann in Verbindung mit den strukturierten Daten abgespeichert werden, sodass zukünftige Benutzer diesen direkt erlangen können, ohne das obige Verfahren nochmals durchführen zu müssen. Mit anderen Worten kann mit dem obigen Verfahren ein Informationsschild (d.h. ein Index) für die Daten erlangt werden, welches die Datenqualität der Daten angibt. Ferner können strukturierte Daten als Daten charakterisiert sein, die einen Eintrag oder Wert umfassen, der einem anderen Wert oder Eintrag zugeordnet ist.
  • Das Auswerten der Informationen der Daten kann ein Anwenden von mathematischen Maßen oder Formeln sein. Mit anderen Worten können die Informationen über die Daten Eingangswerte sein, die der Auswertung zugrunde gelegt werden. Somit kann die Auswertung eine Anwendung von mathematischen Formeln sein, die zumindest teilweise die Informationen über die Daten als Variablen umfassen. Die zumindest eine Komponente des Datenqualitätsindex kann das Ergebnis einer mathematischen Formel sein. Somit kann sichergestellt sein, dass die Informationen objektiv ausgewertet werden und dieselben Informationen über die Daten zu demselben Datenqualitätsindex führen. Folglich können die Daten objektiv bewertet werden. Das Bestimmen des Datenqualitätsindex kann bei Vorhandensein von mehreren Komponenten des Datenqualitätsindex eine mathematische Bestimmung sein. Insbesondere kann der Datenqualitätsindex ein Mittelwert aller Komponenten des Datenqualitätsindex sein. In dem Fall, bei dem nur eine Komponente des Datenqualitätsindex vorhanden ist, kann der Datenqualitätsindex der Komponente des Datenqualitätsindex entsprechen.
  • Vorzugsweise umfassen die strukturierten Daten Messdaten oder simulierte Daten in Bezug auf ein Bauteil. Das Bauteil kann beispielsweise ein technisches Bauteil eines Fahrzeugs oder einer Fahrzeugkomponente sein. Das Bauteil kann beispielsweise auf einem Prüfstand oder während einer normalen Verwendung getestet werden, um Messdaten zu erlangen. Ferner kann das Bauteil auch in einem Planungszustand vorliegen und ein Test des Bauteils simuliert werden. Im letzteren Fall können simulierte Daten erlangt werden. Mit anderen Worten können die strukturierten Daten ein technisches Bauteil betreffen und dieses Bauteil charakterisieren. Daher können die strukturierten Daten auch als technische strukturierte Daten bezeichnet werden.
  • Vorzugsweise umfassen die Informationen über die Daten Metadaten und/oder berechnete Daten. Metadaten können zusätzlich zu den strukturierten Daten gespeicherte Informationen sein. Die Metadaten können automatisch bei einem Abspeichern der Daten erzeugt werden. Zusätzlich oder alternativ können die Metadaten auch händisch von einem Nutzer, welcher beispielsweise die Daten erzeugt und ablegt, hinterlegt werden. Dabei können die Metadaten beispielsweise in einem Datenwörterbuch abgespeichert sein. Der Dateneigentümer oder der Datenersteller kann Informationen über den Datensatz ausfüllen, wie z.B. Erklärungen zu Variablen, Syntaxregeln und dergleichen. Die berechneten Daten dagegen können Daten sein, die automatisch oder manuell auf Basis der strukturierten Daten selbst berechnet werden. Mit anderen Worten wird zur Erstellung der berechneten Daten keine externe Information benötigt, sondern lediglich die strukturierten Daten an sich. Dabei werden die strukturierten Daten insbesondere nicht verändert oder in anderer Weise bearbeitet. Ferner können die berechneten Daten basierend auf einer Zuordnung von Einträgen in bestimmte Zeilen und/oder Spalten der strukturierten Daten bestimmt werden. So können beispielsweise eine Varianz der Einträge in einer Spalte und/oder in einer Zeile bestimmt werden und basierend darauf berechnete Daten ermittelt werden. Ferner können die Beträge der Einträge (bei numerischen Einträgen) verglichen werden und Ausreißereinträge ermittelt werden und basierend darauf die berechneten Daten ermittelt werden.
  • Vorzugsweise umfassen die Metadaten einen Identifikator, einen Spaltennamen, einen Zeilennamen, einen Datentyp, eine Beschreibung, eine Syntaxregel, einen Beispieleintrag, notwendige Einträge, optionale Einträge, ein Freitextfeld und/oder einen Schlüssel- oder ID-Wert der Daten. Somit können die Metadaten eine Beschreibung der eigentlichen strukturierten Daten sein. Ein Identifikator kann beispielsweise angeben, was für und/oder ob ein Eintrag in der jeweiligen Zelle vorhanden ist. Ein Spaltenamen kann bezeichnen, welche Werte bzw. Einträge in der jeweiligen Spalte eingetragen sind. Beispielsweise kann eine Spalte indikativ für Geschwindigkeiten sein. Eine andere Spalte kann beispielsweise indikativ für eine Temperatur sein. In beiden Fällen können die Zeilen indikativ für die Zeit sein. Ein Zeilenname kann dafür indikativ sein, welche Einträge in einer Zeile angeordnet oder zu erwarten sind. So kann beispielsweise eine Zeile einem bestimmten Bauteil oder einem bestimmten Testdurchlauf zugeordnet sein. Ein Datentyp kann beispielsweise zwischen numerischen oder Zeicheneinträgen unterscheiden. Eine Beschreibung kann den Inhalt einer Zelle beschreiben. So kann die Beschreibung beispielsweise eine Einheit eines Eintrags angeben. Eine Syntaxregel kann beschreiben, wie der jeweilige Eintrag in der jeweiligen Zelle einzutragen ist. So kann eine Syntaxregel beispielsweise die Anzahl der Nachkommastellen beschreiben. Ferner kann die Syntaxregel beispielsweise die Darstellung eines Datums oder anderer Einträge vorgeben. Ein Beispieleintrag kann beispielsweise ein Mittelwert der üblicherweise in dieser Zelle vorhandenen Einträge sein. Alternativ kann ein Beispieleintrag auch dazu dienen einem Benutzer das manuelle Eintragen von Werten zu erleichtern. Notwendige Einträge können Einträge sein, die notwendig sind, um die zumindest eine Komponente des Datenqualitätsindex zu bestimmen. Optionale Einträge können dagegen nicht notwendig sein, um zumindest eine Komponente des Datenqualitätsindex zu bestimmen. Vielmehr kann auch ohne einen optionalen Eintrag die zumindest eine Komponente des Datenqualitätsindex bestimmt werden. Ist der optionale Eintrag dennoch vorhanden, kann die zumindest eine Komponente des Datenqualitätsindex mit höherer Genauigkeit bestimmt werden. Ob ein Eintrag notwendig oder optional ist, kann dem Dateninhaber und/oder dem Datenersteller angezeigt werden. Ein Freitextfeld kann eine weitere Beschreibung der Daten durch den Dateninhaber und/oder den Datenersteller enthalten. Somit können weitere Erklärungen oder Informationen über die Daten beigefügt sein. Der Schlüssel- oder ID-Wert der Daten kann die Daten identifizieren. So kann beispielsweise ein bestimmter Schlüssel- oder ID-Wert für immer wiederkehrende Daten verwendet werden, sodass diese auf einfache Art und Weise identifiziert werden können.
  • Vorzugsweise umfassen die berechneten Daten eine Bestimmung gleicher Einträge und/oder Ausreißereinträge der Daten. Wie bereits oben dargelegt, können die berechneten Daten auf Basis der Daten alleine ohne weitere externe Informationen bestimmt werden. So kann beispielsweise die Varianz der Einträge berechnet bzw. bestimmt werden. Die Varianz kann später dazu genutzt werden den Qualitätsindex der Daten zu bestimmen (nähere Details dazu weiter unten). Bei der Bestimmung der berechneten Daten können die Einträge einer Spalte und/oder einer Zeile aufgetragen werden und so deren Verteilung analysiert werden. Dadurch können zum einen die Varianz der Einträge bestimmt werden und/oder Ausreißereinträge sichtbar gemacht werden. Ausreißereinträge können beispielsweise Einträge sein, die erheblich von den benachbarten Einträgen (d. h. Einträge in benachbarten Zellen) abweichen. Somit können, ohne dass externe weitere Informationen zur Verfügung stehen, die berechneten Daten lediglich auf Basis der strukturierten Daten bestimmt bzw. berechnet werden.
  • Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Rückverfolgbarkeitswert, welcher basierend auf einem Datenerstellungswert, welcher insbesondere basierend auf einer Datenquelle eines Datenkontakts und/oder eines Erstellungsdatums bestimmt ist, und einem Aktualisierungswert bestimmt wird. Die Komponente Rückverfolgbarkeitswert kann alle zentralen Informationen zu den strukturierten Daten wie beispielsweise, ob die Datenquelle und ein Ansprechpartner bekannt sind, umfassen, um gegebenenfalls weitere Fragen klären zu können. Der Rückverfolgbarkeitswert kann beispielsweise ein Wert zwischen 0 und 1 sein (d.h. Rückverfolgbarkeitswert ∈ [0;1]). Der Rückverfolgbarkeitswert kann beispielsweise auf einem Datenerstellungswert oder Datenerstellungsverfolgungswert bestimmt werden. Der Datenerstellungswert kann ein Wert zwischen 0 und 1 sein (d.h. Datenerstellungswert ∈ [0 ;1]). Der Datenerstellungswert kann folgende weiteren Subkomponenten aufweisen: Q u e l l e = { 0, D a t e n w ö r t e r b u c h D D 2 T a b e l l e D a t e n _ Q u e l l e n _ N a m e   i s t   l e e r 1, D a t e n q u e l l e n n a m e   i s t   n i c h t   l e e r
    Figure DE102022207482B4_0001
  • Abhängig von den Randbedingungen kann der Wert für Quelle also 0 oder 1 sein. K o n t a k t = { 0, D a t e n w ö r t e r b u c h D D 2 T a b e l l e E i g e n t ü m e r   d e r   G e s c h ä f t s d a t e n U N D E D V _ V e r a n t w o r t l i c h e r U N D   z u s ä t z l i c h e r   K o n t a k t   i s t   l e e r 1, E i g e n t ü m e r   d e r   G e s c h ä f t s d a t e n   O D E R   E D V V e r a n t w o r t l i c h e r O D E R   z u s ä t z l i c h e r   K o n t a k t   i s t   n i c h
    Figure DE102022207482B4_0002
  • Abhängig von den Randbedingungen kann der Wert für Kontakt also 0 oder 1 sein. D a t e n e r s t e l l u n g = { 0, P W C   Q u e r y   S Q L Q u e r y 1. s q l E r s t e l l u n g   i s t   l e e r 1, E r s t e l l u n g   i s t   n i c h t   l e e r
    Figure DE102022207482B4_0003
  • Abhängig von den Randbedingungen kann der Wert für Datenerstellung also 0 oder 1 sein. Mit anderen Worten kann bei dem Wert für Datenerstellung bestimmt werden, ob es Informationen über die Erstellung der Daten gibt oder nicht.
  • Zur Bestimmung des Datenerstellungswerts können die Werte für die Quelle, den Kontakt und die Datenerstellung addiert und das Ergebnis durch drei geteilt werden.
  • Ferner kann ein Aktualisierungswert den Wert 0 oder 1 wie folgt annehmen: A k t u a l i s i e r u n g s w e r t = { 0, U n t e r s c h i e d   v o n   ( H e u t e , l e t z t e  Ä n d e r u n g ) i n   T a g e n > 365 1, U n t e r s c h i e d   v o n   ( H e u t e , l e t z t e  Ä n d e r u n g ) i n   T a g e n 365
    Figure DE102022207482B4_0004
  • Der Datenerstellungswert kann dann mit dem Aktualisierungswert addiert und das Ergebnis wiederum durch zwei geteilt werden. Das Ergebnis entspricht dann dem Rückverfolgbarkeitswert.
  • Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Verwendungswert, welcher basierend auf einer verstrichenen Zeit seit der letzten Verwendung der Daten bestimmt wird. Die Komponente des Verwendungswerts kann anzeigen, ob die Daten bzw. der Datensatz in einem definierten Zeitraum mindestens einmal von einem Nutzer verwendet wurde oder nicht. Dies ist der Tatsache geschuldet, dass immer mehr unterschiedliche Datensätze zur Verfügung gestellt werden, anstatt zu prüfen, welche Datensätze noch regelmäßig genutzt werden. Somit kann eine häufige Verwendung der Daten darauf hinweisen, dass der Datensatz aktuell ist und auch anderen Projekten zugrunde gelegt wird. Der Verwendungswert kann ein Wert zwischen 0 und 1 sein (d.h. Verwendungswerts ∈ [0;1]). Der Verwendungswert kann wie folgt bestimmt werden: V e r w e n d u n g s w e r t = { 0, Unterschied von  ( HEUTE , letzte Ausführung ) in Tagen > 90 1, Unterschied von  ( HEUTE , letzte Ausführung ) in Tagen 90
    Figure DE102022207482B4_0005
  • Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Informationsgehaltswert, welcher basierend auf einem Verhältnis benötigter Einträge und vorhandener Einträge der Daten sowie einem Verhältnis der verschiedenen Einträge bestimmt wird. Das Verhältnis benötigter Einträge und vorhandener Einträge kann als prc bezeichnet sein. Das Verhältnis der verschiedenen Einträge kann als pve bezeichnet sein. Das Verhältnis prc kann ein Verhältnis aus der Anzahl der erwarteten Spaltendateneinträgen zu der Anzahl der Spalten umfassen. Das Verhältnis pve kann ein Verhältnis aus der Anzahl von verschiedenen Einträge innerhalb einer Spalte oder Zeile zu der Anzahl der Zellen einer Spalte oder Zeile des Datensatzes beschreiben. Mit anderen Worten ist die Qualität eines Datensatzes besser, wenn zwingend erforderliche Daten vorhanden sind. Demgegenüber müssen optionale Daten lediglich wahlweise da sein. Der Informationsgehaltswert kann ein Wert zwischen 0 und 1 sein (d.h. Informationsgehaltswert ∈ [0 ;1]). Der Informationsgehaltswert kann basierend auf dem Verhältnis prc und pve bestimmt werden. Insbesondere kann der Informationsgehaltswert das Ergebnis einer Addition von prc und pve geteilt durch zwei sein. Die Verhältnisse prc und pve können wie folgt bestimmt werden:
    • Der Wert für prc kann ein Wert zwischen 0 und 1 sein (d.h. prc ∈ [0;1]). p r c = ( 1 # Spalten ohne Mussfeldinfo # alle Spalten des Datensatzes ) ( # Mussfeldspalten des Datensatzes # alle Spalten des Datensatzes )
      Figure DE102022207482B4_0006
    • Die Informationen, ob eine Spalte eine Mussfeldinfo aufweist kann in dem Datenkatalog gespeichert sein.
    • Der Wert für pve kann ein Wert zwischen 0 und 1 sein (d.h. pve ∈ [0;1]). p v e = 1 #   S p a l t e n   d e s   D a t e n s a t z e s   m i t   d e m s e l b e n   E i n t r a g # a l l e   S p a l t e n   d e s   D a t e n s a t z e s
      Figure DE102022207482B4_0007
  • Das Verhältnis der benötigten Spalten wird mit dem Verhältnis der Varianz der Einträge addiert und das Ergebnis davon durch zwei geteilt, um den Informationsgehaltswert zu erlangen.
  • Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Vollständigkeitswert, welcher basierend auf einem Verhältnis vorhandener Einträge zu einer Anzahl der Einträge und der benötigten Einträge bestimmt wird. Der Vollständigkeitswert gibt an, wie viele fehlende Werte bzw. Einträge in den Spalten des Datensatzes bzw. der Daten vorhanden sind. Dabei wird unterschieden, in welchen Spalten fehlende Werte auftreten können und in welchen Spalten Dateneinträge zu erwarten sind.
  • Der Vollständigkeitswert kann ein Wert zwischen 0 und 1 sein (Vollständigkeitswert ∈[0 ;1]). Der Vollständigkeitswert kann als comp bezeichnet sein und wie folgt bestimmt werden: c o m p = ( c o m p   f ü r   S p a l t e 1 + + c o m p   f ü r   S p a l t e l e t z t e   S p a l t e   d e s   D a t e n s a t z e s ) ( # S p a l t e n   d e s   D a t e n s a t z e s # S p a l t e n   m i t   M u s s f e l d = f a l s c h )
    Figure DE102022207482B4_0008
  • Wobei der Wert „#Spalten mit Mussfeld = falsch“ die Anzahl der Spalten angibt, in denen ein Wert erwartet wird bzw. in denen ein Wert stehen sollte aber kein Eintrag vorhanden ist.
  • Wobei comp für Spalte i = ( 1 S p a l t e i s Mussfeldeintrag ) ( # e i n g e f ü g t e   W e r t e   d e r   S p a l t e i A n z a h l   v o n   Z e i l e n )
    Figure DE102022207482B4_0009
  • Wobei S p a l t e i s Mussfeldeintrag = { 0, Mussfeld = wahr keinen comp für Spalte i  Berechnung ( schreibe " "  in dem Datenqualitätsmodel ) , Mussfeld = falsch 1 ,Mussfeld = keine Informationen
    Figure DE102022207482B4_0010
    wobei
    i = 1, ..., p.
    p := letzte Spalte des Datensatzes
    # := Anzahl von
    Die obigen Variablen gelten für alle hier angeführten Formeln und Darstellungen.
  • Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Verständlichkeitswert, welcher basierend auf einem Verhältnis von vorhandenen Metadaten zu benötigten Metadaten bestimmt wird. Der Verständlichkeitswert kann ein Verhältnis darstellen, wie viel der geforderten Metadateninformationen pro Spalte geliefert werden. Dazu kann ein Datenkatalog beispielsweise an einer zentralen Stelle bereitgestellt sein, um Daten inhaltlich zu beschreiben. Bei den Metadaten kann es sich um die oben definierten Metadaten handeln. Der Verständlichkeitswert kann einen Wert zwischen 0 und 1 annehmen (Verständlichkeitswert ∈[0;1]). Der Verständlichkeitswert kann als understand bezeichnet sein und wie folgt bestimmt werden: u n d e r s t a n d = u n d e r s t a n d   f u ¨ r   S p a l t e 1 + + u n d e r s t a n d   f u ¨ r   S p a l t e l e t z t e   S p a l t e   d e s   D a t e n s a t z e s #   a l l e   S p a l t e n   d e s   D a t e n s a t z e s
    Figure DE102022207482B4_0011
    u n d e r s t a n d   f u ¨ r   S p a l t e i = #   v e r f u ¨ g b a r e   M e t a d a t e n   i n   D a t e n k a t a l o g   d e r   S p a l t e i #   n o t w e n d i g e   M e t a d a t e n   i n   D a t e n k a t a l o g
    Figure DE102022207482B4_0012
  • Hinweis: Erforderliche Metadaten im Datenkatalog umfassen: ID; Spaltenname; Tabellenname; Datentyp; Beschreibung_Erläuterung; Syntaxregel; Beispiel_Wert; Muss-Feld; Freitext-Feld; Key oder ID_Wert.
  • Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Genauigkeitswert, welcher basierend auf einem Verhältnis von syntaktisch korrekten Einträgen zu der Anzahl der Einträge und/oder einem Verhältnis von möglichen Ausreißereinträgen zu der Anzahl der Einträge bestimmt wird. Der Genauigkeitswert kann mögliche Ausreißer und ein Verhältnis von syntaktisch korrekten Spalten definieren. Der Genauigkeitswert ist insbesondere nur für numerische Einträge anwendbar. Der Genauigkeitswert kann ein Wert zwischen 0 und 1 sein (Genauigkeitswert ∈[0;1]). Der Genauigkeitswert kann auch als acc bezeichnet sein und basierend auf einem Verhätnis der syntaktisch korrekten Einträge der Syntaxspalten pac und einem Verhältnis der Spalten mit potenziellen Ausreißern outlier bestimmt werden. Dabei kann pac und outlier ∈[0;1] sein und wie folgt bestimmt werden:
    • • Verhältnis der syntaktisch korrekten Werte der Syntaxspalten pac ∈ [0;1] p a c = ( p a c   v o n   S p a l t e i + + p a c   v o n   S p a l t e p ) ( #   S p a l t e n   d e s   D a t e n s a t z e s #   S p a l t e n   m i t   S y n t a x r e g e l = f a l s c h )
      Figure DE102022207482B4_0013
      pac f u ¨ S p a l t e i = ( 1 S p a l t e i s Sytaxregeleintrag ) ( # s y n t a k t i s c h   k o r r e k t e   E i n t r a ¨ g e   d e r   S p a l t e i A n z a h l   v o n   Z e i l e n )
      Figure DE102022207482B4_0014
      wobei S p a l t e i s Sytaxregeleintrag = { 0, Syntaxregel = wahr kein pac f u ¨ S p a l t e i  Berechung ( schreibe " " in dem Datenqualit a ¨ tsmodel ) , Syntaxregel = falsch 1, Syntaxregel = keine Information
      Figure DE102022207482B4_0015
    • • Verhältnis der Spalten mit potenziellen Ausreißern (Ausreißerwert) outlier ∈[0;1] o u t l i e r = ( 1 ( #   o u t l i e r s   v o n   n u m e r i s c h e r   S p l a t e 1 + + # o u t l i e r s   v o n   n u m e r i s c h e r   S p l a t e l e t z t e   n u m e r i s c h e   S p l a t e A n z a h l   v o n   n u m e r i s c h e n   S p l a t e n )
      Figure DE102022207482B4_0016
      o u t l i e r   v o n   S p l a t e i = #   o u t l i e r s   v o n   n u m e r i s c h e r   S p l a t e i A n z a h l   v o n   R e i h e n
      Figure DE102022207482B4_0017
  • Ferner kann eine Ausreißer-Schwelle definiert sein, ab welcher ein Wert als Ausreißer definiert wird. Beispielsweise können zumindest drei Verfahren zur Bestimmung von Ausreißern bereitgestellt werden und ein Ausreißer bestimmt werden, wenn drei von drei Verfahren einen Datenpunkt als Ausreißer erkennen. Es ist insbesondere nur möglich, Ausreißer für numerische Spalten zu berechnen.
  • Syntaktisch korrekte Werte können beispielsweise nur positive Werte sein. Ferner kann die Syntax festlegen, dass in einer Zelle nur Werte zwischen 2 und 5 zu erwarten sind, und alles was nicht in diesen Zahlenbereich hineinfällt, wird mit einem Wert 0 definiert. Die Ausreißer können beispielsweise mit Machine Learning-Methoden bestimmt werden. Hierbei kann ein Algorithmus trainiert werden, basierend auf Eingangsdaten Ausgangsdaten auszugeben, die angeben, ob in den Eingangsdaten Ausreißer vorhanden sind. Dazu kann der Algorithmus im Vorhinein mit einem Trainingsdatensatz trainiert werden. Damit kann die Zuverlässigkeit der Bestimmung von Ausreißern erhöht sein.
  • Somit kann jede Komponente des Datenqualitätsindex durch eine definierte Formel berechnet werden. Jedes Komponentenergebnis kann standardisiert sein und den gleichen Wertebereich wie alle anderen Komponentenergebnisse aufweisen. Dieser Wertebereich liegt vorzugsweise zwischen 0 und 1. 0 kann bedeuten, dass diese Komponente ein schlechtes Ergebnis hat und 1 kann bedeuten, dass diese Komponente ein sehr gutes Ergebnis hat. Beispielsweise kann die Komponente des Verwendungswerts einen Wert von 0,0 aufweisen, was ein schlechtes Ergebnis ist. Die Komponente des Genauigkeitswerts kann einen Wert von 0,8, welcher nahe an 1 liegt, aufweisen, was ein guter Wert ist. Der Datenqualitätsindex kann der Durchschnitt der Komponentenwerte sein und aus der Summe der einzelnen Komponentenwerte geteilt durch die Anzahl der Komponenten bestimmt werden.
  • Vorzugsweise wird der Datenqualitätsindex an einem zentralen Datenspeicherort bestimmt. Somit kann eine Vielzahl von Daten durch eine lokale Stelle analysiert werden und mit einem Datenqualitätsindex versehen werden. Alternativ kann der Datenqualitätsindex auch dezentral beispielsweise am Ort der Datenspeicherung und/oder Datenerzeugung bestimmt werden. Dadurch können zu übertragende Datenmengen reduziert werden, da die Daten zum Zwecke der Bestimmung des Datenqualitätsindex nicht übertragen werden müssen.
  • Vorzugsweise liegen die erlangten Werte für mehrere oder alle Komponenten des Datenqualitätsindex in demselben Wertebereich, vorzugsweise in einem Bereich zwischen 0 und 1. Damit sind die Werte der Komponenten des Datenqualitätsindex vergleichbar und nicht künstlich gewichtet.
  • Vorzugsweise werden die erlangten Werte für mehrere oder alle Komponenten des Datenqualitätsindex addiert und das Ergebnis durch die Anzahl der Komponenten des Datenqualitätsindex dividiert, um den Datenqualitätsindex zu erlangen. Mit anderen Worten kann der Datenqualitätsindex der Mittelwert aller Komponenten des Datenqualitätsindex sein. Somit können alle Komponenten des Datenqualitätsindex gleich gewichtet werden und denselben Einfluss auf den Datenqualitätsindex haben.
  • Vorzugsweise werden die einzelnen Komponenten des Datenqualitätsindex bei der Bestimmung des Datenqualitätsindex mit einem Faktor, insbesondere zwischen 0 und 10, multipliziert, um alle oder einzelne Komponenten Datenqualitätsindex zu gewichten. Jede Komponente des Datenqualitätsindex kann mit einem Gewichtungsfaktor λ ≥ 0 gewichtet werden. Der Wert des Gewichtungsfaktors λ kann eine beliebige positive Zahl sein. Ein Wert nahe 0 bedeutet eine geringere Gewichtung der entsprechenden Komponente und damit eine geringere Auswirkung. Ein Wert von 1 bedeutet, dass die Komponente nicht gewichtet wird, da die Multiplikation von etwas mit 1 ein neutrales Ergebnis in Bezug auf die Gewichtung liefert. Ein Wert > 1 bedeutet, dass die entsprechende Komponente einen größeren Einfluss bei der Bestimmung des Datenqualitätsindex hat. Theoretisch kann der Gewichtungsfaktor nicht begrenzt sein. Vorzugsweise liegt der Gewichtungsfaktor jedoch in einem Zahlenintervall zwischen 0 und 10. Somit kann die Übersichtlichkeit und die Vergleichbarkeit bewahrt werden. Somit können für einen Bearbeiter der Daten besonders wichtige Faktoren (d.h. Komponenten des Datenqualitätsindex) stärker gewichtet werden als andere. Damit kann der Datenqualitätsindex individuell auf Bedürfnisse und/oder Anforderungen des Verwenders der Daten angepasst werden.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Computerprogramm mit Programmcode bereitgestellt, der, wenn er auf einer Recheneinheit ausgeführt wird, dazu ausgestaltet ist, das obige Verfahren auszuführen. Das Computerprogramm kann in einem beliebigen Code vorliegen, insbesondere in einem Code, der für die Analyse von Datensätzen geeignet ist. Gemäß einem weiteren Aspekt ist die Erfindung auf ein computerlesbares Medium gerichtet, welches ein oben definiertes Computerprogramm umfasst. Bei dem computerlesbaren Medium kann es sich um ein beliebiges digitales Datenspeichergerät handeln, wie z.B. einen USB-Stick, eine Festplatte, eine CD-ROM, eine SD-Karte oder eine SSD-Karte. Natürlich muss das Computerprogramm nicht auf einem solchen computerlesbaren Medium gespeichert sein, um einem Kunden zur Verfügung gestellt zu werden, sondern kann auch über das Internet bezogen werden.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Steuereinheit bereitgestellt, die dazu ausgestaltet ist, das obige Verfahren auszuführen. Die Steuereinheit kann dabei eine computerähnliche Vorrichtung sein, die einen Prozessor und Speicherelemente aufweist. Beispielsweise kann eine solche Steuereinheit in einem Prüfstand vorgesehen sein, um erfasste Messdaten direkt zu analysieren und mit einem Datenqualitätsindex zu versehen. Ferner ist es denkbar, dass eine Steuereinheit in einer Simulationsmaschine vorgesehen ist, um simulierten Ergebnissen einen Datenqualitätsindex zuzufügen. Alternativ oder zusätzlich kann die Steuereinheit in einem Computer bereitgestellt sein. Ein solcher Computer kann beispielsweise bei der Entwicklung von Bauteilen, insbesondere in der Fahrzeugindustrie, genutzt werden, um Bauteile auszusortieren, die auf Basis von Daten mit einem bestimmten Datenqualitätsindex entwickelt worden sind. Somit wird der Datenqualitätsindex in der Entwicklung genutzt, um Bauteile auszusortieren und/oder vorzusortieren und/oder auszuwählen. Ferner ist denkbar, dass die Steuereinheit eingesetzt wird, um einen Nachweis zu führen, auf welcher Datengrundlage ein bestimmtes Bauteil entwickelt worden ist. Somit können auch im Nachhinein beispielswiese Haftungsfragen oder dergleichen geklärt werden. Somit kann das obige Verfahren dazu genutzt werden technische Bauteile hinsichtlich ihrer Datengrundlage zu bewerten und insbesondere basierend auf dieser Bewertung auszuwählen.
  • Ferner ist die vorliegende Erfindung auf eine Verwendung des obigen Verfahrens gerichtet, um einen Prototypen eines technischen Bauteils aus einer Vielzahl von Prototypen auszuwählen. Mit anderen Worten können eine Vielzahl von Prototypen basierend auf unterschiedlichen Daten hergestellt werden und zu einem späteren Zeitpunkt, wenn feststeht, welcher Datenqualitätsindex von dem Prototyp gefordert wird, auf Basis des Datenqualitätsindex ausgewählt werden. Somit bietet sich auch während einem Entwicklungsprozess die Möglichkeit, basierend auf der Datenqualität ein jeweiliges technisches Bauteil auszuwählen.
  • In der Beschreibung wird auf Spalten und/oder Zeilen der strukturierten Daten Bezug genommen, hierbei können die Begriffe Spalten und Zeilen beliebig ausgetauscht werden. Bei den strukturierten Daten kann es sich beispielswiese um in einer Tabellenkalkulation eingetragene Daten handeln. Hierbei kann ein Eintrag in einer Zelle eingetragen sein, wobei die Zelle eindeutig durch einen Spaltenwert und einen Zeilenwert bestimmbar ist. Wird auf eine gesamte Spalte oder Zeile verwiesen, sind alle Zellen und ggf. darin eingetragenen Einträge gemeint, die in der Spaltenreihe oder Zeilenreihe liegen.
  • Einzelne Merkmale von Ausführungsformen können mit anderen Merkmalen oder anderen Ausführungsform kombiniert werden und so neue Ausführungsformen bilden. Die im Zusammenhang mit den einzelnen Merkmalen genannten Vorteile und Ausgestaltungen gelten analog auch für die neuen Ausführungsformen. Vorteile und Ausgestaltungen, die in Verbindung mit der Vorrichtung beschrieben sind, gelten analog auch für das Verfahren und andersherum.
  • Im Folgenden werden Ausführungsformen der vorliegenden Erfindung anhand von den beigefügten Figuren beispielhaft beschrieben.
    • 1 zeigt ein schematisches Diagramm, welches einzelne Komponenten des Datenqualitätsindex gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
    • 2 ist ein schematisches Diagramm, welches Komponenten des Datenqualitätsindex zusammen mit Subkomponenten der Komponenten des Datenqualitätsindex gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
    • 3 ist ein Ablaufdiagramm, welches den Ablauf eines Verfahrens gemäß einer Ausführungsform der vorliegenden Erfindung schematisch darstellt.
  • 1 ist eine schematische Darstellung des Datenqualitätsindex und sechs verschiedener Komponenten des Datenqualitätsindex. Der Datenqualitätsindex 1 besteht aus sechs verschiedenen Komponenten: Rückverfolgbarkeitswert 2, Verwendungswert 3, Informationsgehaltswert 4, Vollständigkeitswert 5, Verständlichkeitswert 6 und Genauigkeitswert 7. Die Komponenten werden durch mathematische Formeln und/oder Messungen bestimmt. Einige Messungen können nur berechnet werden, wenn die erforderlichen Informationen im Datenkatalog vorhanden sind. Die erforderlichen Informationen werden als Metadaten und/oder Information über dem Datensatz bezeichnet. Alle erforderlichen Metadaten werden in dem Datenkatalog und/oder einem Datenlexikon gesammelt. Die Komponente Rückverfolgbarkeitswert 2 umfasst alle zentralen Informationen zum Datensatz wie beispielsweise, ob die Datenquelle und ein Ansprechpartner bekannt sind, um gegebenenfalls weitere Fragen klären zu können. Der Verwendungswert 3 zeigt an, ob der Datensatz in einem definierten Zeitraum mindestens einmal von einem Nutzer verwendet wurde. Dies ist der Tatsache geschuldet, dass immer mehr unterschiedliche Datensätze zur Verfügung gestellt werden, anstatt zu prüfen, welche Datensätze noch regelmäßig genutzt werden. Der Vollständigkeitswert 5 gibt an, wie viele fehlende Einträge in den Spalten (oder Zeilen) des Datensatzes vorhanden sind. Dabei wird unterschieden, in welchen Spalten fehlende Werte auftreten können und in welchen Spaltendateneinträge zu erwarten sind. Der Genauigkeitswert 7 erkennt mögliche Ausreißer und das Verhältnis von syntaktisch korrekten Spalten. Diese Komponente ist nur für numerische Spalten anwendbar. Der Informationsgehaltswert 4 enthält ein Verhältnis aus benötigten oder erwarteten Dateneinträgen zu den Gesamtspalten und ein Verhältnis der Spalten mit demselben Eintrag zu der Gesamtheit der Spalten. Der Verständlichkeitswert 6 ist ein Verhältnis aus der geforderten Metadateninformation pro Spalte des Datensatzes.
  • Jede Komponente kann durch eine definierte Formel berechnet werden. Jedes Komponentenergebnis ist standardisiert und hat den gleichen Wertebereich. Er liegt zwischen 0 und 1. So kann die Rückverfolgbarkeit 2 einen Wert von 0,4 liefern, der Verwendungswert einen Wert von 0,0 der Vollständigkeitswert 5 einen Wert von 0,6, der Genauigkeitswert einen Wert von 0,8, der Verständlichkeitswert einen Wert von 0,8 und der Informationsgehaltswert 4 einen Wert von 0,8. Daraus kann ein Datenqualitätsindex von 0,6 bestimmt werden.
  • 2 ist eine schematische Darstellung des Datenqualitätsindex 1 zusammen mit den Komponenten des Datenqualitätsindex sowie deren Subkomponenten. Die Subkomponenten sind hierbei Informationen über die Daten, auf deren Basis der Datenqualitätsindex 1 bestimmt wird. Die Information über die Daten unterscheiden sich in Metadaten und berechnete Daten. Metadaten sind Daten, die durch einen Nutzer oder automatisch den jeweiligen strukturierten Daten beigefügt werden. Beispielsweise sind bei dem Verfolgbarkeitswert 2 ein Datenerstellungswert 21 und ein Aktualisierungswert 22 die auf Basis der Metadaten bestimmten Subkomponenten. Der Datenerstellungswert 21 setzt sich hierbei aus einer Quelle, einem Kontakt und einem Erzeugungsdatum zusammen. Dies kann automatisch bestimmt werden. Der Aktualisierungswert 22 kann ebenfalls automatisch bestimmt werden und gibt an, wann die Daten zuletzt aktualisiert worden sind. Der Verwendungswert 3 weist eine Nutzungsverfolgung 31 als Subkomponente auf. Auch diese kann automatisch den jeweils strukturierten Daten zugeordnet werden. Der Vollständigkeitswert 5 weist ein Vollständigkeitsverhältnis 51 auf, welches aussagt, wie viele Zellen des Datensatzes vollständig ausgefüllt sind. Der Genauigkeitswert 7 weist ein Genauigkeitsverhältnis 71 auf, welches angibt, wie viel syntaktisch korrekte Zellen im Verhältnis zu der Gesamtzahl der Zellen in dem Datensatz vorhanden sind. Ferner basiert der Genauigkeitswert auf einer potentiellen Ausreißererfassung bzw. Ausreißerwert 72. Bei der potentiellen Ausreißererfassung 72 handelt es sich um einen berechneten Wert. Die Ausreißererfassung 72 kann auch als Verhältnis der Spalten mit potenziellen Ausreißern betrachtet werden. Hierfür ist es nicht notwendig, externe Daten zur Verfügung zu stellen, sondern es ist ausreichend, lediglich den Datensatz an sich zu analysieren. Der Verständlichkeitswert 6 weist ein Verhältnis 61 auf, welches angibt, wie viele Zellen mit Metadaten versehen sind. Mit anderen Worten kann hierdurch bestimmt werden, wie viel Informationen über die Daten zur Verfügung stehen. Der Informationsgehalt weist ein benötigtes Spaltenverhältnis 41 auf, welches angibt, wie viele benötigte Spalten ausgefüllt sind im Verhältnis zu der Gesamtzahl der Spalten. Ferner weist der Informationsgehaltswert 4 eine Bestimmung von gleichen Einträgen 42 auf. Die Bestimmung der gleichen Einträge 42 sind hierbei berechnete Daten, die lediglich auf Basis der strukturierten Daten bestimmt werden können. Hierbei kann analysiert werden, wie viele gleiche Einträge in einer Spalte vorhanden sind.
  • 3 ist ein Ablaufdiagramm, das schematisch den Ablauf des Verfahrens zeigt. Zuerst werden in Schritt S1 die strukturierten Daten empfangen. In Schritt S2 werden Informationen über die Daten empfangen und/oder bestimmt. Anschließend werden in Schritt S3 die Informationen über die Daten ausgewertet, um zumindest eine Komponente des Datenqualitätsindex zu erlangen. In Schritt S4 wird dann der Datenqualitätsindex der Daten auf Basis der zumindest einen Komponente des Datenqualitätsindex bestimmt. Das Verfahren kann auch mehrfach hintereinander ausgeführt werden.
  • Bezugszeichen
  • 1
    Datenqualitätsindex
    2
    Rückverfolgbarkeitswert
    3
    Verwendungswert
    4
    Informationsgehaltswert
    5
    Vollständigkeitswert
    6
    Verständlichkeitswert
    7
    Genauigkeitswert
    21
    Datenerstellungswert
    22
    Aktualisierungswert
    31
    Nutzungsverfolgung
    41
    Spaltenverhältnis
    42
    gleiche Einträgen
    51
    Vollständigkeitsverhältnis
    61
    Verhältnis der Metadaten
    71
    Genauigkeitsverhältnis
    72
    Ausreißererfassung

Claims (16)

  1. Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex (1) von Daten, umfassend: Empfangen von strukturierten Daten, welche insbesondere in Spalten und Zeilen strukturierte Einträge umfassen, Empfangen und/oder Bestimmen von Informationen über die Daten, Auswerten der Informationen über die Daten, um zumindest eine Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1) zu erlangen, Bestimmen des Datenqualitätsindex (1) der Daten auf Basis der zumindest einen Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1) und Aussortieren und/oder Vorsortieren und/oder Auswählen von Bauteilen, wobei dazu der Datenqualitätsindex (1) genutzt wird.
  2. Verfahren gemäß Anspruch 1, wobei die strukturierten Daten Messdaten oder simulierte Daten in Bezug auf ein Bauteil umfassen.
  3. Verfahren gemäß Anspruch 1 oder 2, wobei die Informationen über die Daten Metadaten und/oder berechnete Daten umfassen.
  4. Verfahren gemäß Anspruch 3, wobei die Metadaten einen Identifikator, einen Spaltennamen, einen Zeilennamen, einen Datentyp, eine Beschreibung, eine Syntaxregel, einen Beispieleintrag, notwendige Einträge, optionale Einträge, ein Freitextfeld und/oder einen Schlüssel- oder ID-Wert der Daten umfassen.
  5. Verfahren gemäß Anspruch 3 oder 4, wobei die berechneten Daten eine Bestimmung gleicher Einträge und/oder Ausreißereinträge der Daten umfassen.
  6. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1) einen Rückverfolgbarkeitswert (2) umfasst, welcher basierend auf einem Datenerstellungswert (21), welcher insbesondere basierend auf einer Datenquelle, eines Datenkontakts und/oder eines Erstellungsdatums bestimmt ist, und einem Aktualisierungswert (22) bestimmt wird.
  7. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Verwendungswert (3) umfasst, welcher basierend auf einer verstrichenen Zeit seit der letzten Verwendung der Daten bestimmt wird.
  8. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Informationsgehaltswert (4) umfasst, welcher basierend auf einem Verhältnis benötigter Einträge (41) und vorhandener Einträge der Daten sowie einem Verhältnis der verschiedenen Einträge (42) bestimmt wird.
  9. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Vollständigkeitswert (5) umfasst, welcher basierend auf einem Verhältnis (51) vorhandener Einträge zu einer Anzahl der Einträge und der benötigten Einträge bestimmt wird.
  10. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Verständlichkeitswert (6) umfasst, welcher basierend auf einem Verhältnis (61) von vorhandenen Metadaten zu benötigten Metadaten bestimmt wird.
  11. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Genauigkeitswert (7) umfasst, welcher basierend auf einem Verhältnis von syntaktisch korrekten Einträgen zu der Anzahl der Einträge (71) und/oder einem Verhältnis von möglichen Ausreißereinträgen zu der Anzahl der Einträge (72) bestimmt wird.
  12. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die erlangten Werte für mehrere oder alle Komponenten des Datenqualitätsindex (1) in demselben Wertebereich liegen, vorzugsweise in einem Bereich zwischen 0 und 1.
  13. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die erlangten Werte für mehrere oder alle Komponenten des Datenqualitätsindex (1) addiert werden und das Ergebnis durch die Anzahl der Komponenten des Datenqualitätsindex dividiert wird, um den Datenqualitätsindex zu erlangen.
  14. Verfahren gemäß Anspruch 13, wobei die einzelnen Komponenten des Datenqualitätsindex bei der Bestimmung des Datenqualitätsindex mit einem Faktor, insbesondere zwischen 0 und 10, multipliziert werden, um alle oder einzelne Komponenten des Datenqualitätsindex zu gewichten.
  15. Computerprogramm mit Programmcode, der, wenn er auf einer Recheneinheit ausgeführt wird, dazu ausgestaltet ist das Verfahren gemäß einem der vorhergehenden Ansprüche auszuführen.
  16. Steuereinheit, die dazu ausgestaltet ist, das Verfahren gemäß einem der Ansprüche 1 bis 14 auszuführen.
DE102022207482.3A 2022-07-21 2022-07-21 Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit Active DE102022207482B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022207482.3A DE102022207482B4 (de) 2022-07-21 2022-07-21 Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022207482.3A DE102022207482B4 (de) 2022-07-21 2022-07-21 Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit

Publications (2)

Publication Number Publication Date
DE102022207482A1 DE102022207482A1 (de) 2024-02-01
DE102022207482B4 true DE102022207482B4 (de) 2024-03-07

Family

ID=89508554

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022207482.3A Active DE102022207482B4 (de) 2022-07-21 2022-07-21 Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit

Country Status (1)

Country Link
DE (1) DE102022207482B4 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185309A1 (en) 2012-01-16 2013-07-18 Tata Consultancy Services Limited Data quality analysis
US20140229456A1 (en) 2013-02-12 2014-08-14 International Business Machines Corporation Data quality assessment
US20200380379A1 (en) 2019-06-03 2020-12-03 Bank Of America Corporation Data Quality Tool
US20210263900A1 (en) 2020-02-26 2021-08-26 Ab Initio Technology Llc Generating rules for data processing values of data fields from semantic labels of the data fields

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185309A1 (en) 2012-01-16 2013-07-18 Tata Consultancy Services Limited Data quality analysis
US20140229456A1 (en) 2013-02-12 2014-08-14 International Business Machines Corporation Data quality assessment
US20200380379A1 (en) 2019-06-03 2020-12-03 Bank Of America Corporation Data Quality Tool
US20210263900A1 (en) 2020-02-26 2021-08-26 Ab Initio Technology Llc Generating rules for data processing values of data fields from semantic labels of the data fields

Also Published As

Publication number Publication date
DE102022207482A1 (de) 2024-02-01

Similar Documents

Publication Publication Date Title
DE112022000106T5 (de) Verfahren zur Getriebefehlerdiagnose und Signalerfassung, eine Vorrichtung und ein elektronisches Gerät
DE112017005640T5 (de) Informationsverarbeitungsvorrichtung und Informationsverarbeitungsverfahren
DE4040348A1 (de) Vorrichtung zur designauswertung
EP2433185B1 (de) Vorrichtung und verfahren zum bearbeiten einer prozesssimulationsdatenbasis eines prozesses
DE102022207482B4 (de) Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit
EP1750209A1 (de) Verfahren und Vorrichtung zur automatischen Darstellung von in Datenbereichen geordneten Daten
DE4121453C2 (de) Näherungsschlußfolgerungsvorrichtung
DE68923126T2 (de) Automatisches Programmiersystem.
EP1738306A1 (de) Computergestütztes system und verfahren zur automatisierten risikoparametererkennung und/oder -charakterisierung
DE102019103257A1 (de) Vorhersagesystem und -verfahren für anlagenanomalien
WO2005045714A2 (de) Gerät und verfahren zur quantifizierung von zuständen mit alternativen merkmalen
DE10349271A1 (de) Gerät und Verfahren zur Quantifizierung von Zuständen mit alternativen Merkmalen
DE69130273T2 (de) Verfahren zum Anzeigen von beschreibenden Daten, wie z.B. ein Vektor
DE102020201183A1 (de) Verfahren und Vorrichtung zur Simulation eines technischen Systems
Simon et al. Influencing factors for acceptance of digital tools in the humanities
Schult Wie viele Schulen braucht ein fairer Vergleich? Sozialindex-basierte Adjustierungsstrategien im Vergleich
DE102005018063A1 (de) Verfahren zum Empfangen und Zuordnen von bedingten abhängigen Testergebnissen
DE102016113310A1 (de) Verfahren zur Bewertung von Aussagen einer Mehrzahl von Quellen zu einer Mehrzahl von Fakten
DE102006012172A1 (de) Computerimplementiertes Verfahren zum automatisierten Abgleich mindestens einer Kompetenztopologie einer zu besetzenden und/oder besetzten Position/Stelle mit der Kompetenztopologie eines oder mehrerer Kandidaten sowie Anordnung zur Durchführung des Verfahrens
DE202022101216U1 (de) Ein System zur Bestimmung von lärmbelasteten Regionen mit Hilfe von Data-Mining-Ansätzen und Clustertechniken
DE102020119579A1 (de) Verfahren zum Zuordnen von Zuständen zu Bauteilen, Vorrichtung, Computerprogrammprodukt und computerlesbares Speichermedium
DE202022102360U1 (de) Ein System zur Abstandsmessung für pythagoreische Fuzzy-Mengen mit verschiedenen Anwendungen
DE102022128367A1 (de) Verfahren zur Erstellung einer Tabelle für die Verarbeitung von Attributen von Komponenten aus einem Labor- und/oder Prozessbereich
DE102021214465A1 (de) Analyse des Verhaltens von Bildklassifikatoren
DE202023106004U1 (de) Ein auf künstlicher Intelligenz und maschinellem Lernen basierendes System zur Automatisierung der Mitarbeiterverwaltung und der Arbeitsinformationen in der Organisation

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016250000

Ipc: G06F0016215000

R018 Grant decision by examination section/examining division