Robuste ETL-Prozesse
Robuste ETL-Prozesse – allgemeine Einführung
Dies ist ein Datenbank-unabhängiger Intro-Text.
Hier kannst du erklären, was Joins sind, ohne auf einen bestimmten Dialekt einzugehen.
Weitere einführende Absätze, die für alle Datenbanken gelten.
- Prozesse sind wiederaufsetzbar nach Abbruch (egal wo der Abbruch stattgefunden hat)
- Prozesse sind wiederholbar (durch erneutes Laden werden keine Daten vervielfältigt)
- Prozesse können einzelne, mehrere oder alle Zeitscheiben laden
- Neubeladung von der PSA erzeugt dasselbe Ergebnis wie zuvor
- Performance bleibt konstant
- Laufzeit bleibt innerhalb des zur Verfügung stehenden Zeitfensters
- Performance hängt nicht vom historischen Datenvolumen ab
- Laufzeit steigt mit zunehmendem Datenvolumn in einer Zeitscheibe maximal linear
- Achtung: Hockey-Stick-Effekt ist ggf. trotzdem möglich, wenn verfügbare Ressourcen erschöpft sind
- komplette Neubeladung aus PSA ist möglich
- Beladung führt nicht dazu, dass Daten für Analysen/Auswertungen vorübergehend nicht sichtbar/verfügbar sind
Weitere Anforderungen/Ansprüche
- Änderungen in den ETL-Prozessen sind nachvollziehbar (Git-Integration)
- welcher code wurde wann eingesetzt? Log-Tabellen?
- Performance wird protokolliert (Laufzeiten, Anzahl Datensätze)
- Fehler, die das DWH lahmlegen können nachvollziehbar korrigiert werden
- ggf. Daten bewusst entfernen
keine Beispiele
keine Beispiele
keine Beispiele