Robuste ETL-Prozesse

Robuste ETL-Prozesse – allgemeine Einführung

Dies ist ein Datenbank-unabhängiger Intro-Text.
Hier kannst du erklären, was Joins sind, ohne auf einen bestimmten Dialekt einzugehen.

Weitere einführende Absätze, die für alle Datenbanken gelten.

  • Prozesse sind wiederaufsetzbar nach Abbruch (egal wo der Abbruch stattgefunden hat)
  • Prozesse sind wiederholbar (durch erneutes Laden werden keine Daten vervielfältigt)
  • Prozesse können einzelne, mehrere oder alle Zeitscheiben laden
  • Neubeladung von der PSA erzeugt dasselbe Ergebnis wie zuvor
  • Performance bleibt konstant
    • Laufzeit bleibt innerhalb des zur Verfügung stehenden Zeitfensters
    • Performance hängt nicht vom historischen Datenvolumen ab
    • Laufzeit steigt mit zunehmendem Datenvolumn in einer Zeitscheibe maximal linear
      • Achtung: Hockey-Stick-Effekt ist ggf. trotzdem möglich, wenn verfügbare Ressourcen erschöpft sind
  • komplette Neubeladung aus PSA ist möglich
  • Beladung führt nicht dazu, dass Daten für Analysen/Auswertungen vorübergehend nicht sichtbar/verfügbar sind

Weitere Anforderungen/Ansprüche

  • Änderungen in den ETL-Prozessen sind nachvollziehbar (Git-Integration)
    • welcher code wurde wann eingesetzt? Log-Tabellen?
  • Performance wird protokolliert (Laufzeiten, Anzahl Datensätze)
  • Fehler, die das DWH lahmlegen können nachvollziehbar korrigiert werden
    • ggf. Daten bewusst entfernen

keine Beispiele