Data Warehouse


Ein Data Warehouse (DWH) ist, vereinfacht gesagt, eine Ansammlung von Daten. Mit einem DWH werden verschiedene Daten aus unterschiedlichsten Quellen zu Vergleichs- und Analysezwecken zusammengeführt. Eine festgelegte Definition zum Begriff Data Warehouse existiert nicht. Bei Wikipedia gibt es aber einen guten Artikel zum Thema:

https://de.wikipedia.org/wiki/Data_Warehouse

In unserem Fall beschäftigen wir uns vorwiegend mit einem Data Warehouse, was für die Zusammenführung und Auswertung von Website-Daten ausgelegt ist. Mehr dazu in einem späteren Kapitel.

Die Grundlage eines Data Warehouse bildet eine Datenbank. Hier kann von einer einfachen Tabellen-Sammlung über relationale Datenbanken bis hin zu (serverlosen) Cloud Datenbanken alles zum Einsatz kommen - je nach den Anforderungen an das DWH.

Das Data Warehouse sammelt zunächst Daten aus verschiedenen (meist heterogenen) Quellen, bringt diese in eine einheitliche Form, akkreditiert die Daten gegebenenfalls und speichert sie. Teilweise werden die Daten dabei abgeholt, teilweise über Schnittstellen in das DWH hochgeladen. Auf der anderen Seite stellt das DWH die Daten (oft vorverarbeitet) über einheitliche Schnittstellen zur Verfügung, meist für ein BI (Business Intelligence) Tool oder an eine Visualisierungssoftware, aber auch an andere Tools zur Weiterverarbeitung (z.B. Data-Mining). Das DWH kann auch selbst eine Business Intelligence enthalten und damit Datenverarbeitungsprozesse ausführen.

Der gesamte Daten-Verarbeitungsprozess im Zusammenhang mit einem DWH wird auch als Data Warehousing bezeichnet. Auch dieser ist nicht einheitlich definiert, Wikipedia unterteilt ihn in folgende Einzelprozesse:

  • Datenbeschaffung
  • Datenintegration (Staging) und -Aufbereitung (ETL)
  • Datenspeicherung
  • Datenauswertung und -analyse
  • Datenbereitstellung (z.B. an Data Marts)

Der Data Warehousing Prozess

DWH’s werden zunehmend auch als Echtzeitsysteme eingesetzt (Real Time Data Warehousing), wo sie (in Echtzeit) aufbereitete Daten an operative Systeme zurückspielen, beispielsweise Preisvergleiche.

Auch KI findet zunehmend Einsatz in Data Warehouses.

Data Warehouse: Untergeordnete Themen