Zum Inhalt springen

Was ist ein Data Warehouse?

  • Daten

Ein Data Warehouse ist ein zentraler Datenspeicher in einem Unternehmen oder einer Organisation, der die relationalen Daten aus verschiedenen Quellen sammelt. Die Informationen werden aus verschiedenen Transaktionssystemen oder anderen relationalen Datenbanken ins Data Warehouse und stehen dort für Analysten und Entscheidungsträger zur Verfügung.

Funktion Data Warehouse

Das Data Warehouse wird im geschäftlichen Umfeld in vielen Bereichen genutzt. Die Datenbank wird unternehmensweit genutzt, um datenbasierte Entscheidungen treffen zu können oder Prozesse untersuchen zu können. Da das zentrale Datenlager aus vielen verschiedenen Systemen Informationen bezieht, wird es als Single Point of Truth gesehen. Dadurch soll sichergestellt werden, dass alle im Unternehmen von denselben Daten sprechen und Entscheidungen auf diesen Informationen basieren.

Abteilungsübergreifend kann das Data Warehouse unter anderem für die folgenden Aufgaben genutzt werden:

  • Kosten- und Ressourcenanalyse
  • Analyse von unternehmensinternen Prozessen (bspw. Produktion, Einstellung, etc.)
  • Business Intelligence
  • Berechnung und Bereitstellung von unternehmensweiten Key Performance Indikatoren
  • Datenquelle für Analysen oder Data Mining
  • Vereinheitlichung der unternehmensweiten Daten in ein festes Schema

Eigenschaften von Data Warehouses

Bei der Erstellung von zentralen Datenlagern kann man sich an bestimmten Eigenschaften orientieren, die helfen sollen den Aufbau und die nötigen Daten des Warehouses besser eingrenzen zu können.

Themenorientierung

Ein Data Warehouse enthält Informationen zu einem bestimmten Thema und nicht zu einzelnen Geschäftsvorgängen. Diese Themen können zum Beispiel Vertrieb, Einkauf oder Marketing sein.

Das Warehouse zielt darauf ab die Entscheidungsfindung mithilfe von Business Intelligence und gezielten KPIs zu unterstützen. Diese Interpretation wird auch dadurch unterstützt, dass Informationen, die nicht entscheidungsrelevant sind oder für eine Analyse genutzt werden, erst gar nicht in dieser zentralen Datenbank landen.

Integration

Das Warehouse integriert Daten aus verschiedensten System und Quellen. Deshalb muss ein gemeinsames Schema für die Informationen erstellt werden, sodass sie einheitlich und vergleichbar sind. Ansonsten ist eine zentrale Analyse und Kennzahlenerstellung nicht möglich.

Zeitraumbezug

Das Data Warehouse speichert Daten aus einem bestimmten Zeitraum und ist dadurch vergangenheitsbezogen. Des Weiteren werden die Daten meist aggregiert beispielsweise auf Tagesebene übermittelt, damit die Datenmenge begrenzt bleibt. Somit ist die Granularität möglicherweise nicht fein genug, wie man das aus den operativen Systemen gewohnt ist.

Die operativen Systeme hingegen sind zeitpunktbezogen, da sie die gegenwärtig anfallenden Informationen ausgeben. Gleichzeitig können die Informationen sehr detailliert betrachtet werden.

Nicht-Volatilität

Ein weiteres wichtiges Merkmal von zentralen Datenlagern ist die Nicht-Flüchtigkeit der Daten. In operativen Systemen werden die Informationen meist nur für eine kurze Zeitspanne zwischengespeichert und sobald neue Daten anfallen, werde alte überschrieben. In einem Data Warehouse hingegen werden Daten dauerhaft gespeichert und alte Daten bleiben bestehen, auch wenn neuere Daten hinzugefügt werden.

Unterschied zum Data Lake

Das Data Warehouse kann zusätzlich durch einen Data Lake ergänzt werden, in welchem unstrukturierte Rohdaten kostengünstig zwischengespeichert werden können, um sie zu einem späteren Zeitpunkt nutzen zu können. Die beiden Konzepte unterscheiden sich vor allem in den Daten, die sie speichern, und der Art und Weise, wie die Informationen abgelegt werden.

MerkmaleData WarehouseData Lake
DatenRelationale Daten aus produktiven Systemen oder anderen Datenbanken.Alle Datentypen (strukturiert, semi-strukturiert, unstrukturiert).
DatenschemaKönnen entweder vor der Erstellung des Data Warehouses geplant werden oder erst während der Analyse (Schema-on-Write oder Schema-on-Read)Ausschließlich zum Analysezeitpunkt (Schema-on-Read)
AbfrageMit lokalem Speicher sehr schnelle Abfrageergebnisse– Entkopplung von Berechnungen und Speicher
– Schnelle Abfrageergebnisse mit günstigem Speicher
Datenqualität– Vorverarbeitete Daten aus verschiedenen Quellen
– Vereinheitlichung
– Single Point of Truth
– Rohdaten
– Bearbeitet und unbearbeitet
AnwendungenBusiness Intelligence und grafische Aufbereitung der DatenKünstliche Intelligenz, Analysen, Business Intelligence, Big Data
Vergleich Data Warehouse und Data Lake

Das solltest Du mitnehmen

  • Ein zentrales Datenlager speichert unternehmensweite Informationen zentral ab.
  • Damit sollen datenbasierte Entscheidungen unterstützt werden und Business Intelligence möglich gemacht werden.
  • Die unstrukturierten Rohdaten im Data Lake bieten eine gute Ergänzung zu den relationalen und aufbereiteten Daten im Data Warehouse.

Andere Beiträge zum Thema Data Warehouse

  • Eine gute Zusammenfassung bietet Amazon Web Services hier.
close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner