Zum Inhalt springen

Was ist das Starschema?

  • Daten

Das Starschema beschreibt die Anordnung von Datenbanktabellen, die möglichst speichereffizient und leistungsstark sein sollen. Wie der Name bereits verrät, sind die Tabellen dabei sternenförmig in einer sogennanten Faktentabelle angeordnet, die von mehreren sogenannten Dimensionstabellen umgeben ist.

Wie ist der Aufbau des Schemas?

Bei großen Datenmengen wird die Speicherung in Datenbanken oder dem Data Warehouse schnell unübersichtlich und Abfragen sind nicht nur kompliziert, sondern dauern auch relativ lange. Deshalb benötigt man intelligente Wege, um Tabellen anzulegen, sodass Speicher gespart werden kann und somit Abfragen schneller stattfinden können.

Ein erster Ansatz dafür ist das Starschema, das sternenförmige Tabellenstrukturen beinhaltet. Dabei wird in Fakten und Dimensionen unterschieden:

  • Die Fakten sind Kennzahlen oder Messwerte, die analysiert oder veranschaulicht werden sollen. Sie bilden den Mittelpunkt der Analyse und stehen in der zentralen Faktentabelle. Diese besteht neben den Kennzahlen noch aus den Schlüsseln, die auf die umliegenden Dimensionen verweisen. Im Unternehmensumfeld sind Fakten beispielsweise die Umsatzmenge, der Umsatz oder der Auftragseingang.
  • Die Dimensionen hingegen sind die Eigenschaften der Fakten und können genutzt werden, um die Kennzahlen zu visualisieren. In diesen sind dann die verschiedenen Detailstufen der Dimensionen gespeichert und somit kann Speicher gespart werden, da die Details nur ein einziges Mal in der Dimensionstabelle hinterlegt werden müssen. Dimensionen im Unternehmensumfeld sind beispielsweise die Kundeninformationen, das Datum des Auftrags oder Produktinformationen.
Starschema als Datenbankschema
Beispiel eines Star Schemas | Quelle: Autor

Das Starschema verzichtet dabei gezielt auf die Normalisierung, die normalerweise ein wichtiges Konzept in der Datenbanktheorie darstellt. Die dritte Normalform ist nämlich mit einem Sternenschema verletzt. Dafür ist der Aufbau besonders effizient und liefert schnelle Antworten auch bei komplexen Abfragen.

Was ist die Normalisierung?

Wenn Daten in Datenbanken abgelegt werden, kann dies schnell sehr unübersichtlich und redundant werden. Deshalb sollte man sich bei der Erstellung eines Datenbankschemas darüber Gedanken machen, wie sich redundante Informationen, also beispielsweise Duplikate vermeiden lassen.

Die Normalisierung ist dabei eine Abfolge von verschiedenen Schritten, die mehr und mehr vermeidbare Redundanzen verhindern sollen. Dazu gibt es die sogenannten Normalformen, die aufeinander aufbauen und immer strengere Regeln aufweisen. Für das Starschema sind lediglich die ersten drei Normalenformen interessant, da eine Datenbank im Sternenschema lediglich die ersten zwei Normalformen erfüllt, nicht aber die dritte:

  1. Eine Datenbank ist in der 1. Normalform, wenn alle Attribute/Spalten lediglich einen einzigen Wert aufweisen. Das heißt in keinem Feld kommt es zu einer Ansammlungen von Werten.
  2. Eine Datenbank befindet sich in der 2. Normalform, wenn jedes Attribut der Tabelle voll vom Primärschlüssel abhängig ist. Das bedeutet auch, dass alle Attribute, die nicht vom Primärschlüssel abhängen in eine separate Datenbanktabelle ausgelagert werden müssen. Natürlich muss eine Datenbank, die in der 2. Normalform ist, auch gleichzeitig die 1. Normalform erfüllen, da diese aufeinander aufbauen. Dasselbe gilt auch für die nachfolgenden Normalformen.
  3. Eine Datenbank ist in der 3. Normalform, wenn kein Attribut, das nicht Primärschlüssel der Tabelle ist, nicht auf ein anderes Nichtschlüsselattribut hinweist. Wenn dies der Fall ist, muss dafür eine neue Relation, also eine neue Tabelle, erstellt werden.

Das Sternenschema verfehlt in den meisten Fällen die dritte Normalform, da in der Dimensionstabellen häufig mehrere Attribute vorkommen, die zwar kein Primärschlüsselattribut sind und trotzdem aufeinander hinweisen. In der Dimensionstabelle „Produkte“ lässt sich der Preis beispielsweise durch die Kombination aus dem „Produktnamen“ und der „Farbe“ bestimmen, obwohl weder der Produktname noch die Farbe ein Primärschlüsselattribut sind.

Was sind die Vor- und Nachteile des Schemas?

Die Anordnung von Tabellen als Starschema erfüllt zwar nicht die Ansprüche der Normalisierung, da die dritte Normalform nicht gegeben ist, jedoch weist sie einige Vorteile auf, die sie in der praktischen Anwendung sehr beliebt macht:

  • Die Anordnung im Starschema ist für eine hohe Anfragelast optimiert und bietet somit die Möglichkeit auch komplexe Abfragen effizient zu bearbeiten.
  • Des Weiteren sind durch den gezielten Verzicht der dritten Normalform unnötige Join-Operationen bei den meisten Abfragen nicht nötig.
  • Durch die Anordnung im Starschema wird ein Großteil der auftretenden Redundanzen vermieden. Das führt auch dazu, dass die Dimensionstabellen vergleichsweise wenig Speicherplatz benötigen und damit große Mengen an Datenvolumen eingespart werden.
  • Das Starschema ist in vielen Anwendungen eine sehr verständliche Anordnung von Relationen, da die Aufteilung in Fakten- und Dimensionstabellen sehr intuitiv und nachvollziehbar ist.

Jedoch gibt es auch Anwendungsfälle in denen die Nutzung des Starschemas nicht optimal ist, beispielsweise wenn die Dimensionstabellen sehr groß werden und es zu häufigen Abfragen auf diesen Tabellen kommt. Dann können sich die Abfragezeiten deutlich verschlechtern. Außerdem kann es, wie bereits erwähnt, zu Redundanzen in den Daten kommen. Deshalb hat sich neben dem Starschema noch ein zweites Datenbankschema gebildet, welches die Nachteile ausbessern soll.

Was ist das Snowflake-Schema?

Das sogenannte Schneeflocken-Schema ist eine weitere Ausbaustufe des Starschemas mit dem Ziel die Tabellen komplett zu normalisieren und dadurch die Nachteile des Starschemas gewissermaßen zu umgehen. Der Aufbau einer Schneeflocke ergibt sich kurzgesagt dadurch, dass die Dimensionstabellen noch weiter aufgeschlüsselt und klassifiziert werden. Die Faktentabelle hingegen bleibt unverändert.

In unserem Beispiel könnte das dazu führen, dass die Dimensionstabelle mit den Lieferadressen weiter klassifiziert wird in Land, Bundesland und Stadt. Dadurch werden die Tabellen normalisiert und es ist auch die dritte Normalform erfüllt, jedoch geht dies zu Lasten von weiteren Verzweigungen. Diese sind vor allem bei einer späteren Abfrage nachteilig, da diese mit aufwändigen Joins wieder zusammengefügt werden müssen.

Snowflake Schema
Beispiel eines Snowflake Schemas | Quelle: Autor

Die Weiterverzweigung führt also dazu, dass die Daten weniger redundant abgespeichert werden und dadurch die Datenmenge nochmal weiter reduziert wird im Vergleich zum Starschema. Dies geht jedoch zu Lasten der Performance, da bei der Abfrage die Dimensionstabellen wieder zusammengeführt werden müssen, was häufig sehr aufwändig ist.

Sternschema vs. Snowflake-Schema

Das Starschema und das Snowflake-Schema sind relativ ähnlich aufgebaut und werden auch deshalb oft miteinander verglichen. Tatsächlich hängt die Wahl eines passenden Datenbankschemas vor allem von der konkreten Anwendung ab.

Kurz gesagt ist das Ziel des Starschemas eine gute Grundlage für häufige Abfragen zu bieten und trotzdem die Datenmenge zu verringern. Das wird erzeugt, indem eine Aufspaltung in Fakten- und Dimensionstabellen vorgenommen wird. Dadurch lassen sich viele Redundanzen entfernen und die ersten zwei Normalformen erfüllen. Die Zahl der Tabellen bleibt verhältnismäßig klein und dadurch sind Abfragen mit wenigen Joins und schnellen Antwortzeiten möglich. Jedoch kann keine vollständige Normalisierung der Datenbank erfolgen und einige Redundanzen bleiben bestehen.

Das Schneeflocken-Schema hingegen ist eine Weiterentwicklung des Starschemas mit dem Ziel, eine Normalisierung der Datenbank herbeizuführen. Dabei wird die Faktentabelle beibehalten und die Dimensionstabellen werden noch weiter klassifiziert und in weitere Relationen aufgeteilt. Dadurch werden zwar die verbleibenden Redundanzen des Starschemas beseitigt, jedoch werden Abfragen dadurch langsamer und aufwändiger, da die Dimensionstabellen erst wieder zusammengeführt werden müssen.

Das solltest Du mitnehmen

  • Das Starschema ist ein Datenbankschema, das dazu genutzt wird, möglichst effiziente Datenbankabfragen zu ermöglichen.
  • Dazu werden die ursprünglichen Daten in die sogenannte Faktentabelle und mehrere Dimensionstabellen aufgeteilt.
  • Obwohl das Starschema bereits viele Redundanzen beseitigt, werden immer noch einige Informationen doppelt abgespeichert. Auch deshalb erfüllt das Starschema die Anforderungen der Normalisierung nicht.
  • Eine Weiterentwicklung des Starschemas ist das sogenannte Schneeflocken-Schema, das die Dimensionstabellen nochmal in feinere Relationen aufteilt. Das geht jedoch zu Lasten der Performance bei Abfragen.

Andere Beiträge zum Thema Starschema

Microsoft hat einen sehr interessanten Beitrag zum Starschema und dessen Bedeutung für deren Business Analytics Plattform Power BI geschrieben.

close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner