Der Modern Data Stack ist Cloud-basiert und bietet ein Data Warehouse, das sich in der Cloud befindet. Dies gewährleistet eine schnelle und effiziente Datenverarbeitung. Optimalerweise werden die Tools für den Datentransport ebenfalls in der Cloud gehostet und haben eine direkte Verbindung zum Data Warehouse. Das Gleiche gilt für die nachgelagerten Analysetools.
Was ist ein Data Stack?
In den letzten Jahren sind auch kleinere Unternehmen an den Punkt gelangt, an dem sie große Datenmengen verarbeiten, aufbereiten und speichern müssen. In der Vergangenheit bedeutete dies immense Investitionen in Server und Software vor Ort. Mit der breiten Einführung von Cloud-Diensten hat sich dies jedoch geändert, und die Kosten für eine solche Infrastruktur sind erheblich gesunken. Dennoch gibt es eine Vielzahl von Tools, die den Anspruch erheben, Teil des modernen Datenstacks zu sein.
Der Data Stack ist eine Variante des Technology Stacks aus der Softwaretechnik. Der Technology Stack umfasst alle Technologien, die Entwickler zur Erstellung einer Anwendung verwenden. Dazu gehören z. B. die verwendeten Programmiersprachen wie JavaScript, HTML oder CSS oder Frameworks. Sie bieten einen schnellen Überblick über die in einem umfangreichen Projekt verwendeten Technologien. Dies kann z. B. bei der Auswahl neuer Mitarbeiter hilfreich sein, um festzustellen, über welche Fähigkeiten die Person verfügen muss. Je mehr Wissen über den Technology Stack vorhanden ist, desto wertvoller ist die Person für das Projekt.
Da Daten in der Wirtschaft eine immer größere Rolle spielen, wurde das Konzept des Technology Stacks auf Daten angewandt. Der Data Stack umfasst alle Programmiersprachen, Tools oder Frameworks, die zur Erfassung, Speicherung und Visualisierung von Daten verwendet werden.
Wie hat sich der Data Stack im Lauf der Zeit entwickelt?
Die Auswahl an Tools und Frameworks, die bei der Datenverarbeitung helfen, wird ständig erweitert. Somit ist auch das Konzept des Data Stacks einem ständigen Wandel unterworfen. Die folgenden grundlegenden Änderungen hatten den größten Einfluss auf die Entwicklung des Data Stacks:
Evolution von On-Premise zu Cloud Services
Als der Begriff Data Stack eingeführt wurde, waren Cloud-Dienste noch undenkbar. Datenverarbeitung bedeutete daher immer die Anschaffung eigener Server, die installiert, betreut und gewartet werden mussten. Dies war ein immenser Kostenfaktor und stellte vor allem kleinere Unternehmen vor große Herausforderungen, da sie sich geschultes Personal entweder nicht leisten konnten oder es auch nur schwer zu finden war.
Anfang der 2010er Jahre änderte sich das mit der Einführung von Cloud-Diensten und Amazon Redshift. Seitdem werden immer mehr sogenannte Software-as-a-Service-Produkte angeboten, die es ermöglichen, die Infrastruktur komplett zu kaufen.
Wechsel von ETL zu ELT
In den Anfängen war die Speicherung auch immer mit teuren Hardwarekomponenten verbunden, denn Festplatten und Prozessoreinheiten waren sehr kostenintensiv. Darüber hinaus gab es nur relationale Datenbanken, die die Daten in Tabellen speicherten und somit eine feste Struktur erforderten. Im unternehmensinternen Data Warehouse mussten die Daten erst im Rahmen des ETL-Prozesses (Extract-Transform-Load) aufbereitet werden, bevor sie dort gespeichert werden konnten.
Mit der Einführung von NoSQL-Datenbanken und der Reduzierung der Festplattenkosten änderte sich das Verfahren zu ELT (Extract-Load-Transform). Die NoSQL-Varianten waren viel freier in der Datenstruktur und konnten auch komplexe Daten speichern. Außerdem setzte sich der sogenannte Data Lake durch, in dem hauptsächlich Rohdaten gespeichert werden, die noch keinen festen Zweck haben. Sobald ein Business Analyst die Daten daraus benötigt, kann er sie erst in diesem Schritt abfragen und transformieren. In der Folge verlor die Rolle des Data Engineers immer mehr an Bedeutung, da die Aufbereitung der Daten keine so große Rolle mehr spielte.
Breiter Datenzugriff in Unternehmen
Die Analyse von Daten hat in den letzten Jahren zunehmend an Bedeutung gewonnen, und es gibt fast keine Abteilung im Unternehmen, die nicht in irgendeiner Form auf Informationen zugreifen muss. Gleichzeitig werden in immer mehr Studiengängen Fähigkeiten zur Datenanalyse gelehrt, so dass immer mehr Menschen auf die Daten zugreifen können und wollen. So entstand die Notwendigkeit, einen einfachen Datenzugriff einzurichten, anstatt sich immer auf einen Unternehmensanalysten verlassen zu müssen.
Was ist der Unterschied zwischen Modern Data Stack und dem früheren Legacy Data Stack?
Der Hauptunterschied zwischen dem früheren so genannten Legacy Data Stack und dem heutigen Modern Data Stack ist die Abkehr von der Hardware vor Ort hin zu Lösungen, die in der Cloud gehostet werden. Dies ermöglicht die Nutzung der sogenannten Infrastructure as a Service oder sogar Software as a Service.
Aufbau, Wartung und Weiterentwicklung der Hardware liegen dann nicht mehr in der Hand des Unternehmens, das die Hardware nutzt, sondern des Providers. Das wiederum hat Skalierungsvorteile, da es die Dienste vielen Kunden anbietet.
Für den Kunden ist der Modern Data Stack dadurch auch besser skalierbar. Wenn mehr Speicherplatz oder neue Zugriffe benötigt werden, kann der Kunde einfach das bestehende Abonnement verlängern. Die zusätzlichen Kosten sind gering und völlig transparent. Bei einer On-Premise-Lösung kann die Hardware so lange genutzt werden, bis Leistungs- oder Speichergrenzen erreicht sind. Dann sind teure Änderungen an der Hardware notwendig, um mehr Daten oder Benutzer verarbeiten zu können. Damit ist auch die Kosteneffizienz des Legacy Data Stacks deutlich schlechter.
Was ist der Modern Data Stack?
Nachdem wir nun erfahren haben, woher der Begriff Data Stack stammt und wie er sich im Laufe der Zeit verändert hat, können wir endlich herausfinden, wie ein Modern Data Stack aussieht.
Der Modern Data Stack ist Cloud-basiert und bietet ein Data Warehouse, das sich in der Cloud befindet. Dies ermöglicht eine schnelle und effiziente Datenverarbeitung. Optimalerweise sind die Tools für den Datentransport ebenfalls in der Cloud gehostet und haben eine direkte Verbindung zum Data Warehouse. Das Gleiche gilt für die nachgelagerten Analysetools.
Diese Struktur bedeutet auch, dass der ELT-Prozess im modernen Datenstapel häufiger eingesetzt wird als der herkömmliche ETL-Prozess.
Bei der Auswahl der Tools sollte darauf geachtet werden, dass die einzelnen Komponenten austauschbar sind und somit durch Integration flexibel auf neue Software oder Frameworks reagiert werden kann. Wie bereits erwähnt, verändert sich das Konzept des Data Stack ständig, weshalb die Anforderungen an den Modern Data Stack nicht in Stein gemeißelt sind.
Vielmehr kommt es darauf an, dass die folgenden Grundsätze befolgt werden:
- Benutzerfreundlichkeit: Die Werkzeuge müssen einfach zu benutzen und einzusetzen sein.
- Skalierbarkeit: Die verwendeten Frameworks sollten skalierbar sein, um schnell auf veränderte Bedingungen reagieren zu können.
- Kompatibilität: Jede der Komponenten sollte austauschbar und ersetzbar sein, damit keine Abhängigkeit von einer Technologie besteht und neue Entwicklungen auf die Vorteile der neuen Werkzeuge zurückgreifen können.
Was sind die Vorteile eines Modern Data Stacks?
Die Umstellung auf einen Modern Data Stack kann sich aus vielen Gründen lohnen. Die häufigsten Vorteile werden im Folgenden erläutert.
Das Geschäft wieder in den Fokus rücken
Der frühere Legacy Data Stack war sehr IT- und technologiegetrieben, da sich das Unternehmen mit der konkreten Serverarchitektur, Sicherheitskonzepten, der Wartung der Systeme und vielem mehr auseinandersetzen musste. Bei all diesen Überlegungen trat der konkrete geschäftliche Anwendungsfall oft in den Hintergrund. Auf der anderen Seite wurden viele betriebswirtschaftlich sinnvolle Anwendungen nicht realisiert, weil die notwendigen technischen Voraussetzungen nicht gegeben waren. All dies ändert sich mit dem Modern Data Stack.
Mit dem Modern Data Stack werden viele dieser Probleme in den Hintergrund gedrängt, da sie nicht mehr in der Verantwortung der Nutzer, sondern der Unternehmen liegen, die die Software bereitstellen. So kann man sich ganz auf die geschäftlichen Probleme konzentrieren, die mit Hilfe von Daten gelöst werden sollen.
Hohe Kosten- und Ressourceneffizienz
Der Modern Data Stack zeichnet sich durch maximale Skalierbarkeit aus. Neue Ressourcen können bei Bedarf einfach hinzugefügt und rechtzeitig abbestellt werden, wenn sie nicht mehr benötigt werden. Die zusätzlichen Kosten für einen neuen Benutzer oder mehr Leistung sind transparent und kalkulierbar. Mit dem alten Data Stack konnten jederzeit größere Kosten entstehen, zum Beispiel für den Austausch von Hardware, die nicht vorhersehbar waren. All diese Risiken liegen nun beim Anbieter.
Zum anderen bindet der Modern Data Stack nicht mehr so viel Personal wie noch vor einigen Jahren. Dadurch kann gut ausgebildetes IT-Personal für andere Projekte eingesetzt werden oder muss nicht mit großem Aufwand aufgebaut werden. Zudem sind die Werkzeuge relativ einfach zu bedienen und stehen damit einer breiten Masse im Unternehmen zur Verfügung, die nicht unbedingt speziell geschult sein muss.
Hohe Agilität
Investitionen in On-Premise-Hardware sind in der Regel sehr hoch und müssen daher gut durchdacht sein, da sie über mehrere Jahre genutzt werden müssen, um sich zu lohnen. Außerdem muss die Hardware so ausgelegt sein, dass sie auch Spitzenbelastungen standhält. Dies führt dazu, dass die Hardware die meiste Zeit nicht ausgelastet ist.
Der Modern Data Stack ist in dieser Hinsicht viel agiler, da Cloud-Dienste bei Bedarf auch kurzfristig hinzugefügt werden können. Das bedeutet, dass die Infrastruktur für ein wachsendes Unternehmen nicht nur leicht zu skalieren ist, sondern auch den ganzen Tag über optimal genutzt werden kann.
Wer betreibt den Modern Data Stack?
Bei früheren Data Stacks, die auf Vor-Ort-Hardware basieren, sind mehrere Positionen erforderlich, um Datenpipelines zu erstellen und die Daten zu nutzen.
Data Engineer
Der Data Engineer sorgt dafür, dass der Datentransport reibungslos verläuft. Dazu gehört nicht nur die Datenerfassung, sondern auch die Umwandlung und schließlich das Laden in die endgültige Datenbank. Es ist wichtig, den Überblick über die Datenarchitektur zu behalten und gut mit Abfragesprachen wie SQL umgehen zu können.
Die speziellen Aufgaben sind:
- Es müssen die richtigen Datensätze gefunden werden, um die Anforderungen der Geschäftsseite umsetzen zu können.
- Der Data Engineer entwickelt Algorithmen, um die Quelldaten so aufzubereiten und zu bereinigen, dass andere Data Scientists sie problemlos nutzen können.
- ETL – Pipelines, die Daten aus Quellsystemen beschaffen, aufbereiten und in einer Zieldatenbank ablegen, müssen nicht nur erstellt, sondern auch ständig auf ihre Funktionalität getestet werden.
- Bei all diesen Aufgaben muss auch sichergestellt werden, dass Data-Governance-Konzepte eingehalten werden, damit alle Benutzer über die erforderlichen Berechtigungen verfügen.
Business Analyst
Auf der Grundlage dessen, was der Data Engineer vorbereitet hat, kann der Business Analyst dann damit beginnen, konkrete Berichte zu erstellen, die die Benutzer bei ihren Entscheidungen unterstützen. Er nimmt die Anforderungen der Fachabteilungen auf und versucht, Dashboards und Analysen zu erstellen, die konkrete Fragen beantworten:
- Sammeln und Aufzeichnen von Geschäftsanforderungen
- Umwandlung von Anforderungen in technisch realisierbare Konzepte
- Analyse und Aufbereitung von Prozessen
- Mitarbeit in Projektteams, bestehend aus Vertretern der Fachbereiche und der IT
- Management der Einführung und Umsetzung der vorgeschlagenen Konzepte
- Mediation zwischen Fach- und Geschäftsbereichen
Was sind die Aufgaben eines Analytics Engineers?
Die beiden vorgestellten Rollen beginnen mit dem Modern Data Stack mehr und mehr zu verschwimmen. Auf der einen Seite ist das Management der Datenplattform viel einfacher geworden und muss nicht mehr so aufwändig koordiniert werden. Andererseits sind viele Personen im Unternehmen in der Lage, ihre Daten mit den einfachen Werkzeugen des Modern Data Stack selbst zu analysieren und brauchen eigentlich nur noch für sehr komplizierte und übergreifende Analysen Unterstützung.
Daraus resultiert die Position des Analytic Engineer. Diese Position hat eher eine End-to-End-Verantwortung für den Betrieb des Data Stacks. Es wird erwartet, dass alle Schritte, von der Datenbereitstellung bis zur Anwendung durch den Endnutzer, übernommen werden.
Dadurch lassen sich weitere Ineffizienzen beseitigen. Der erweiterte Aufgabenbereich ermöglicht es dem Analytics Engineer auch, verschiedene Projekte und ihre Übereinstimmungen im Auge zu behalten, so dass sogar bestimmte Pipelines oder Datenbanken mehrfach verwendet werden können, weil sie dieselbe Datenbank nutzen.
Das solltest Du mitnehmen
- Der Modern Data Stack bietet vielen Unternehmen die Möglichkeit, Big Data zu nutzen.
- Bislang war dies nur Unternehmen möglich, die große Investitionen in Hardware vor Ort tätigen und das notwendige Personal bereitstellen konnten.
- Mit der weit verbreiteten Einführung von Cloud-Diensten und Software-as-a-Service-Produkten hat sich dies nun drastisch geändert.
- Daraus ergeben sich viele Vorteile, darunter eine hohe Agilität, da Dienste je nach Bedarf einfach hinzugefügt werden können und die Kosten dafür auch viel transparenter sind.
Was ist Ausreißererkennung?
Entdecken Sie Anomalien in Daten mit Verfahren zur Ausreißererkennung. Verbessern Sie ihre Entscheidungsfindung!
Was ist die Bivariate Analyse?
Nutzen Sie die Bivariate Analyse: Erforschen Sie Typen und Streudiagramme und nutzen Sie Korrelation und Regression.
Was ist eine RESTful API?
Erfahren Sie alles über RESTful APIs und wie sie Ihre Webentwicklungsprojekte effizienter und skalierbarer machen können.
Was sind Zeitreihendaten?
Gewinnen Sie mithilfe von Analyse- und Prognosetechniken Erkenntnisse aus Zeitreihendaten. Entdecken Sie Trends und Muster!
Was ist ein Balkendiagramm?
Entdecken Balkendiagramme bei der Datenvisualisierung. Lernen Sie, wie man sie für aufschlussreiche Datenanalyse erstellt und anpasst.
Was ist ein Liniendiagramm?
Meistern Sie die Kunst der Liniendiagramme: Lernen Sie in unserem Leitfaden, wie Sie Trends und Muster visualisieren können.
Andere Beiträge zum Thema Modern Data Stack
Diese Artikel sind eine gute weiterführende Lektüre über den Modern Data Stack und wurden als Referenzen verwendet:
Niklas Lang
Seit 2020 bin ich als Machine Learning Engineer und Softwareentwickler tätig und beschäftige mich leidenschaftlich mit der Welt der Daten, Algorithmen und Softwareentwicklung. Neben meiner Arbeit in der Praxis unterrichte ich an mehreren deutschen Hochschulen, darunter die IU International University of Applied Sciences und die Duale Hochschule Baden-Württemberg, in den Bereichen Data Science, Mathematik und Business Analytics.
Mein Ziel ist es, komplexe Themen wie Statistik und maschinelles Lernen so aufzubereiten, dass sie nicht nur verständlich, sondern auch spannend und greifbar werden. Dabei kombiniere ich praktische Erfahrungen aus der Industrie mit fundierten theoretischen Grundlagen, um meine Studierenden bestmöglich auf die Herausforderungen der Datenwelt vorzubereiten.