Zum Inhalt springen

Big Data – Definition und 4 V’s

  • Daten

Der Begriff Big Data  ist heutzutage in aller Munde, wenn versucht wird, das Phänomen zu beschreiben, dass vor allem Unternehmen und öffentliche Organisationen eine immer größer werdende Datenmenge zur Verfügung stehen, welche vor allem traditionelle Datenbanken an Grenzen stoßen lässt.

Definition Big Data

Das Gartner IT-Wörterbuch definiert Big Data wie folgt:

Big Data sind hochvolumige, schnelle und/oder variantenreiche Informationsbestände, die kosteneffiziente, innovative Formen der Informationsverarbeitung erfordern, welche verbesserte Einblicke, Entscheidungsfindung und Prozessautomatisierung ermöglichen. “

4 V’s der Daten

Obwohl es schwer ist, genau zu erfassen, was ein Big-Data-System „big“ macht, werden insgesamt vier Konzepte genutzt, um solche Systeme zu identifizieren. Abgeleitet von deren englischen Bezeichnungen, werden diese auch als die 4 V’s von Big Data bezeichnet:

  • Volume: Big Data Anwendungen von Unternehmen, wie Netflix, Amazon oder Facebook, umfassen gewaltige Datenmengen, welche bereits in Größenordnungen von tera- oder sogar zettabytes gemessen werden. Für die Speicherung und Verarbeitung solch großer Datenmengen sind teilweise Tausende von Maschinen notwendig. Zusätzlich kommt hinzu, dass aus Sicherheitsgründen eine Replikation der Daten stattfindet, um bei einem Ausfall darauf zurückgreifen zu können.
  • Variety: Die Daten stammen nicht nur aus einer Vielzahl von Datenquellen (bspw. Bilddaten, Audiodaten, etc.), sondern weisen auch unterschiedlichste Datenstrukturen auf. Die Informationen müssen entsprechend in Formate konvertiert werden, sodass sie untereinander nutzbar gemacht werden. Beispielsweise muss sich auf ein einheitliches Schema geeinigt werden für die Angabe von Daten.
  • Velocity: Velocity bezieht sich auf die Geschwindigkeit der Datenverarbeitung. Typische Big-Data-Systeme speichern und verwalten große Datenmengen mit immer höheren Geschwindigkeiten. Die Geschwindigkeit, mit der neue Daten erzeugt, verändert und verarbeitet werden, ist eine Herausforderung. Nutzer von sozialen Netzwerken wie Twitter, Facebook oder YouTube produzieren ständig neue Inhalte. Dazu gehören nicht nur Millionen von Tweets, die stündlich gepostet werden, sondern auch Tracking-Informationen, zum Beispiel die Anzahl der Aufrufe oder die GPS-Daten der Nutzer.
  • Veracity: Von Menschen produzierte Daten können unzuverlässig sein. Beiträge in sozialen Netzwerken oder Blogs können falsche Informationen, Widersprüche oder schlichtweg Tippfehler enthalten. All dies macht es für Algorithmen schwierig, einen Wert aus den Daten zu extrahieren. Die Herausforderung besteht darin, zu erkennen, welche Daten vertrauenswürdig sind und welche nicht. Algorithmen werden verwendet, um die Datenqualität zu messen und Datenbereinigungsschritte durchzuführen.

Je nach Literatur wird Big Data unter anderem mit nur drei Vs definiert, nämlich Volume, Velocity und Variety. In anderen Definitionen werden sogar noch mehr Vs genannt. Ein Beispiel ist „Value“, was bedeutet, dass Big Data dazu dienen soll, sinnvolle Werte aus Daten zu extrahieren, z.B. durch die Anwendung von Algorithmen für maschinelles Lernen.

Woher stammen die Daten?

In traditionellen Informationssystemen (wie sie z.B. in Banken oder Versicherungen verwendet werden) wurden die Daten hauptsächlich von den Mitarbeitern des Unternehmens gesammelt. In Big-Data-Anwendungen haben die Daten ihren Ursprung in vielseitigeren Quellen. In der heutigen Zeit fallen in nahezu allen industriellen Branchen und Unternehmensgrößen eine Vielzahl an Daten an. Neben digital agierenden Firmen sammelt auch das produzierende Gewerbe Informationen aus verschiedensten Quellen:

  • „Klassische“ Daten: Dies sind Daten, die Unternehmen sowieso per Gesetz erheben müssen oder sie aus einem allgemeinen Interesse schon seit längerer Zeit erheben. Dazu zählen beispielsweise alle Informationen zu einem Auftrag, die beispielsweise auf einer Rechnung gefunden werden (Auftragsnummer, Umsatz, Kunde, gekaufte Produkte, etc.).
  • Multimedia Quellen: Videos, Musik, Sprachaufnahmen und Multimedia-Dokumente wie Präsentationsfolien sind noch schwieriger zu analysieren als Textbeiträge. Die korrekte Vorverarbeitung dieser Eingabeformate ist einer der wichtigsten Schritte, die für die Speicherung solcher Daten erforderlich sind. Einfache Algorithmen zur Bildvorverarbeitung können verwendet werden, um die Größe oder die Hauptfarbe eines Bildes zu extrahieren. Komplexere Algorithmen, die Techniken des Machine Learnings verwenden, können erkennen, was auf einem Bild zu sehen ist oder wer die Personen auf einem Bild sind.
  • Sensordaten und andere Daten zur Überwachung: Server, Smartphones und viele andere Geräte produzieren sogenannte Log-Einträge, die bei der Nutzung entstehen. Ein Webserver protokolliert jede einzelne Anfrage einer Webseite. Ein solcher Logeintrag enthält eine Menge Informationen über den Surfenden: seine IP-Adresse, Land, Stadt, Browser, Betriebssystem, Bildschirmauflösung und vieles mehr. So lässt sich das Klickverhalten analysieren, die Verweildauer auf bestimmten Webseiten und ob ein Besucher ein wiederkehrender oder ein neuer Besucher ist. In Smartphones gibt es Sensoren, um Daten wie die GPS-Position oder den Batteriestatus zu erfassen. Ein Näherungssensor und das Gyroskop können in Kombination verwendet werden, um zu erkennen, ob sich das Telefon in einer Tasche befindet, ob der Benutzer es in der Hand hält oder ob es auf einem Schreibtisch liegt.

Das solltest Du mitnehmen

  • Big Data bezeichnet hochvolumige, schnelle und/oder variantenreiche Informationsbestände. Um diese zu verarbeiten benötigen wir neue Formen der Informationsverarbeitung.
  • Big Data lässt sich durch die sogenannten 4 V’s charakterisieren: Volume, Variety, Velocity und Veracity.
  • Die Daten stammen in vielen Fällen entweder aus klassischen Datenbeständen, Multimediaquellen oder Überwachungsdaten (Sensordaten).

Andere Beiträge zum Thema Big Data

  • Eine ausführliche Definition im Gabler Wirtschaftslexikon findest Du hier.
close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Schlagwörter:
Cookie Consent mit Real Cookie Banner