Zum Inhalt springen

Daten

Egal, ob man Daten nun als das Gold oder das Öl des 21. Jahrhunderts bezeichnen will, sie sind nun mal essenziell wichtig für alle Machine Learning Anwendungen. Deshalb befassen wir uns in diesem Kapitel ausschließlich damit, wie wir eine gute Informationsbasis für unsere Modelle legen können.

Einige grundlegende Themen sind essenziell, um eine gute Infrastruktur für Machine Learning zu haben:

  • Beschaffung: Es gibt verschiedene System aus denen die Daten stammen können, beispielsweise aus internen oder externen Quellen. Dementsprechend kann auch der physische Zugang problematisch werden, wenn man nicht die nötigen Berechtigungen besitzt.
  • Qualität: Sobald die Informationen vorliegen muss überprüft werden, ob die Daten gewisse Voraussetzungen erfüllen, um für den Anwendungsfall nutzbar zu sein. Beispielsweise sollten die einzelnen Kategorien nicht zu viele fehlende Werte aufweisen.
  • Aufbereitung: Wenn die Datenqualität nicht ausreichend ist, gibt es verschiedene Methoden, um des Data Sets so aufzubereiten, dass er trotzdem genutzt werden kann. Darüber hinaus muss das Format (bspw. Zahlenformat oder die Länge von Texteingaben) vereinheitlicht werden auf die Form mit der das Modell arbeiten kann.
  • Speicherung: Wenn die Dateimenge eine gewissen Grenze überschreitet oder das Modell stetig mit aktuellen Informationen neu trainiert werden soll, reicht es nicht aus die Inputs in einer Datei vorliegen zu haben. Stattdessen sollte man dann auf eine Datenbanklösung zurückgreifen, um die Daten zentral verfügbar zu haben und sie auch performanter abfragen zu können. Je nach Art und Menge der Informationen, gibt es verschiedene Datenbanklösungen (bspw. MySQL).

Diese Themen sind deutlich umfassender als sie auf den ersten Blick erscheinen. Neben den verschiedenen Softwaremöglichkeiten, die in diesem Bereich angeboten werden, müssen wir auch statistisch bewerten können, welche Veränderungen wir vornehmen dürfen, um die Aussagekraft des KI-Modells nicht einzuschränken.

Einige unserer Beiträge im Bereich Daten

Snowflake Schema / Schneeflockenschema

Was ist das Snowflake Schema?

Entdecken Sie die Leistungsfähigkeit des Snowflake Schemas: Eine flexible Datenmodellierungstechnik für effizientes Data Warehousing.

Augmented Wohnzimmer in Anlehnung an Data Augmentation

Was ist Data Augmentation?

Einsatz und Methoden von Data Augmentation

Tableau

Was ist Tableau?

In unserem umfassenden Leitfaden erfährst Du, wie Du Tableau für die Datenvisualisierung und -analyse nutzen kannst.

Normalisierung / Normalization

Was ist die Normalisierung von Datenbanken?

Erfahren Sie mehr über Normalisierung und wie Sie Datenbanken verbessern können und minimieren Sie Redundanzen.

Primärschlüssel / Primary Key an der Tür

Was sind Primärschlüssel und Fremdschlüssel?

Lernen Sie über Primärschlüssel und Fremdschlüssel. Verstehen Sie ihre Unterschiede, Bedeutung und Verwendung.

Das Bild zeigt einen Parkett Boden in Anlehnung an Apache Parquet.

Was ist Apache Parquet?

Erfahren Sie, wie Sie die Speicherung von Big Data mit Apache Parquet optimieren. Entdecken Sie die Funktionen und Vorteile in diesem Artikel!

Datensatzgröße für Machine Learning

Die These, dass Machine Learning nur mit sehr großen Data Sets auch gute Ergebnisse liefert, hält sich weiterhin hartnäckig. Obwohl es nicht von der Hand zu weisen ist, dass das Training von Modellen deutlich einfacher und mit weniger Vorarbeit verbunden ist, sind auch kleinere Datensätze kein Ausschlusskriterium, um Machine Learning zu betreiben. Dadurch kann man auch für Anwendungen, bei denen von Haus aus nur wenige Daten anfallen oder die Informationen erst seit kurzer Zeit gemessen und abgespeichert werden, gute und präzise Algorithmen programmieren.

Ein klassisches Beispiel dafür ist die Bilderkennung. Wenn wir ein Modell entwickeln wollen, das feststellt, ob in einem Bild ein Hund zu sehen ist oder nicht, werden wir sehr wahrscheinlich nicht darum herumkommen eine Vielzahl von Bildern vorher manuell zu labeln. Da dies nicht nur eine langweilige sondern auch sehr zeitaufwendige Arbeit ist, werden wir voraussichtlich nicht auf eine große Menge an beschrifteten Bildern zurückgreifen können. Trotzdem ist es nicht unmöglich mit den wenigen Bildern einen vergleichsweise robusten Algorithmus zu schreiben.

Das Bild zeigt verschiedene Menschen, die mit Daten (Data) arbeiten.
Informationsgetriebene Anwendungen im Internet

Möglich wird das durch sogenannte Data Augmentation Methoden. Dabei wird ein einzelnes Data Set so abgeändert, dass er als zwei, drei oder vier neue Data Sets genutzt werden kann. Dadurch blähen wir die Datensatzgröße künstlich auf. In unserem Beispiel mit den Hundebildern bedeutet das, dass wir ein Hundebild nehmen und daraus „neue“ Bilder generieren, indem wir nur gewisse Bildausschnitte als neues Data Set nutzen oder das Bild um wenige Grad rotieren. Dadurch haben wir neue Datensätze generiert, von denen wir immer noch wissen, dass darin ein Hund zu sehen ist und aus denen das Machine Learning Modell trotzdem neue Schlüsse ziehen kann.

Zusammenfassung

Daten sind in unserer heutigen Zeit ein bestimmender Faktor. In unserem privaten Umfeld werden immer mehr private Informationen über Social Media oder anderen Online-Accounts erhoben. Im geschäftlichen Umfeld erfahren wir, dass auch deutlich mehr Daten als früher erhoben werden, um informationsgetriebene Entscheidungen zu treffen und die bisherige Zielerreichung überwachen zu können. Deshalb ist eine unverzichtbare Fähigkeit mit Fakten umgehen zu können.

Cookie Consent mit Real Cookie Banner