Daten | Data Basecamp

Egal, ob man Daten nun als das Gold oder das Öl des 21. Jahrhunderts bezeichnen will, sie sind nun mal essenziell wichtig für alle Machine Learning Anwendungen. Deshalb befassen wir uns in diesem Kapitel ausschließlich damit, wie wir eine gute Informationsbasis für unsere Modelle legen können.

Einige grundlegende Themen sind essenziell, um eine gute Infrastruktur für Machine Learning zu haben:

Beschaffung: Es gibt verschiedene System aus denen die Daten stammen können, beispielsweise aus internen oder externen Quellen. Dementsprechend kann auch der physische Zugang problematisch werden, wenn man nicht die nötigen Berechtigungen besitzt.
Qualität: Sobald die Informationen vorliegen muss überprüft werden, ob die Daten gewisse Voraussetzungen erfüllen, um für den Anwendungsfall nutzbar zu sein. Beispielsweise sollten die einzelnen Kategorien nicht zu viele fehlende Werte aufweisen.
Aufbereitung: Wenn die Datenqualität nicht ausreichend ist, gibt es verschiedene Methoden, um des Data Sets so aufzubereiten, dass er trotzdem genutzt werden kann. Darüber hinaus muss das Format (bspw. Zahlenformat oder die Länge von Texteingaben) vereinheitlicht werden auf die Form mit der das Modell arbeiten kann.
Speicherung: Wenn die Dateimenge eine gewissen Grenze überschreitet oder das Modell stetig mit aktuellen Informationen neu trainiert werden soll, reicht es nicht aus die Inputs in einer Datei vorliegen zu haben. Stattdessen sollte man dann auf eine Datenbanklösung zurückgreifen, um die Daten zentral verfügbar zu haben und sie auch performanter abfragen zu können. Je nach Art und Menge der Informationen, gibt es verschiedene Datenbanklösungen (bspw. MySQL).

Diese Themen sind deutlich umfassender als sie auf den ersten Blick erscheinen. Neben den verschiedenen Softwaremöglichkeiten, die in diesem Bereich angeboten werden, müssen wir auch statistisch bewerten können, welche Veränderungen wir vornehmen dürfen, um die Aussagekraft des KI-Modells nicht einzuschränken.

Einige unserer Beiträge im Bereich Daten

Univariate Analysis / Univariate Analyse

Was ist die Univariate Analyse?

22. März 2025

Univariate Analyse beherrschen: Mit Visualisierung und Python tief in Daten eintauchen - Lernen Sie anhand von praktischem Code.

Was ist OpenAPI?

15. Februar 2025

Erkunden Sie OpenAPI: Ein Leitfaden zum Aufbau und zur Nutzung von RESTful APIs. Lernen Sie, wie man APIs entwirft und dokumentiert.

Was ist Data Governance?

25. Januar 2025

Sichern Sie die Qualität, Verfügbarkeit und Integrität der Daten Ihres Unternehmens durch effektives Data Governance. Erfahren Sie mehr.

Was ist Datenqualität?

18. Januar 2025

Sicherstellung der Datenqualität: Bedeutung, Herausforderungen und bewährte Praktiken. Erfahren Sie, wie Sie hochwertige Daten erhalten.

Was ist die Datenimputation?

11. Januar 2025

Imputieren Sie fehlende Werte mit Datenimputationstechniken. Optimieren Sie die Datenqualität und erfahren Sie mehr über die Techniken.

Was ist Ausreißererkennung?

23. November 2024

Entdecken Sie Anomalien in Daten mit Verfahren zur Ausreißererkennung. Verbessern Sie ihre Entscheidungsfindung!

Datensatzgröße für Machine Learning

Die These, dass Machine Learning nur mit sehr großen Data Sets auch gute Ergebnisse liefert, hält sich weiterhin hartnäckig. Obwohl es nicht von der Hand zu weisen ist, dass das Training von Modellen deutlich einfacher und mit weniger Vorarbeit verbunden ist, sind auch kleinere Datensätze kein Ausschlusskriterium, um Machine Learning zu betreiben. Dadurch kann man auch für Anwendungen, bei denen von Haus aus nur wenige Daten anfallen oder die Informationen erst seit kurzer Zeit gemessen und abgespeichert werden, gute und präzise Algorithmen programmieren.

Ein klassisches Beispiel dafür ist die Bilderkennung. Wenn wir ein Modell entwickeln wollen, das feststellt, ob in einem Bild ein Hund zu sehen ist oder nicht, werden wir sehr wahrscheinlich nicht darum herumkommen eine Vielzahl von Bildern vorher manuell zu labeln. Da dies nicht nur eine langweilige sondern auch sehr zeitaufwendige Arbeit ist, werden wir voraussichtlich nicht auf eine große Menge an beschrifteten Bildern zurückgreifen können. Trotzdem ist es nicht unmöglich mit den wenigen Bildern einen vergleichsweise robusten Algorithmus zu schreiben.

Das Bild zeigt verschiedene Menschen, die mit Daten (Data) arbeiten. — Informationsgetriebene Anwendungen im Internet

Möglich wird das durch sogenannte Data Augmentation Methoden. Dabei wird ein einzelnes Data Set so abgeändert, dass er als zwei, drei oder vier neue Data Sets genutzt werden kann. Dadurch blähen wir die Datensatzgröße künstlich auf. In unserem Beispiel mit den Hundebildern bedeutet das, dass wir ein Hundebild nehmen und daraus “neue” Bilder generieren, indem wir nur gewisse Bildausschnitte als neues Data Set nutzen oder das Bild um wenige Grad rotieren. Dadurch haben wir neue Datensätze generiert, von denen wir immer noch wissen, dass darin ein Hund zu sehen ist und aus denen das Machine Learning Modell trotzdem neue Schlüsse ziehen kann.

Zusammenfassung

Daten sind in unserer heutigen Zeit ein bestimmender Faktor. In unserem privaten Umfeld werden immer mehr private Informationen über Social Media oder anderen Online-Accounts erhoben. Im geschäftlichen Umfeld erfahren wir, dass auch deutlich mehr Daten als früher erhoben werden, um informationsgetriebene Entscheidungen zu treffen und die bisherige Zielerreichung überwachen zu können. Deshalb ist eine unverzichtbare Fähigkeit mit Fakten umgehen zu können.