Daten | Data Basecamp

Egal, ob man Daten nun als das Gold oder das Öl des 21. Jahrhunderts bezeichnen will, sie sind nun mal essenziell wichtig für alle Machine Learning Anwendungen. Deshalb befassen wir uns in diesem Kapitel ausschließlich damit, wie wir eine gute Informationsbasis für unsere Modelle legen können.

Einige grundlegende Themen sind essenziell, um eine gute Infrastruktur für Machine Learning zu haben:

Beschaffung: Es gibt verschiedene System aus denen die Daten stammen können, beispielsweise aus internen oder externen Quellen. Dementsprechend kann auch der physische Zugang problematisch werden, wenn man nicht die nötigen Berechtigungen besitzt.
Qualität: Sobald die Informationen vorliegen muss überprüft werden, ob die Daten gewisse Voraussetzungen erfüllen, um für den Anwendungsfall nutzbar zu sein. Beispielsweise sollten die einzelnen Kategorien nicht zu viele fehlende Werte aufweisen.
Aufbereitung: Wenn die Datenqualität nicht ausreichend ist, gibt es verschiedene Methoden, um des Data Sets so aufzubereiten, dass er trotzdem genutzt werden kann. Darüber hinaus muss das Format (bspw. Zahlenformat oder die Länge von Texteingaben) vereinheitlicht werden auf die Form mit der das Modell arbeiten kann.
Speicherung: Wenn die Dateimenge eine gewissen Grenze überschreitet oder das Modell stetig mit aktuellen Informationen neu trainiert werden soll, reicht es nicht aus die Inputs in einer Datei vorliegen zu haben. Stattdessen sollte man dann auf eine Datenbanklösung zurückgreifen, um die Daten zentral verfügbar zu haben und sie auch performanter abfragen zu können. Je nach Art und Menge der Informationen, gibt es verschiedene Datenbanklösungen (bspw. MySQL).

Diese Themen sind deutlich umfassender als sie auf den ersten Blick erscheinen. Neben den verschiedenen Softwaremöglichkeiten, die in diesem Bereich angeboten werden, müssen wir auch statistisch bewerten können, welche Veränderungen wir vornehmen dürfen, um die Aussagekraft des KI-Modells nicht einzuschränken.

Einige unserer Beiträge im Bereich Daten

Was ist Data Preprocessing?

2. Dezember 2023

Optimieren Sie Ihre Datenanalyse mit effektivem Data Preprocessing. Lernen Sie das Wesentliche in unserem Leitfaden zur Datenvorverarbeitung.

Was ist ein Kreisdiagramm?

29. November 2023

Visualisieren Sie Datenproportionen mit Kreisdiagrammen: Eine intuitive und effektive Methode, um die relative Verteilung zu verstehen.

Was ist die Fuzzy Logic?

18. November 2023

Entdecken Sie die Leistungsfähigkeit der Fuzzy Logic in Technik und KI. Erfahren Sie, wie sie funktioniert und welche Vor- und Nachteile sie hat.

Was ist Swagger UI?

18. Oktober 2023

Erlernen Sie die API-Dokumentation mit Swagger UI. Erfahren Sie, wie Sie Ihre Dokumentation für eine gute Benutzerfreundlichkeit anpassen.

Was ist die Kosinus-Ähnlichkeit?

4. Oktober 2023

Erschließen Sie das Potenzial der Kosinus-Ähnlichkeit: Erforschen Sie effiziente Techniken der Ähnlichkeitsmessung und erweitern Sie Ihr Wissen.

Was ist Apache Flink?

23. September 2023

Entdecken Sie Apache Flink: Nutzen Sie den Artikel um in Echtzeit-Stream-Verarbeitung und Big-Data-Analysen einzutauchen. Erfahren Sie mehr!

Datensatzgröße für Machine Learning

Die These, dass Machine Learning nur mit sehr großen Data Sets auch gute Ergebnisse liefert, hält sich weiterhin hartnäckig. Obwohl es nicht von der Hand zu weisen ist, dass das Training von Modellen deutlich einfacher und mit weniger Vorarbeit verbunden ist, sind auch kleinere Datensätze kein Ausschlusskriterium, um Machine Learning zu betreiben. Dadurch kann man auch für Anwendungen, bei denen von Haus aus nur wenige Daten anfallen oder die Informationen erst seit kurzer Zeit gemessen und abgespeichert werden, gute und präzise Algorithmen programmieren.

Ein klassisches Beispiel dafür ist die Bilderkennung. Wenn wir ein Modell entwickeln wollen, das feststellt, ob in einem Bild ein Hund zu sehen ist oder nicht, werden wir sehr wahrscheinlich nicht darum herumkommen eine Vielzahl von Bildern vorher manuell zu labeln. Da dies nicht nur eine langweilige sondern auch sehr zeitaufwendige Arbeit ist, werden wir voraussichtlich nicht auf eine große Menge an beschrifteten Bildern zurückgreifen können. Trotzdem ist es nicht unmöglich mit den wenigen Bildern einen vergleichsweise robusten Algorithmus zu schreiben.

Das Bild zeigt verschiedene Menschen, die mit Daten (Data) arbeiten. — Informationsgetriebene Anwendungen im Internet

Möglich wird das durch sogenannte Data Augmentation Methoden. Dabei wird ein einzelnes Data Set so abgeändert, dass er als zwei, drei oder vier neue Data Sets genutzt werden kann. Dadurch blähen wir die Datensatzgröße künstlich auf. In unserem Beispiel mit den Hundebildern bedeutet das, dass wir ein Hundebild nehmen und daraus “neue” Bilder generieren, indem wir nur gewisse Bildausschnitte als neues Data Set nutzen oder das Bild um wenige Grad rotieren. Dadurch haben wir neue Datensätze generiert, von denen wir immer noch wissen, dass darin ein Hund zu sehen ist und aus denen das Machine Learning Modell trotzdem neue Schlüsse ziehen kann.

Zusammenfassung

Daten sind in unserer heutigen Zeit ein bestimmender Faktor. In unserem privaten Umfeld werden immer mehr private Informationen über Social Media oder anderen Online-Accounts erhoben. Im geschäftlichen Umfeld erfahren wir, dass auch deutlich mehr Daten als früher erhoben werden, um informationsgetriebene Entscheidungen zu treffen und die bisherige Zielerreichung überwachen zu können. Deshalb ist eine unverzichtbare Fähigkeit mit Fakten umgehen zu können.