Zum Inhalt springen

Was ist Scikit-Learn?

  • Python

Scikit-Learn (kurz auch sklearn) ist eine Python Bibliothek mit der sich Machine Learning Anwendungen einfach umsetzen lassen. Die Bibliothek basiert auf gängigen Datenstrukturen in Python, wie Numpy, und ist somit sehr kompatibel mit anderen Modulen. Der Quellcode dieser Library findet man auf GitHub.

Was ist Scikit-Learn?

Die Software-Bibliothek Scikit-Learn ermöglicht die Nutzung von KI-Modellen in der Programmiersprache und erspart dem Nutzer viel Programmieraufwand, indem gängige Modelle, wie Decision Trees oder K-Mean Clustering, über wenige Zeile Code integriert werden können.

Zu den bekanntesten Voraussetzung für die Verwendung von sklearn zählen Numpy und SciPy, auf denen die Bibliothek in großen Teilen beruht. Darüber hinaus gibt es auch Abhängigkeiten zu joblib und threadpoolctl. Das Projekt entstand im Jahr 2007 und ist seitdem unter der „3-Clause BSD“ Lizenz auf GitHub einsehbar.

Welche Anwendungen können mit der Bibliothek umgesetzt werden?

Mit Scikit-Learn können verschiedenste KI-Modelle umgesetzt werden, sowohl aus dem des Supervised wie auch dem Unsupervised Learning. Im Allgemeinen können die Modelle in die folgenden Gruppen untergliedert werden:

Im Umfeld von Künstlicher Intelligenz hat die Bibliothek nur deshalb ein bisschen an Popularität verloren, da Neuronale Netzwerke immer interessanter wurden. Diese können mithilfe von Scikit-Learn nur sehr rudimentär aufgebaut werden, weshalb viele Nutzer auf Tensorflow umsteigen, bzw. diese Bibliothek auch immer relevanter wird. Zusätzlich haben Neuronale Netze die Performance von gängigen KI-Modellen weit übertroffen, sondern nur selten auf vorherige Modelle zurückgegriffen wird.

Welche Vorteile bietet Scikit-Learn?

Zu den Vorteilen der Bibliothek zählen unter anderem:

  • vereinfachte Anwendung von Machine Learning Tools, Datenanalytik und Datenvisualisierung
  • kommerzielle Nutzung ohne Lizenzgebühren
  • Hohes Maß an Flexibilität beim Fine-Tuning der Modelle
  • basierend auf gängigen und leistungsstarken Datenstrukturen aus Numpy
  • Nutzbar in verschiedenen Kontexten

Neben den ganzen Vorteilen sollte jedoch bei solchen Bibliotheken beachtet werden, dass die Nutzung von Machine Learning Modellen ein solides Vorwissen voraussetzen und bei unbedachter Anwendung auch schlichtweg zu falschen Aussagen führen können.

Sklearn macht die Nutzung dieser Modelle besonders einfach und somit für viele Nutzer zugänglich. Jedoch sollte man sich genau im klaren sein, welche Modelle eingesetzt werden können und ob die genutzten Daten belastbar sind.

Wie kann man die Bibliothek in Python nutzen?

Das sogenannte Iris Dataset ist ein beliebter Trainingsdatensatz für das Erstellen eines Klassifizierungsalgorithmus. Es ist ein Beispiel aus der Biologie und beschäftigt sich mit der Klassifizierung von sogenannten Iris Pflanzen. Über jede Blume ist die Länge und Breite des Blüttenblattes und des sogenannten Kelchblattes vorhanden. Anhand dieser vier Informationen soll dann erlernt werden, um welchen der drei Iris-Typen es sich bei dieser Blume handelt.

Mithilfe von Skicit-Learn lässt sich in wenigen Zeilen Code bereits ein Decision Tree trainieren:

# Import Modules
from sklearn.datasets import load_iris
from sklearn import tree

# Load Iris Dataset
iris = load_iris()

# Define X and Y Variable
X, y = iris.data, iris.target

# Set up the Decision Tree Classifier
clf = tree.DecisionTreeClassifier()

# Train it on the Iris Data
clf = clf.fit(X, y)

Wir können also einen Entscheidungsbaum relativ einfach dadurch trainieren, dass wir die Inputvariable X und die vorherzusagenden Klassen Y definieren und den Entscheidungsbaum aus Skicit-Learn darauf trainieren. Mit der Funktion „predict_proba“ und konkreten Werten, lässt sich dann eine Klassifizierung vornehmen:

# Predict class for artificial values
clf.predict_proba([[4.5, 8.2, 2.1, 1.7]])

Out: 
array([[1., 0., 0.]])

Diese Blume mit den ausgedachten Werten würde also laut unserem Decision Trees der ersten Klasse angehören. Diese Gattung nennt sich „Iris Setosa“.

Das solltest Du mitnehmen

  • Scikit-Learn (kurz auch sklearn) ist eine Python Bibliothek mit der sich Machine Learning Anwendungen in wenigen Zeilen Code umsetzen lassen.
  • Die Bibliothek ist für verschiedenste Anwendungen aus den Bereichen Klassifizierung, Dimensionsreduktion oder Regression einsetzbar.
  • Sklearn erfreut sich großer Beliebtheit, da es unter anderem auf Numpy aufsetzt, einfach nutzbar ist und ein hohes Maß an Flexibiltät bietet.

Andere Beiträge zum Thema Scikit-Learn

Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner