Zum Inhalt springen

Statistik

Statistik ist unbestritten eines der wichtigsten Bestandteile und Grundlage für jegliche Machine Learning Anwendungen. Somit sind grundlegende Kenntnisse in verschiedensten Bereichen dieses Teilgebietes auch unumgänglich, wenn man die Algorithmen hinter Machine Learning genauer verstehen will.

(Erfundene) Statistische Zusammenhänge | Foto: dilbert.com

Im Allgemeinen beschäftigen sich statistische Methoden damit, einen Zusammenhang zwischen verschiedenen Variablen und diese Rückschlüsse auch mathematisch ausdrücken zu können. Mit anderen Worten, es werden Ursache-Wirkung-Zusammenhänge (Kausalität) gesucht:

  • Wie viel besser wird die Note in einer Prüfung, wenn man mehr lernt?
  • Wie verändert sich das Wahlergebnis abhängig vom Wahlkampf, der betrieben wurde?
  • Ist es sicherer mit dem Flugzeug zu fliegen oder mit der Bahn zu fahren?

Um solche Zusammenhänge genauer untersuchen zu können, umfasst die Datenanalyse auch Werkzeuge um große Datenmengen auswerten, darstellen und zusammenfassen zu können. Grafische Auswertungen, wie Balken-, Torten- oder Liniendiagramme gehören somit genauso ins statistische Repertoire, wie die Berechnung von Mittelwerten oder Medianen.

Einige unserer Beiträge im Bereich Statistik

Multicollinearity / Multikollinearität

Was ist Multikollinearität?

Erkennen Sie Multikollinearität in statistischen Analysen, um die Modellgenauigkeit zu verbessern und irreführende Ergebnisse zu vermeiden.

Markov Chain / Markov Kette / Markow Kette

Was ist die Markow Kette?

Erforschen Sie die Leistungsfähigkeit von Markow Ketten bei der Datenanalyse. Erfahren Sie, wie diese Modelle dynamische Systeme steuern.

Hypothesis Test / Hypothesentest

Was ist ein Hypothesentest?

Erschließen Sie datengestützte Entscheidungsfindung mit Hypothesentests. Erforschen Sie Bedeutung und Grundlagen der Hypothesentests.

Zero-Inflated Model / Zähldatenmodell

Was ist ein Zero-Inflated Model?

Zero-Inflated Models erklärt: Verstehen und Anwenden fortgeschrittener statistischer Techniken zur Analyse von Daten mit überschüssigen Nullen.

Independent Component Analysis / Unabhängigkeitsanalyse

Was ist die Unabhängigkeitsanalyse (Independent Component Analysis)?

Verborgene Muster freilegen: Entdecken Sie die Leistungsfähigkeit der Unabhängigkeitsanalyse bei der Datenanalyse und dessen Vorteile.

Mean Squared Error (MSE)

Mean Squared Error (MSE) verstehen: Eine Schlüsselzahl im Machine Learning!

Entdecken Sie de mittleren quadratischen Fehler (MSE): Lernen Sie die Berechnung, Anwendungen und Alternativen kennen.

Unterschied zwischen statistischen Methoden und Stochastik

Im alltäglichen Sprachgebrauch wird die Wahrscheinlichkeitsrechnung oft fälschlicherweise auch der Statistik zugeordnet, obwohl dies nicht stimmt. Die Statistik ist lediglich ein Teilgebiet der sogenannten Stochastik. Diese umfasst neben der Datenanalyse auch die Wahrscheinlichkeitsrechnung, also alle Berechnungen rund um Zufallsexperimente, wie Münze werfen, Würfeln oder Wetten.

Das Bild zeigt eine Tafel mit dem Wort Stochastik angeschrieben. Darunter sind die Teilgebiete Statistik und Wahrscheinlichkeitsrechnung angeschrieben,
Stochastik und die Teilgebiete Statistik und Wahrscheinlichkeitsrechnung | Foto: Autor

Dies ist deswegen wichtig, da statistische Methoden keine Wahrscheinlichkeitsberechnungen enthalten, auch wenn dies manchmal fälschlicherweise behauptet wird. Im Großen und Ganzen sind statistische Berechnungen für Machine Learning Algorithmen deutlich wichtiger und bilden eine der bedeutendsten Grundlagen für ML. Wahrscheinlichkeiten werden innerhalb der Künstlichen Intelligenz lediglich bei der Ausgabe von Ergebnissen genutzt. Ein Machine Learning Algorithmus wird nie eine Vorhersage mit vollständiger Sicherheit treffen können. Stattdessen werden die Ergebnisse mit Wahrscheinlichkeiten ausgegeben, um auszudrücken, wie sicher sich der Algorithmus bei dem Ergebnis ist. Eine Wahrscheinlichkeit von 99,5% bedeutet also, dass sich das Modell sehr sicher ist, dass seine Vorhersage auch zutreffen wird.

Zusammenfassung

Statistische Methoden sind eine der wichtigsten Grundlagen, um Modelle im Bereich des Machine Learnings verstehen und richtig anwenden zu können. Die Beiträge in diesem Kapitel zielen darauf ab, die Methoden zu erklären, die für grundlegendes Machine Learning unverzichtbar sind.

Cookie Consent mit Real Cookie Banner