Je größer die Menge der auszuwertenden Daten ist, desto größer die Wahrscheinlichkeit, zu validen Aussagen zu gelangen. In Anlehnung an das „Gesetz der großen Zahl“ (Füllsack, 2011, S. 247) wird dabei genutzt, dass mit der Anzahl von Wiederholungen das Vorkommen eines bestimmten Ereignisses höher wird. Dieser sogenannte Streuungseffekt ist vergleichbar mit dem Einsatz einer Schrotflinte bei der Jagd – die Streuung der Kugeln erhöht die Wahrscheinlichkeit eines Treffers, auch wenn viele Kugeln nicht treffen = verschwendet werden. Dieses Prinzip findet seine Anwendung in der sogenannten Monte-Carlo-Simulation. Diese Idee geht auf Forschungen der Los Alamos Gruppe um Stanislaw Ulam und John von Neumann zurück, die mittels Zufallsprinzip versuchten, Fragen der Teilchenphysik zu lösen, die sich analytisch nicht lösen ließen. Dies hat dazu beigetragen, dass Zufallsgenera- toren heute in allen Computern vorhanden sind. (Füllsack, 2011, S. 248) Somit spielt auch der Zufall eine Rolle bei Machine Learning.
Wie vorhandene Daten ausgewertet werden, bestimmt die Vorgangsweise beim Machine Learning. Die prinzipielle Abfolge der Schritte beim Machine Learning setzt sich aus folgenden Schritten zusammen:
- Dateneingabe / Information und Beispiele
- Erkennung von Mustern, Strukturen, Relationen mittels vorhandener Algorithmen / Methoden
- als Ausgabe wird ein optimales Vorhersagemodell erwartet
Die Darstellung von Eingabe / Operation / Ausgabe ist bereits bei der Be- schreibung komplexer und komplizierter Systeme Heinz von Försters so zu finden. Es ist daraus ersichtlich, dass die Ausgabe (Output) maßgeblich von Eingabe (Input) und den angewandten Algorithmen / Regeln abhängig ist. Dabei sei – ein wenig scherzhaft – darauf verwiesen, dass bereits vor fünf Jahrzehnten ein Spruch durch die IT-Szene geisterte, der auf diese Tatsache Bezug nimmt.
GIGO – Garbage In / Garbage Out sollte darauf hinweisen, dass der Input den Output bestimmt, also die Qualität des Inputs die einzig wirklich wichtige Komponente in diesem Zusammenspiel bedeuten würde.
Im Bereich des Machine Learnings und der Big Data Analysen hofft man allerdings, auch aus unstrukturierten Daten Erkenntnisse und Vorhersagemodelle gewinnen zu können, die bisher nicht möglich erschienen. Dies hat hauptsächlich mit der Fähigkeit der Muster- und Strukturerkennung zu tun, die unter Punkt 2 zuvor genannt wurde. Die drei genannten Schritte des Machine Learnings werden in verschiedenen Vorgangsweisen umgesetzt:
- Supervised (Machine) Learning (überwachtes Lernen)
- Unsupervised (Machine) Learning (nicht überwachtes Lernen)
- Semi-supervised (Machine) Learning (teil-überwachtes Lernen)
- Reinforcement (Machine) Learning (bestärkendes Lernen)
Schließlich unterscheidet man noch auf Basis der angewandten Algorithmen und Modelle zwischen herkömmlichem Machine Learning, d.h. mathematischer Logik folgenden Methoden und dem sogenannten Deep Learning – der Anwendung künstlicher neuronaler Netze – einer Lernmethode die nach dem Vorbild biologischer neuronaler Netze aufgebaut ist.