Die Grundlagen für maschinelles Lernen entstammen einer Zeit, in der man sich bereits mit Rechenmaschinen beschäftigte. So hatte schon Gottfried Wilhelm Leibnitz im 17. Jahrhundert eine solche Maschine konstruiert und in diesem Zusammenhang gemeint: „Es ist unwürdig, die Zeit von hervorragenden Leuten mit knechtischen Rechenarbeiten zu verschwenden, weil mit dem Einsatz einer Maschine auch der Einfältigste die Ergebnisse sicher hinschreiben kann.“ (Poser, 2017)
Zudem hat der Mathematiker Pierre-Simon Laplace, der schon an anderer Stelle mit dem Hinweis auf den von ihm definierten Dämon erwähnt wurde, maßgeblichen Anteil an der Entwicklung dieser Art des Lernens. Laplace hatte nämlich zu Beginn des 19. Jahrhunderts den sogenannten Satz von Bayes formuliert.
Benannt nach dem englischen Theologen und Mathematiker Thomas Bayes (1701 – 1761), der sich intensiv mit der Berechnung von Wahrscheinlichkeiten auseinandergesetzt hat. Dieser Satz von Bayes, auch Bayes-Theorem genannt, ist eine der Grundlagen des Fachbereichs der Statistik und findet besonders dort Anwendung, wo bedingte Wahrscheinlichkeiten zu berechnen sind. Von bedingter Wahrscheinlichkeit spricht man, sobald eine zu berech- nende Wahrscheinlichkeit von dem Eintritt eines bestimmten Ereignisses abhängig ist.
Diese Funktionen, gemeinsam mit der Methode der kleinsten Quadrate des französischen Mathematikers Adrien-Marie Legendre (1752-1833) – dies ermöglicht die Definition einer Funktion möglichst nahe an vorhandenen Datenpunkten – und den Markow-Ketten – benannt nach dem russischen Mathematiker Andrei Andrejewitsch Markow (1856-1922) – eine Berechnungsvariante von Wahrscheinlichkeiten zukünftiger Ereignisse – stellen heute die Grundlagen für Machine Learning und den daraus abzuleitenden Vorhersagen dar.
Maschinelles Lernen und Data Science überschneiden sich in einigen Bereichen und auch in den häufig angewandten mathematischen Funktionen. So kann man mittels der Funktion einer logistischen Regression einerseits Einsichten gewinnen – z. B. feststellen, dass Menschen mit einem gewissen Einkommen eher geneigt sind, ein bestimmtes Produkt zu kaufen und danach seine Marketingstrategie ausrichten – das wäre der Data Science zuzuordnen – als auch Voraussagen zu machen, mit welcher Wahrscheinlichkeit bestimmte Kunden Produkte kaufen würden – dies könnte zu Machine Learning gezählt werden.
Riesige Datensammlungen (Big Data) stellen auch die Grundlage für maschinelles Lernen dar, d.h. die Auswahl und Menge der Daten spielt sowohl für die Art und Weise des Lernens, die Trainings, als auch für die Ergebnisse eine essenzielle Rolle.