Das Auftauchen von Datenmustern ist ausschließlich im Kontext mit der Analyse und der Intention derselben zu bewerten. Erst durch die gemeinsame Betrachtung von Daten und Kontext wird das Beobachtete zu der gesuchten Information. Zieht man den Kontext nicht in Betracht, so sind immer wieder ähnliche Muster in Daten aufzufinden, die in keinerlei Zusammenhang stehen und daher auch keine Aussage in der Zusammenschau begründen können.
Beispiele für offensichtliche Korrelationen scheinen klar: die Anzahl von Verkehrsteilnehmern hängt ursächlich mit der Anzahl von Unfällen zusammen, ebenso bedingen warmes Wetter und der Konsum von Eiscreme einander. Es ist aber kein Zusammenhang zwischen den Filmen, in denen Nicolas Cage zwischen 1999 – 2009 gespielt hat und den Menschen festzustellen, die im selben Zeitraum ihr Leben durch Ertrinken in einem Schwimmbecken verloren haben.
Auch, wenn die Kurven einander gleichen und daher die statistisch erfassten Werte solches vermuten lassen könnten. (Vigen, 2015) Kritik am vermehrten Einsatz von Big Data Analysen – in dem speziellen Fall mittels maschinellem Lernen – in der Wissenschaft findet sich auch unter dem Aspekt, dass die Software zwar in der Lage ist, Muster zu erkennen, diese Muster allerdings nur in den vorhandenen Daten und nicht in der realen Welt zu finden sind. Dies betrifft wissenschaftliche Forschung in vielen Bereichen – von Biomedizin bis hin zu Astronomie, bestätigt Dr. G. Allen, eine Associate Professorin der Electrical and Computer Engineering, Statistics and Computer Science an der Rice University, Houston, Texas. (Ghosh, 2019) Das Sammeln von Daten ist zu einer essenziellen Tätigkeit geworden und erinnert in Diktion an die Zeit des Goldrausches in den USA – nicht umsonst spricht man in Fachkreisen von Data Mining.
Wie kam es zu Big Data?
Seit es das Internet gibt – das sind immerhin bereits mehr als 50 Jahre – sind sowohl Rechner – als auch Speicherkapazitäten enorm gewachsen. Damit natürlich auch die Menge an Daten, die seither über die Knoten dieses in der Zwischenzeit globalen Netzwerks laufen. Die Durchdringung aller gesellschaftlicher Bereiche mit der Nutzung dieser Technologie hat die Situation zu Beginn der 1990er-Jahre mit der Erfindung des World Wide Web mit sich gebracht.
Seither werden Daten mehr und mehr thematisiert und als Grundlage zukünftiger Entwicklungen gesehen. Im Jahr 2013 veröffentlichte das McKinsey Global Institute einen Bericht unter dem Titel „Disruptive Technologien: Fortschritte, die das Leben, das Geschäft und die Weltwirtschaft verändern werden“. (McKinsey, 2013)
Darin verweisen die Verfasser auf die Entwicklung von zwölf Technologien, die nach deren Ansicht Wirtschaft und Gesellschaft maßgeblich beeinflussen werden. Grundlage dieser Einschätzung sind die Möglichkeiten zunehmende Datenströme aufzuzeichnen und gleichzeitig vom enormen Wachstum der Speicherkapazitäten zu profitieren. McKinsey geht davon aus, dass es zu einem jährlichen Datenwachstum von 40 % kommen wird, wobei die IT Wirtschaft jährlich um die 5 % wachsen soll. Die ersten sechs in dieser Studie genannten Technologien sind heute für eine Großzahl von Anwendern und Anwenderinnen bereits in den Alltag integriert und werden laufend genutzt* – ohne, dass die Mehrzahl der Menschen sich der Tragweite der Veränderungseffekte – egal ob mit positiv oder negativ eingeschätzter Bewertung – auf Leben und Gesellschaft bewusst ist.
* in der aufgezählten Reihenfolge: Mobiles Internet – Automation von Wissensarbeit – Internet of Things – Cloud – Robotics – Autonome Fahrzeuge