Was ist der Unterschied zwischen den Daten, wie wir sie alle nutzen und dem, was Big Data genannt wird? Der Begriff Big Data verweist zu allererst darauf, dass es sich dabei um wirklich riesige Datenmengen handelt. Er dient oft als Schlagwort im Themenfeld der Umsetzung digitaler Technologien und wird genutzt, um auf den damit in Verbindung gebrachten Wandel (Reichert, 2014) – die in diesem Themenfeld oft genannte Disruption – von unterschiedlichen Bereichen der Gesellschaft zu verweisen.

Big Data sind somit Daten, die in immenser Vielfalt zur Verfügung stehen. Diese Vielfalt bezieht sich nicht ausschließlich auf die Menge der Daten, sondern im gleichen Maße auf die Komplexität – d.h. die Varietät, die unterschiedlichen Formen der vorhandenen Daten, die Schnelligkeit, in der diese Daten anfallen und zum positiven Nutzen auch ausgewertet werden sollen und schließlich auf die Verlässlichkeit der Daten. Dies formuliert der Data Hub von IBM mittels der vier V’s

  1. Volume (Menge 1)
  2. Variety (Komplexität 2)
  3. Velocity (Geschwindigkeit der Verarbeitung 3)
  4. Veracity (Korrektheit 4) (IBM Big Data Hub, 2015)

Die Auswertung solcher Daten orientiert sich nicht daran, konkrete Inhalte zu analysieren – in der Regel geht es bei Big Data Analysen darum bestimmte Muster zu erkennen und so auf Tendenzen, die sich aus den erkannten Mustern ableiten lassen, schließen zu können. Wie wertvoll diese gesammelten Daten und die darin auffindbaren wiederkehrenden Muster für die Optimierung von Abläufen sind, ist maßgeblich von Kontext – in systemisch orientierter Begrifflichkeit der Umwelt – abhängig.

Die essenzielle Frage bei der Anwendung solcher Analysen orientiert sich hauptsächlich an Antworten, die erwartet werden können. Die angestrebte Optimierung von Prozessen strebt nach Senkung von Kosten, Zeitersparnis, der Entwicklung neuer Angebote und Leistungen, die sich besonders unter Betrachtung ökonomischer Aspekte vorteilhaft auswirken. Weiters gibt es die Anforderung, sich wiederholende Muster in Datenvorkommen zu entdecken, die bislang nicht erwartet = entdeckt = gefunden oder erfunden worden waren.

Eine Herausforderung für die Wissenschaft, nicht nur im naturwissenschaftlichen Bereich, sondern zunehmend auch in Sozial-, Sprachwissenschaften und Philosophie, wo versucht wird mittels Text- oder Verhaltensanalysen auf Basis vorhandener Daten neue Erkenntnisse und Richtlinien für Vorgehensweisen zu gewinnen. (Shmueli, 2014)

Die Wahrscheinlichkeit, ähnliche Muster zu entdecken steigt mit der vorhandenen Menge von Daten. Da die angewandten Analysen auf mathematisch, statistischen Regeln = Algorithmen beruhen, scheint es verständlich, dass mit der Menge an Daten auch die Aussagekraft der erkennbaren Korrelationen steigt. Dies geht so weit, dass bereits im Jahr 2008 die Idee kursierte, dass die Flut von verwertbaren Daten in der Lage wäre, wissenschaftliche Methoden zu ersetzen. (Anderson, 2008) Diese Sichtweise erklärt die Menge von Daten als Grundlage für klare Erkenntnis und meint, dass die Korrelation höher als Ursachen zu bewerten seien und damit schlüssige Modelle und Theorien überflüssig würden.

Der Mythos Daten ist somit erklärbar geworden. Es gibt allerdings genügend Hinweise darauf, dass die Idee der unbestrittenen Aussagekraft von Daten und den darin zu entdeckenden Korrelationen nicht zielführend sein müssen. In der Auseinandersetzung zu diesem Thema gibt es Untersuchungen, die mittels Anwendung informationstheoretischer Regeln zeigen, dass sehr große Datensammlungen beliebige Korrelationen enthalten müssen, diese Tatsache allerdings nicht zu werthaltigen Aussagen genutzt werden kann, denn die meisten dieser Zusammenhänge stellen sich als falsch heraus. (Vigen, 2015)

Dies bedeutet, dass wissenschaftliche Methoden nicht durch die Auswertung digitaler Daten ersetzt werden können, wenngleich sich mit dem Vorhandensein der Daten eine zusätzliche Möglichkeit zur Unterstützung wissenschaftlicher Erkenntnisse eröffnet.