Seit der Etablierung des World Wide Web auf Basis des Internets und dem damit verbundenen Zugang breiter Bevölkerungsschichten zu den im WWW abrufbaren Informationen und Diensten, sind Daten, die mittels der Interaktion mit dem Internet entstehen, zu einer weit genutzten Ressource geworden. Diese sogenannten Social Data rekrutieren sich zum Großteil aus den Nutzungsdaten von Computern, Tablets und Smartphones, sobald mit ihnen über das Netz interagiert wird. Bei der Nutzung von Social Media mittels Likes, Tweets, Kommentaren, Antworten, Weiterleitungen, Betrachten und Uploaden von Videos, Musik und auch E-Mails etc. werden Spuren hinterlassen. Mit jeder Aktion werden im Netz themenrelevante Informationen generiert. Dies betrifft private Interessengebiete, Freundeskreis, Zeit, Ort und Intention der durchgeführten Aktivitäten. Zu diesen Informationen haben sowohl die Plattformen Zugriff, welche genutzte Dienste anbieten, als auch die Provider als Anbieter der technischen Infrastruktur. Zudem gibt es Dienste, die spezielle Analysewerkzeuge für die Nutzung aller im Internet verfügbarer Services anbieten.
Diese Analyseprogramme laufen bei der Nutzung von Social Media, Informationssuche, dem Besuch von Webseiten und anderer Interaktionen im Hintergrund, d.h. für die Mehrzahl der Menschen unsichtbar ab und verwenden dabei Ressourcen auf den Geräten, deren Kommunikationsdaten sie aufzeichnen. Unter anderem auch diese Tatsache hat die Europäische Union dazu veranlasst, im Jahr 2018 die Datenschutz-Grundverordnung (DSGVO) ins Leben zu rufen.
Andererseits werden ebenso technische Verbindungsdaten generiert und aufgezeichnet, die notwendig sind um jede Art von Information und Kommunikation überhaupt zu ermöglichen. Diese mittels sozialer Interaktion, Informationssuche oder Kommunikation generierten technischen Daten sind Machine Data – eine weitere wichtige Quelle für Big Data. Neben den Verbindungsdaten, die bei der Nutzung von Diensten im WWW durch Personen erzeugt werden, fallen unter diese Datenkategorie auch Daten, bei denen es in erster Linie um den Austausch von Verbindungs- und Aktionsdaten zwischen industriellen Maschinen und allen möglichen Sensoren, die digitale Signale aufzeichnen und/oder übermitteln. Damit sind sowohl medizinische Geräte, Smart Meter und in letzten Zeit die unter dem Schlagwort Internet of Things (IoT) zusammengefassten smarten = vernetzten – und deshalb schlau genannten – Geräte gemeint.
Darunter versteht man Sensoren, die Daten bezüglich Verkehrsüberwachung liefern, Wetterstationen, Sicherheits- und Überwachungskameras etc. Der Fantasie und Kreativität der Entwickler sind offensichtlich keine Grenzen gesetzt – manche schwärmen zuweilen auch bereits von den Vorteilen selbstständig bestellender Eiskästen, smarten Staubsaugern und fernsteuerbarer Wohnungs- und Haussysteme etc. für den privaten Bereich. (Eugster, 2017) McKinsey misst dem Einsatz von IoT im industriellen Bereich einen sehr hohen Stellenwert bei, der noch nicht effektiv genug genutzt wird. (McKinsey, 2015)
Die sogenannten Transaktionsdaten sind Quelle der dritten Datenkategorie. Daten, die hauptsächlich im kommerziellen Umfeld generiert werden, sobald es zu Bank- oder Börsengeschäften, zu online Kaufaktivitäten oder zur Bezahlung von Waren mittels Kredit- oder Bankomatkarte kommt. Handelsunternehmen setzen darüber hinaus vermehrt auf den Einsatz sogenannter Bonus-Clubs, die ihren Kunden gegen eine bewusste Personalisierung der Einkaufsgewohnheiten gewisse Vorteile anbieten. Diese Generierung von Daten läuft unter der Bezeichnung Kundenbindungsprogramm.