1Einleitung
In diesem Einleitungskapitel möchten wir Ihnen Lust auf die Smart Data Analytics machen. Ein bisschen Historie, ein interessantes Beispiel, eine kleine Anleitung für das Buch, bevor wir Ihnen ein wenig unseren Hintergrund und die Quelle unserer Erfahrung sowie vieler Informationen in diesem Buch vorstellen.
1.1Ein motivierendes Beispiel
Der Begriff „Big Data“ ist erst seit wenigen Jahren in aller Munde; fast scheint es so, als ginge es bei den (wörtlich übersetzt) großen Daten um ein ganz neues Thema. Das offenbar unaufhaltsame Wachstum der Festplattenkapazitäten, die kontinuierliche Beschleunigung der Datenübertragung und die Allgegenwart des Internets lassen den Eindruck entstehen, dass große Datenmengen etwas ganz Neues sind; ein Problem, das die Generationen vor uns noch gar nicht kannten.
Aber das stimmt so nicht. Der Umgang mit großen Datenmengen ist nicht erst seit der Verfügbarkeit von Terabyte-Festplatten eine Herausforderung. Lassen Sie uns dazu Matthew Fontaine Maury betrachten, einen Seeoffizier der US-Navy, der im 19. Jahrhundert lebte (siehe Abbildung 1.1). Er diente in den dreißiger Jahren als Seeoffizier, brach sich aber bei einem Sturz die rechte Hüfte und trug eine Knieverletzung davon, die nicht mehr richtig heilte. Aus diesem Grund musste er seinen aktiven Dienst zur See beenden, konnte allerdings bei der Navy bleiben.
Als Matrose hatte er beobachtet, dass Überseekapitäne ihre Beobachtungen über Wetterverhältnisse, gegenläufige Winde, Strömungen und andere Besonderheiten von Wetter und Seegang in ihren Logbüchern verzeichneten. Allerdings wurden diese Informationen praktisch von niemand anderem wahrgenommen und gerieten in Vergessenheit. Als Maury 1842 Direktor des Archivs der Seekarten wurde, fand er dort Unmengen alter Logbücher und Seekarten, die bis ins 18. Jahrhundert zurückreichten und von der Navy zwar nicht entsorgt, aber ohne weitere Verwendung abseits gelagert worden waren. Diese Logbücher nahm er sich vor und untersuchte sie ausführlich.
Bereits im Jahr 1843 waren die von ihm daraus gewonnen Erkenntnisse so erhellend, dass er einen Artikel schrieb mit dem Titel „Blank Charts on Board Public Cruisers“ (übersetzt in etwa „Unbeschriebene Karten an Bord öffentlicher Kreuzer“). Er schlug vor, dass die unbeschriebenen Seekarten mit Längen- und Breitengraden ausgestattet werden sollten und die Kapitäne auf ihren Fahrten dort nicht nur den täglich zurückgelegten Weg einzeichnen, sondern auch alle weiteren Informationen, die für die Navigation in der befahrenen Route von seefahrerischer Bedeutung waren: Windstärken und -richtungen, Strömungen und mehr. Er machte deutlich, dass kurze Reisezeiten auf See nicht einfach nur auf Glück zurückzuführen sind, sondern dass mithilfe dieser Information der Steuermann jederzeit den besten Weg finden könne.
Abb. 1.1: Lt. Matthew Fontaine Maury, Quelle: wikipedia3
Im Jahr 1847 veröffentlicht er die „Wind and Current Chart of the North Atlantic“, also Karten für Wind und Strömung im Nordatlantik. Diese Veröffentlichung erlaubte es den Kapitänen und Steuerleuten, ihren Weg erheblich besser an die jeweils herrschenden Wind- und Strömungsbedingungen anzupassen und führte zu signifikanten Verkürzungen der Reisezeiten.
Lieutenant Maury war der Archetyp des Daten-Analysten im 19. Jahrhundert, allerdings unter ganz anderen Bedingungen, als wir sie heute kennen. Er hat sich praktisch durch die gesamten verfügbaren Daten (Logbücher) gewühlt und die darin enthaltenen Informationen sortiert und klassifiziert. Er hat Muster gesucht und gefunden, diese in Beziehung zu Reisezeiten und Orten gesetzt und daraus übergreifende Strukturen abgeleitet. Er hat Regeln definiert, wie diese Datenbasis verbessert werden kann, hat die Art der Information definiert, die dafür benötigt wird (Datenschnittstellen). Und aus diesem Prozess sind Erkenntnisse gewonnen worden, die sich ganz deutlich ökonomisch positiv auswirkten, bis heute.
Zweifellos spielen Daten in der Menschheitsgeschichte schon lange eine sehr wichtige Rolle, man denke nur an die Bibliothek in Alexandria im zweiten vorchristlichen Jahrhundert mit geschätzt rund einer halben Million Schriftrollen. Im Jahr 1944 machte sich Fremont Rider, ein Bibliothekar der Wesleyan University, Gedanken über das Wachstum amerikanischer Bibliotheken: er schätzte, dass sich ihr Umfang etwa alle 16 Jahre verdoppeln würde und dass die Yale Bibliothek im Jahr 2040 etwa 200 Millionen Bände haben müsse, die auf rund 10 Millionen Regalmetern stünden und von 6.000 Bibliotheksmitarbeitern betreut werden müssten. Das sind selbst aus heutiger Perspektive beeindruckende Zahlen. 1961 schätzte Derek Price, dass sich die Zahl der wissenschaftlichen Veröffentlichungen alle 15 Jahre verdoppelt, in einem halben Jahrhundert verzehnfacht; er bezieht sich explizit auf das exponentielle Wachstum des Wissens4.
Nun ist es allerdings so, dass das Stapeln von Büchern oder wissenschaftlichen Veröffentlichungen bei diesen Dimensionen zwar eine körperlich anstrengende Arbeit sein dürfte, das eigentliche Problem aber ganz woanders liegt: wie finde ich das, was ich suche, am schnellsten? Der Hinweis von Fremont Rider auf die Bibliotheksmitarbeiter zeigt, dass es nicht alleine darum geht, die Bücher irgendwo abzulegen, vielleicht alphabetisch nach dem Autor und dem Titel sortiert. Hier ist bereits die Herausforderung zu erkennen, Struktur in das Ganze zu bringen und die Daten so aufzubereiten, dass die Nutzer (in diesem Fall die Leser) auch gut damit arbeiten können. Und der Hinweis auf das exponentielle Wachstum der wissenschaftlichen Veröffentlichungen bringt uns noch einen entscheidenden Schritt weiter: dieses Wachstum lebt davon, dass Wissen weiterentwickelt, miteinander verknüpft wird.
Damit wird klar, dass im Zentrum dieses Themas nicht die Daten stehen, sondern Information. Die Bezeichnung Big Data ist schlicht irreführend, denn im Kern besteht das Problem gar nicht darin, dass es viele Daten gibt (die gab es relativ zu den bestehenden Möglichkeiten, damit umzugehen, schon immer). Es geht vielmehr darum, die Information, die in diesen Daten steckt, zu finden und zu nutzen. Das ist es auch, was viele, die sich für Big Data interessieren, eigentlich antreibt: sie haben eine gewisse Menge an Daten und vermuten, dass sich darin Informationen verbergen, die es zu finden gilt, um sie anschließend zum eigenen Vorteil nutzen zu können.
Wir möchten Ihnen das an einem Beispiel deutlich machen, das gleich auch das enorme Potential zeigt, welches sich in dieser Technologie verbirgt und das wir als Nutzer dieser Technologie zu erschließen hoffen. Auch dieses Beispiel, von dem Charles Duhigg Anfang 2012 in der New York Times berichtet5, ist schon etwas älter. Es fällt in eine Zeit, zu der der Begriff Big Data noch nicht geprägt war: Andrew Pole hatte im Jahr 2002 gerade seine Stelle als Statistiker bei der Supermarktkette Target angetreten, als zwei Kollegen aus der Marketing-Abteilung mit einer sehr ungewöhnlichen Frage auf ihn zukamen: „Wenn wir herausfinden wollten, ob eine Kundin schwanger ist, könnten Sie uns dabei helfen? Selbst wenn die Kundin nicht möchte, dass wir es erfahren?“6.
Der Hintergrund für diese eigentlich sehr intime Frage besteht darin, dass werdende und junge Eltern für einen Supermarkt eine attraktive Zielgruppe darstellen, weil man sich eine langanhaltende und damit einträgliche Kundenbeziehung erhofft. Die meisten Kunden haben recht feste Einkaufsgewohnheiten, d.h. sie kaufen verschiedene Produkte immer wieder in denselben Geschäften: das Brot beim Bäcker, frisches Gemüse beim Gemüsehändler, Spielsachen beim Spielwarenhändler, Holz und Werkzeug im Baumarkt, einen MP3-Player im Elektronikmarkt etc.. Zu Target kommen sie nur, wenn es um Dinge geht, die sie mit Target in Verbindung bringen wie z.B. Toilettenpapier oder Socken. Target ist allerdings ein Voll-Sortiment-Supermarkt, die Kunden könnten dort auch Milch, Teddybären oder Gartenstühle kaufen. Aber es ist schwer, diese Botschaft an die Kunden heranzutragen und noch schwerer, ihre Einkaufsgewohnheiten zu ändern.
Im Leben eines Menschen gibt es jedoch einige wenige Phasen, in denen sich Grundlegendes ändert und auch die Einkaufsgewohnheiten beeinflussbar sind; und die Geburt insbesondere des ersten Kindes ist vielleicht der Zeitpunkt, zu dem sich am meisten ändert. Allerdings werden junge Eltern von dem Moment an, in dem das Kind geboren ist und das auch öffentlich bekannt ist, mit Angeboten aller Art überschüttet. Für einen Supermarkt wie Target wäre es also entscheidend, wenn er vorher bereits wüsste, wann ein Kind zur Welt kommen wird; idealerweise im letzten Drittel der Schwangerschaft. Wenn die jungen Eltern erst einmal anfangen, ihre Windeln bei Target zu kaufen, dann ist die Chance sehr groß, dass sie auch viele der anderen Einkäufe dort tätigen, denn die Zeit, die einem ein kleines Kind noch zum Einkaufen lässt, ist in der Regel sehr begrenzt.
Nun war es auch schon im Jahr 2002 üblich, Kundinnen möglichst eindeutig zu identifizieren, um ihr Kaufverhalten erfassen zu können. Target hatte für fast jeden Kunden eine eindeutige „Guest ID“ vergeben und versuchte möglichst alle Kundenaktivitäten vom Bezahlen des Einkaufs über die Teilnahme an Umfragen, Anrufe bei der Hotline oder den Austausch von E-Mails damit zu verknüpfen. Zusätzlich wurden alle verfügbaren Informationen über die Kundin gespeichert: Wohnort, Fahrzeit zum Supermarkt, Familienstand, Kinder, Kreditkarten, geschätztes Einkommen, welche Webseiten besucht werden, etc.. Darüber hinaus konnte Target eine Menge Daten kaufen: Finanz-Score (bei uns: Schufa), Ethnizität, beruflicher Werdegang, Ausbildung, Jahr des Haus(ver)kaufs, Zeitschriften-Abos, Zahl der Autos, etc..
Alle diese Daten mögen für sich genommen zwar interessant sein, aber sie führen nicht automatisch zu mehr Umsatz. Hier kommen Andrew Pole und seine Kollegen vom Marketing ins Spiel. Ihre Aufgabe bestand nun darin, aus all diesen Daten Muster zu extrahieren, anhand derer sich schwangere Kundinnen identifizieren lassen. Allerdings ist das keine einfache Aufgabe, verglichen damit, den Familien mit Kindern ein paar Wochen vor Weihnachten Werbung für Spielsachen zu schicken. Erleichtert wurde die Arbeit dadurch, dass sich in den Datenbanken Kundinnen identifizieren ließen, die in den letzten Jahren bereits Kinder bekommen hatten. Mit Hilfe statistischer Werkzeuge dauerte es dann nicht lange, bis aus den vorhandenen Einkaufsdaten dieser Mütter Muster extrahiert werden konnten, die sich eindeutig der Schwangerschaftsphase...