eBook - ePub

Smart Data Analytics

Name: Smart Data Analytics
Author: Andreas Wierse, Till Riedel

Mit Hilfe von Big Data Zusammenhänge erkennen und Potentiale nutzen

Andreas Wierse,

Till Riedel,

440 Seiten
German
ePUB (handyfreundlich)
Über iOS und Android verfügbar

eBook - ePub

Smart Data Analytics

Mit Hilfe von Big Data Zusammenhänge erkennen und Potentiale nutzen

Andreas Wierse,

Till Riedel,

Angaben zum Buch

Buchvorschau

Inhaltsverzeichnis

Quellenangaben

Über dieses Buch

Wenn in Datenbergen wertvolle Geheimnisse schlummern, aus denen Profit erzielt werden soll, dann geht es um Big Data. Doch wie schöpft man aus »großen Daten« echte Werte, wenn man nicht gerade Google ist? Um aus Unternehmens-, Maschinen- oder Sensordaten einen Ertrag zu erzielen, reicht Big Data-Technologie allein nicht aus. Entscheidend sind die übergeordneten Innovations prozesse: die smarte Analyse von Big Data. Erst durch den kompetenten Einsatz der richtigen Werkzeuge und Techniken werden aus Big Data tatsächlich Smart Data.

Das Praxishandbuch Smart Data Analytics gibt einen Überblick über die Technologie, die bei der Analyse von großen und heterogenen Datenmengen – inklusive Echtzeitdaten – zum Einsatz kommt. Elf Praxisbeispiele zeigen die konkrete Anwendung in kleinen und mittelständischen Unternehmen. So erfahren Sie, wie Sie Ihr Smart Data Analytics-Projekt in Ihrem eigenen Unternehmen vorbereiten und umsetzen können. Das Buch erläutert neben den organisatorischen Aspekten auch die rechtlichen Rahmenbedingungen. Und es zeigt, wie Sie sowohl den Nutzen bewerten können, der aus den Daten gezogen werden soll, als auch den Aufwand, den Sie dafür betreiben müssen. Denn Smart Data steht für mehr als nur die Untersuchung großer Datenmengen: Smart Data Analytics ist der Schlüssel zu einem smarten Umgang mit Ihren Unternehmensdaten und hilft, bislang unentdecktes Potenzial zu entdecken.

Dr. Andreas Wierse

studierte Mathematik und promovierte in den Ingenieurwissenschaften im Bereich Visualisierung, seit 2011 unterstützt er mittelständische Unternehmen rund um Big und Smart Data Technologie.

Dr. Till Riedel

lehrt als Informatiker am KIT und koordiniert im Smart Data Solution Center Baden-Württemberg und Smart Data Innovation Lab Forschung und Innovation auf industriellen Datenschätzen.

Häufig gestellte Fragen

Gehe einfach zum Kontobereich in den Einstellungen und klicke auf „Abo kündigen“ – ganz einfach. Nachdem du gekündigt hast, bleibt deine Mitgliedschaft für den verbleibenden Abozeitraum, den du bereits bezahlt hast, aktiv. Mehr Informationen hier.

Derzeit stehen all unsere auf Mobilgeräte reagierenden ePub-Bücher zum Download über die App zur Verfügung. Die meisten unserer PDFs stehen ebenfalls zum Download bereit; wir arbeiten daran, auch die übrigen PDFs zum Download anzubieten, bei denen dies aktuell noch nicht möglich ist. Weitere Informationen hier.

Mit beiden Aboplänen erhältst du vollen Zugang zur Bibliothek und allen Funktionen von Perlego. Die einzigen Unterschiede bestehen im Preis und dem Abozeitraum: Mit dem Jahresabo sparst du auf 12 Monate gerechnet im Vergleich zum Monatsabo rund 30 %.

Wir sind ein Online-Abodienst für Lehrbücher, bei dem du für weniger als den Preis eines einzelnen Buches pro Monat Zugang zu einer ganzen Online-Bibliothek erhältst. Mit über 1 Million Büchern zu über 1.000 verschiedenen Themen haben wir bestimmt alles, was du brauchst! Weitere Informationen hier.

Achte auf das Symbol zum Vorlesen in deinem nächsten Buch, um zu sehen, ob du es dir auch anhören kannst. Bei diesem Tool wird dir Text laut vorgelesen, wobei der Text beim Vorlesen auch grafisch hervorgehoben wird. Du kannst das Vorlesen jederzeit anhalten, beschleunigen und verlangsamen. Weitere Informationen hier.

Ja, du hast Zugang zu Smart Data Analytics von Andreas Wierse, Till Riedel im PDF- und/oder ePub-Format sowie zu anderen beliebten Büchern aus Technik & Maschinenbau & Maschinenbau Allgemein. Aus unserem Katalog stehen dir über 1 Million Bücher zur Verfügung.

Information

Verlag

De Gruyter Oldenbourg

Jahr

2017

ISBN

9783110461916

Auflage

Thema

Technik & Maschinenbau

Thema

Maschinenbau Allgemein

1Einleitung

In diesem Einleitungskapitel möchten wir Ihnen Lust auf die Smart Data Analytics machen. Ein bisschen Historie, ein interessantes Beispiel, eine kleine Anleitung für das Buch, bevor wir Ihnen ein wenig unseren Hintergrund und die Quelle unserer Erfahrung sowie vieler Informationen in diesem Buch vorstellen.

1.1Ein motivierendes Beispiel

Der Begriff „Big Data“ ist erst seit wenigen Jahren in aller Munde; fast scheint es so, als ginge es bei den (wörtlich übersetzt) großen Daten um ein ganz neues Thema. Das offenbar unaufhaltsame Wachstum der Festplattenkapazitäten, die kontinuierliche Beschleunigung der Datenübertragung und die Allgegenwart des Internets lassen den Eindruck entstehen, dass große Datenmengen etwas ganz Neues sind; ein Problem, das die Generationen vor uns noch gar nicht kannten.

Big Data – ein alter Hut

Aber das stimmt so nicht. Der Umgang mit großen Datenmengen ist nicht erst seit der Verfügbarkeit von Terabyte-Festplatten eine Herausforderung. Lassen Sie uns dazu Matthew Fontaine Maury betrachten, einen Seeoffizier der US-Navy, der im 19. Jahrhundert lebte (siehe Abbildung 1.1). Er diente in den dreißiger Jahren als Seeoffizier, brach sich aber bei einem Sturz die rechte Hüfte und trug eine Knieverletzung davon, die nicht mehr richtig heilte. Aus diesem Grund musste er seinen aktiven Dienst zur See beenden, konnte allerdings bei der Navy bleiben.

Als Matrose hatte er beobachtet, dass Überseekapitäne ihre Beobachtungen über Wetterverhältnisse, gegenläufige Winde, Strömungen und andere Besonderheiten von Wetter und Seegang in ihren Logbüchern verzeichneten. Allerdings wurden diese Informationen praktisch von niemand anderem wahrgenommen und gerieten in Vergessenheit. Als Maury 1842 Direktor des Archivs der Seekarten wurde, fand er dort Unmengen alter Logbücher und Seekarten, die bis ins 18. Jahrhundert zurückreichten und von der Navy zwar nicht entsorgt, aber ohne weitere Verwendung abseits gelagert worden waren. Diese Logbücher nahm er sich vor und untersuchte sie ausführlich.

unbeschriebene Seekarten zur Datenerfassung

Bereits im Jahr 1843 waren die von ihm daraus gewonnen Erkenntnisse so erhellend, dass er einen Artikel schrieb mit dem Titel „Blank Charts on Board Public Cruisers“ (übersetzt in etwa „Unbeschriebene Karten an Bord öffentlicher Kreuzer“). Er schlug vor, dass die unbeschriebenen Seekarten mit Längen- und Breitengraden ausgestattet werden sollten und die Kapitäne auf ihren Fahrten dort nicht nur den täglich zurückgelegten Weg einzeichnen, sondern auch alle weiteren Informationen, die für die Navigation in der befahrenen Route von seefahrerischer Bedeutung waren: Windstärken und -richtungen, Strömungen und mehr. Er machte deutlich, dass kurze Reisezeiten auf See nicht einfach nur auf Glück zurückzuführen sind, sondern dass mithilfe dieser Information der Steuermann jederzeit den besten Weg finden könne.

Abb. 1.1: Lt. Matthew Fontaine Maury, Quelle: wikipedia3

Im Jahr 1847 veröffentlicht er die „Wind and Current Chart of the North Atlantic“, also Karten für Wind und Strömung im Nordatlantik. Diese Veröffentlichung erlaubte es den Kapitänen und Steuerleuten, ihren Weg erheblich besser an die jeweils herrschenden Wind- und Strömungsbedingungen anzupassen und führte zu signifikanten Verkürzungen der Reisezeiten.

ein früher Daten-Analyst

Lieutenant Maury war der Archetyp des Daten-Analysten im 19. Jahrhundert, allerdings unter ganz anderen Bedingungen, als wir sie heute kennen. Er hat sich praktisch durch die gesamten verfügbaren Daten (Logbücher) gewühlt und die darin enthaltenen Informationen sortiert und klassifiziert. Er hat Muster gesucht und gefunden, diese in Beziehung zu Reisezeiten und Orten gesetzt und daraus übergreifende Strukturen abgeleitet. Er hat Regeln definiert, wie diese Datenbasis verbessert werden kann, hat die Art der Information definiert, die dafür benötigt wird (Datenschnittstellen). Und aus diesem Prozess sind Erkenntnisse gewonnen worden, die sich ganz deutlich ökonomisch positiv auswirkten, bis heute.

Zweifellos spielen Daten in der Menschheitsgeschichte schon lange eine sehr wichtige Rolle, man denke nur an die Bibliothek in Alexandria im zweiten vorchristlichen Jahrhundert mit geschätzt rund einer halben Million Schriftrollen. Im Jahr 1944 machte sich Fremont Rider, ein Bibliothekar der Wesleyan University, Gedanken über das Wachstum amerikanischer Bibliotheken: er schätzte, dass sich ihr Umfang etwa alle 16 Jahre verdoppeln würde und dass die Yale Bibliothek im Jahr 2040 etwa 200 Millionen Bände haben müsse, die auf rund 10 Millionen Regalmetern stünden und von 6.000 Bibliotheksmitarbeitern betreut werden müssten. Das sind selbst aus heutiger Perspektive beeindruckende Zahlen. 1961 schätzte Derek Price, dass sich die Zahl der wissenschaftlichen Veröffentlichungen alle 15 Jahre verdoppelt, in einem halben Jahrhundert verzehnfacht; er bezieht sich explizit auf das exponentielle Wachstum des Wissens4.

exponentielles Wachstum des Wissens

Nun ist es allerdings so, dass das Stapeln von Büchern oder wissenschaftlichen Veröffentlichungen bei diesen Dimensionen zwar eine körperlich anstrengende Arbeit sein dürfte, das eigentliche Problem aber ganz woanders liegt: wie finde ich das, was ich suche, am schnellsten? Der Hinweis von Fremont Rider auf die Bibliotheksmitarbeiter zeigt, dass es nicht alleine darum geht, die Bücher irgendwo abzulegen, vielleicht alphabetisch nach dem Autor und dem Titel sortiert. Hier ist bereits die Herausforderung zu erkennen, Struktur in das Ganze zu bringen und die Daten so aufzubereiten, dass die Nutzer (in diesem Fall die Leser) auch gut damit arbeiten können. Und der Hinweis auf das exponentielle Wachstum der wissenschaftlichen Veröffentlichungen bringt uns noch einen entscheidenden Schritt weiter: dieses Wachstum lebt davon, dass Wissen weiterentwickelt, miteinander verknüpft wird.

nicht Daten, sondern Information

Damit wird klar, dass im Zentrum dieses Themas nicht die Daten stehen, sondern Information. Die Bezeichnung Big Data ist schlicht irreführend, denn im Kern besteht das Problem gar nicht darin, dass es viele Daten gibt (die gab es relativ zu den bestehenden Möglichkeiten, damit umzugehen, schon immer). Es geht vielmehr darum, die Information, die in diesen Daten steckt, zu finden und zu nutzen. Das ist es auch, was viele, die sich für Big Data interessieren, eigentlich antreibt: sie haben eine gewisse Menge an Daten und vermuten, dass sich darin Informationen verbergen, die es zu finden gilt, um sie anschließend zum eigenen Vorteil nutzen zu können.

Wir möchten Ihnen das an einem Beispiel deutlich machen, das gleich auch das enorme Potential zeigt, welches sich in dieser Technologie verbirgt und das wir als Nutzer dieser Technologie zu erschließen hoffen. Auch dieses Beispiel, von dem Charles Duhigg Anfang 2012 in der New York Times berichtet5, ist schon etwas älter. Es fällt in eine Zeit, zu der der Begriff Big Data noch nicht geprägt war: Andrew Pole hatte im Jahr 2002 gerade seine Stelle als Statistiker bei der Supermarktkette Target angetreten, als zwei Kollegen aus der Marketing-Abteilung mit einer sehr ungewöhnlichen Frage auf ihn zukamen: „Wenn wir herausfinden wollten, ob eine Kundin schwanger ist, könnten Sie uns dabei helfen? Selbst wenn die Kundin nicht möchte, dass wir es erfahren?“6.

attraktive Zielgruppe

Der Hintergrund für diese eigentlich sehr intime Frage besteht darin, dass werdende und junge Eltern für einen Supermarkt eine attraktive Zielgruppe darstellen, weil man sich eine langanhaltende und damit einträgliche Kundenbeziehung erhofft. Die meisten Kunden haben recht feste Einkaufsgewohnheiten, d.h. sie kaufen verschiedene Produkte immer wieder in denselben Geschäften: das Brot beim Bäcker, frisches Gemüse beim Gemüsehändler, Spielsachen beim Spielwarenhändler, Holz und Werkzeug im Baumarkt, einen MP3-Player im Elektronikmarkt etc.. Zu Target kommen sie nur, wenn es um Dinge geht, die sie mit Target in Verbindung bringen wie z.B. Toilettenpapier oder Socken. Target ist allerdings ein Voll-Sortiment-Supermarkt, die Kunden könnten dort auch Milch, Teddybären oder Gartenstühle kaufen. Aber es ist schwer, diese Botschaft an die Kunden heranzutragen und noch schwerer, ihre Einkaufsgewohnheiten zu ändern.

Im Leben eines Menschen gibt es jedoch einige wenige Phasen, in denen sich Grundlegendes ändert und auch die Einkaufsgewohnheiten beeinflussbar sind; und die Geburt insbesondere des ersten Kindes ist vielleicht der Zeitpunkt, zu dem sich am meisten ändert. Allerdings werden junge Eltern von dem Moment an, in dem das Kind geboren ist und das auch öffentlich bekannt ist, mit Angeboten aller Art überschüttet. Für einen Supermarkt wie Target wäre es also entscheidend, wenn er vorher bereits wüsste, wann ein Kind zur Welt kommen wird; idealerweise im letzten Drittel der Schwangerschaft. Wenn die jungen Eltern erst einmal anfangen, ihre Windeln bei Target zu kaufen, dann ist die Chance sehr groß, dass sie auch viele der anderen Einkäufe dort tätigen, denn die Zeit, die einem ein kleines Kind noch zum Einkaufen lässt, ist in der Regel sehr begrenzt.

Erfassung von Kaufverhalten

Nun war es auch schon im Jahr 2002 üblich, Kundinnen möglichst eindeutig zu identifizieren, um ihr Kaufverhalten erfassen zu können. Target hatte für fast jeden Kunden eine eindeutige „Guest ID“ vergeben und versuchte möglichst alle Kundenaktivitäten vom Bezahlen des Einkaufs über die Teilnahme an Umfragen, Anrufe bei der Hotline oder den Austausch von E-Mails damit zu verknüpfen. Zusätzlich wurden alle verfügbaren Informationen über die Kundin gespeichert: Wohnort, Fahrzeit zum Supermarkt, Familienstand, Kinder, Kreditkarten, geschätztes Einkommen, welche Webseiten besucht werden, etc.. Darüber hinaus konnte Target eine Menge Daten kaufen: Finanz-Score (bei uns: Schufa), Ethnizität, beruflicher Werdegang, Ausbildung, Jahr des Haus(ver)kaufs, Zeitschriften-Abos, Zahl der Autos, etc..

Muster in den Daten erkennen

Alle diese Daten mögen für sich genommen zwar interessant sein, aber sie führen nicht automatisch zu mehr Umsatz. Hier kommen Andrew Pole und seine Kollegen vom Marketing ins Spiel. Ihre Aufgabe bestand nun darin, aus all diesen Daten Muster zu extrahieren, anhand derer sich schwangere Kundinnen identifizieren lassen. Allerdings ist das keine einfache Aufgabe, verglichen damit, den Familien mit Kindern ein paar Wochen vor Weihnachten Werbung für Spielsachen zu schicken. Erleichtert wurde die Arbeit dadurch, dass sich in den Datenbanken Kundinnen identifizieren ließen, die in den letzten Jahren bereits Kinder bekommen hatten. Mit Hilfe statistischer Werkzeuge dauerte es dann nicht lange, bis aus den vorhandenen Einkaufsdaten dieser Mütter Muster extrahiert werden konnten, die sich eindeutig der Schwangerschaftsphase...

Inhaltsverzeichnis

Cover
Titelseite
Impressum
Vorwort der Autoren
Inhalt
1 Einleitung
2 Grundlagen
3 Visualisierung und Interpretation
4 Praxisbeipiele
5 Organisatorische Anforderungen
6 Datenschutz und Schutzrechte
7 Technologie
8 Wirtschaftliche Betrachtung
9 Epilog
Stichwortverzeichnis