Die Merkmalskonstruktion, auch Feature Engineering genannt, ist ein entscheidender Arbeitsschritt bei der Datenaufbereitung für das maschinelle Lernen, der die Leistung der Modelle stark beeinflusst. In diesem praxisnahen Buch lernen Sie Techniken, um Merkmale – numerische Repräsentationen eines bestimmten Aspekts von Rohdaten – zu gewinnen und mit maschinellen Lernmodellen nutzbar zu machen. Jedes Kapitel führt Sie durch eine spezifische Aufgabe der Datenanalyse wie etwa die Darstellung von Text- oder Bilddaten. Diese Beispiele veranschaulichen die wichtigsten Prinzipien der Merkmalskonstruktion.Statt diese Prinzipien nur zu beschreiben, legen die Autorinnen Alice Zheng und Amanda Casari im gesamten Buch den Schwerpunkt auf die praktische Anwendung mit Übungen. Das Schlusskapitel vertieft das Gelernte, indem es verschiedene Techniken der Merkmalskonstruktion auf einen realen, strukturierten Datensatz anwendet. In den Beispielen werden Python-Pakete wie numpy, Pandas, scikit-learn und Matplotlib verwendet.Aus dem Inhalt: - Merkmalskonstruktion an numerischen Daten: Filter, Klasseneinteilung, Skalierung, logarithmische und Potenz-Transformationen- Techniken für natürlichen Text: Bag-of-Words-Modelle, n-Gramme und Phrasenerkennung- Frequenzfilterung und Merkmalsskalierung zum Entfernen aussageloser Merkmale- Kodierungstechniken für Kategorievariablen, darunter Merkmals-Hashing und Klassenzählung- Modellgesteuerte Merkmalskonstruktion mit der Hauptkomponentenanalyse- Das Konzept der Modellkombination mit dem k-Means-Algorithmus als Technik zur Merkmalserzeugung- Gewinnung von Bildmerkmalen anhand manueller und Deep-Learning-Techniken

Häufig gestellte Fragen

Gehe einfach zum Kontobereich in den Einstellungen und klicke auf „Abo kündigen“ – ganz einfach. Nachdem du gekündigt hast, bleibt deine Mitgliedschaft für den verbleibenden Abozeitraum, den du bereits bezahlt hast, aktiv. Mehr Informationen hier.

Derzeit stehen all unsere auf Mobilgeräte reagierenden ePub-Bücher zum Download über die App zur Verfügung. Die meisten unserer PDFs stehen ebenfalls zum Download bereit; wir arbeiten daran, auch die übrigen PDFs zum Download anzubieten, bei denen dies aktuell noch nicht möglich ist. Weitere Informationen hier.

Mit beiden Aboplänen erhältst du vollen Zugang zur Bibliothek und allen Funktionen von Perlego. Die einzigen Unterschiede bestehen im Preis und dem Abozeitraum: Mit dem Jahresabo sparst du auf 12 Monate gerechnet im Vergleich zum Monatsabo rund 30 %.

Wir sind ein Online-Abodienst für Lehrbücher, bei dem du für weniger als den Preis eines einzelnen Buches pro Monat Zugang zu einer ganzen Online-Bibliothek erhältst. Mit über 1 Million Büchern zu über 1.000 verschiedenen Themen haben wir bestimmt alles, was du brauchst! Weitere Informationen hier.

Achte auf das Symbol zum Vorlesen in deinem nächsten Buch, um zu sehen, ob du es dir auch anhören kannst. Bei diesem Tool wird dir Text laut vorgelesen, wobei der Text beim Vorlesen auch grafisch hervorgehoben wird. Du kannst das Vorlesen jederzeit anhalten, beschleunigen und verlangsamen. Weitere Informationen hier.

Ja, du hast Zugang zu Animals von Alice Zheng,Amanda Casari, Thomas Lotze im PDF- und/oder ePub-Format sowie zu anderen beliebten Büchern aus Computer Science & Data Mining. Aus unserem Katalog stehen dir über 1 Million Bücher zur Verfügung.

Information

Verlag

O'Reilly

Jahr

2019

ISBN

9783960102502

Thema

Computer Science

Thema

Data Mining

KAPITEL 1

Die Machine-Learning-Pipeline

Bevor wir uns mit Merkmalskonstruktion beschäftigen, wollen wir uns die Machine-Learning-Pipeline als Ganzes anschauen, um unseren Platz im Gesamtsystem zu finden. Zu diesem Zweck betrachten wir zunächst Grundbegriffe wie Daten und Modelle.

Daten

Als Daten bezeichnen wir Beobachtungen realer Phänomene. So können Daten von Aktienmärkten Beobachtungen der täglichen Aktienpreise, Gewinnankündigungen einzelner Firmen und sogar Meinungsartikel von Fachleuten umfassen. Persönliche biometrische Daten wären unter anderem minütliche Messungen von Pulsfrequenz, Blutzuckerspiegel, Blutdruck usw., und Daten zur Kundenanalyse sind beispielsweise Aussagen wie »Alice hat am Sonntag zwei Bücher gekauft«, »Bob hat diese Seiten der Website angesehen« und »Charlie hat auf den Link zum Sonderangebot aus der letzten Woche geklickt«. Wir könnten endlos Beispiele aus ganz unterschiedlichen Anwendungsgebieten finden.

Jedes Einzelteil dieser Daten gewährt Einblick in einen kleinen Aspekt der Wirklichkeit. Die Gesamtheit aller dieser Beobachtungen liefert uns ein Bild des Ganzen. Aber das Bild ist chaotisch, weil es aus Tausenden kleinen Teilen zusammengesetzt ist und wir es immer mit Messrauschen und fehlenden Teilen zu tun haben.

Aufgaben

Warum sammeln wir Daten? Es gibt Fragen, die wir mithilfe von Daten beantworten können – Fragen wie »In welche Aktien sollte ich investieren?« oder »Wie kann ich gesünder leben?« oder »Wie kann ich den wechselnden Geschmack meiner Kunden verstehen, damit ich sie besser bedienen kann?«.

Der Pfad von Daten zu Antworten ist gespickt mit falschen Fährten und Sackgassen (siehe Abbildung 1-1). So mancher vielversprechende Ansatz wird nicht aufgehen, während ein vages Bauchgefühl zur besten Lösung führen kann. Die Arbeit mit Daten ist oftmals ein mehrstufiger, iterativer Prozess. Aktienpreise werden beispielsweise an der Börse beobachtet, in einer Datenbank gespeichert, von einer Firma gekauft, in einen Hive-Store auf einem Hadoop-Cluster umgewandelt, von einem Skript aus dem Store geholt, von einem anderen Skript ausgedünnt, aufbereitet und bereinigt, in eine Datei geschrieben und in ein Format überführt, das Sie mit der Modellierungsbibliothek Ihrer Wahl in R, Python oder Scala ausprobieren können. Die Vorhersagen werden dann wiederum in eine CSV-Datei geschrieben und von einem Auswertungsprogramm gelesen. Das Modell durchläuft mehrere Iterationen, wird von Ihrer Produktionsabteilung in C++ oder Java neu geschrieben und auf der gesamten Datenmenge laufen gelassen, bevor die fertigen Vorhersagen in eine weitere Datenbank gefüllt werden.

Abbildung 1-1: Der Garten der verschlungenen Pfade von Daten zu Antworten

Wenn wir jedoch das Chaos der Werkzeuge und Systeme für einen Moment ausblenden, können wir erkennen, dass an dem Vorgang zwei mathematische Größen beteiligt sind, die das tägliche Brot des maschinellen Lernens darstellen: Modelle und Merkmale.

Modelle

Zu versuchen, die Welt durch Daten zu verstehen, ist so, als wolle man die Wirklichkeit aus einem verrauschten, unvollständigen Puzzle mit ein paar überschüssigen Teilen zusammensetzen. Hier kommt die mathematische – insbesondere die statistische – Modellierung ins Spiel. Die Sprache der Statistik kennt Begriffe für viele häufig auftretende Eigenschaften von Daten, darunter falsch, redundant und fehlend. Falsche Daten ergeben sich aus Messfehlern, redundante Daten enthalten ein und dieselbe Information mehrfach: So kann ein Wochentag als kategoriale Variable mit den Ausprägungen »Montag«, »Dienstag«, …, »Sonntag« und zugleich noch einmal als ganze Zahl zwischen 0 und 6 vorliegen. Ist diese Information über den Wochentag für einige Datenpunkte nicht vorhanden, haben wir es wiederum mit fehlenden Daten zu tun.

Ein mathematisches Modell von Daten beschreibt die Beziehungen zwischen verschiedenen Aspekten der Daten. Beispielsweise könnte ein Modell, das Aktienpreise vorhersagt, aus einer Formel bestehen, die die bisherigen Gewinne einer Firma, frühere Aktienpreise und die Branche auf die Vorhersage für den Aktienpreis abbildet. Ein Modell für Musikempfehlungen könnte anhand der Hörgewohnheiten von Anwendern eine Ähnlichkeit zwischen ihnen messen und denjenigen, die sich viele ähnliche Titel angehört haben, dieselben Künstler empfehlen.

Mathematische Formeln stellen Beziehungen zwischen numerischen Größen her. Aber Rohdaten sind oft nicht numerisch. (Die Aussage »Alice kaufte am Mittwoch die Trilogie Der Herr der Ringe« ist ebenso wenig numerisch wie die Buchbesprechung, die sie später schreibt.) Es muss also etwas geben, das die beiden Welten verbindet. An dieser Stelle kommen Merkmale ins Spiel.

Merkmale

Ein Merkmal ist eine numerische Darstellung von Rohdaten. Man kann Rohdaten auf vielerlei Weise in numerische Messungen verwandeln, weshalb Merkmale alles Mögliche sein können. Natürlich müssen sich Merkmale aus den vorhandenen Daten ableiten lassen. Weniger offensichtlich ist vielleicht, dass sie auch ans Modell gebunden sind; manche Modelle eignen sich besser für bestimmte Arten von Merkmalen und umgekehrt. Die richtigen Merkmale zeichnen sich dadurch aus, dass sie relevant für die zu lösende Aufgabe und leicht in das Modell einzuspeisen sind. Merkmalskonstruktion ist der Vorgang, diejenigen Merkmale zu formulieren, die sich für die gegebenen Daten, das Modell und die zu lösende Aufgabe am besten eignen.

Die Anzahl der Merkmale ist ebenfalls von Bedeutung. Ohne ausreichend viele aussagekräftige Merkmale wird das Modell die gestellte Aufgabe nicht bewältigen. Hat man zu viele oder größtenteils irrelevante Merkmale, wird es aufwendiger und schwieriger sein, das Modell anzulernen, und beim Anlernen könnte irgendetwas schiefgehen, sodass das Modell an Leistungsfähigkeit verliert.

Modellbewertung

Merkmale und Modelle sind das Bindeglied zwischen Rohdaten und gesuchten Erkenntnissen (siehe Abbildung 1-2). Zum Arbeitsablauf beim maschinellen Lernen gehört es, nicht nur das Modell, sondern auch die Merkmale auszuwählen. Das ist ein Balanceakt: Beides beeinflusst einander. Gute Merkmale vereinfachen den nachfolgenden Modellierungsschritt und sorgen dafür, dass das daraus entstehende Modell die gewünschte Aufgabe besser erfüllen kann. Schlecht gewählte Merkmale erfordern ein viel komplizierteres Modell, um dasselbe Ergebnis zu erreichen. Im Rest dieses Buchs besprechen wir verschiedene Arten von Merkmalen und diskutieren ihre Vor- und Nachteile in Bezug auf die unterschiedlichen Arten von Daten und Modellen. Fangen wir also ohne Umschweife an!

Abbildung 1-2: Der Platz der Merkmalskonstruktion im Arbeitsablauf beim maschinellen Lernen

KAPITEL 2

Tricksereien mit einfachen Zahlen

Bevor wir in die Welt komplexer Datentypen wie Text und Bilder eintauchen, wollen wir mit dem Einfachsten beginnen: mit numerischen Daten. Diese können aus vielfältigen Quellen stammen: geografische Orte eines Gebäudes oder einer Person, Einkaufspreise, Messungen eines Sensors, Verkehrszählungen usw. Numerische Daten liegen bereits in einer Form vor, die sich leicht in mathematische Modelle einspeisen lässt. Das macht die Merkmalskonstruktion jedoch keineswegs überflüssig: Gute Merkmale sollten nicht nur aussagekräftige Aspekte der Daten wiedergeben, sondern auch zu den Annahmen des Modells passen. Daher sind oftmals noch Transformationen notwendig. Numerische Verfahren der Merkmalskonstruktion sind etwas Grundlegendes; sie finden immer dann Anwendung, wenn Daten in numerische Merkmale umgeformt werden.

Die erste Frage bei einer Plausibilitätsprüfung für numerische Daten betrifft ihre Größe. Müssen wir lediglich wissen, ob sie positiv oder negativ sind? Oder interessiert uns vielleicht nur ...

Inhaltsverzeichnis

Cover
Titel
Impressum
Inhalt
Vorwort
1 Die Machine-Learning-Pipeline
2 Tricksereien mit einfachen Zahlen
3 Textdaten: Einebnen, Filtern und Wortgruppensuche
4 Auswirkungen der Merkmalsskalierung: von Bag-of-Words zu TF-IDF
5 Kategoriale Variablen: Eier zählen im Roboterzeitalter
6 Dimensionsreduktion: Mit dem Hauptkomponentenverfahren die Datenwolke flach drücken
7 Nichtlineare Merkmalsgewinnung mittels k-Means-Modellstapelung
8 Automatisierte Merkmalsgewinnung: Bildmerkmale und Deep Learning
9 Die fabelhafte Welt der Merkmale: ein Empfehlungsalgorithmus für akademische Aufsätze
Anhang: Lineare Modellierung und Grundlagen der linearen Algebra
Fußnoten
Index
Über den Autor
Über den Übersetzer
Kolophon