Data Science : fondamentaux et études de cas
eBook - ePub

Data Science : fondamentaux et études de cas

Machine Learning avec Python et R

  1. 296 pages
  2. French
  3. ePUB (adapté aux mobiles)
  4. Disponible sur iOS et Android
eBook - ePub

Data Science : fondamentaux et études de cas

Machine Learning avec Python et R

Détails du livre
Aperçu du livre
Table des matières
Citations

À propos de ce livre

Nous vivons une époque très excitante, qui ramène l'analyse de données et les méthodes quantitatives au coeur de la société. L'aboutissement de nombreux projets de recherche, la puissance de calcul informatique disponible et des données à profusion permettent aujourd'hui d'incroyables réalisations, grâce au travail des data scientists.

Un livre de référence pour les data scientists

La data science est l'art de traduire des problèmes industriels, sociaux, scientifiques, ou de toute autre nature, en problèmes de modélisation quantitative, pouvant être résolus par des algorithmes de traitement de données. Cela passe par une réflexion structurée, devant faire en sorte que se rencontrent problèmes humains, outils techniques/informatiques et méthodes statistiques/algorithmiques. Chaque projet de data science est une petite aventure, qui nécessite de partir d'un problème opérationnel souvent flou, à une réponse formelle et précise, qui aura des conséquences réelles sur le quotidien d'un nombre plus ou moins important de personnes.

Éric Biernat et Michel Lutz proposent de vous guider dans cette aventure. Ils vous feront visiter les vastes espaces de la data science moderne, de plus en plus présente dans notre société et qui fait tant parler d'elle, parfois par l'intermédiaire d'un sujet qui lui est corollaire, les big data.

Des études de cas pour devenir kaggle master

Loin des grands discours abstraits, les auteurs vous feront découvrir, claviers à la main, les pratiques de leur métier de data scientist chez OCTO Technology, l'un des leaders français du domaine. Et vous mettrez également la main à la pâte: avec juste ce qu'il faut de théorie pour comprendre ce qu'impliquent les méthodes mathématiques utilisées, mais surtout avec votre ordinateur personnel, quelques logiciels gratuits et puissants, ainsi qu'un peu de réflexion, vous allez participer activement à cette passionnante exploration!

À qui s'adresse cet ouvrage?

Aux développeurs, statisticiens, étudiants et chefs de projets ayant à résoudre des problèmes de data science.

Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art du machine learning.

Foire aux questions

Il vous suffit de vous rendre dans la section compte dans paramètres et de cliquer sur « Résilier l’abonnement ». C’est aussi simple que cela ! Une fois que vous aurez résilié votre abonnement, il restera actif pour le reste de la période pour laquelle vous avez payé. Découvrez-en plus ici.
Pour le moment, tous nos livres en format ePub adaptés aux mobiles peuvent être téléchargés via l’application. La plupart de nos PDF sont également disponibles en téléchargement et les autres seront téléchargeables très prochainement. Découvrez-en plus ici.
Les deux abonnements vous donnent un accès complet à la bibliothèque et à toutes les fonctionnalités de Perlego. Les seules différences sont les tarifs ainsi que la période d’abonnement : avec l’abonnement annuel, vous économiserez environ 30 % par rapport à 12 mois d’abonnement mensuel.
Nous sommes un service d’abonnement à des ouvrages universitaires en ligne, où vous pouvez accéder à toute une bibliothèque pour un prix inférieur à celui d’un seul livre par mois. Avec plus d’un million de livres sur plus de 1 000 sujets, nous avons ce qu’il vous faut ! Découvrez-en plus ici.
Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l’écouter. L’outil Écouter lit le texte à haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l’accélérer ou le ralentir. Découvrez-en plus ici.
Oui, vous pouvez accéder à Data Science : fondamentaux et études de cas par Michel Lutz, Eric Biernat en format PDF et/ou ePUB ainsi qu’à d’autres livres populaires dans Informatique et Modélisation et conception de données. Nous disposons de plus d’un million d’ouvrages à découvrir dans notre catalogue.

Informations

Éditeur
Eyrolles
Année
2015
ISBN
9782212315332

TROISIÈME PARTIE

La data science en pratique : au-delà des algorithmes

Sous-partie 1

Quelques concepts généraux

14

Évaluer un modèle

Introduction

Si vous avez lu la partie précédente, vous savez désormais comment construire de beaux modèles de machine learning. Vous l’avez vu, ce n’est pas si difficile et vous vous sentez certainement prêt à aller en découdre sur l’un des challenges Kaggle en cours. Mais attention, prenez encore quelques instants pour lire ce qui suit afin d’éviter de tomber dans l’un des pièges classiques du débutant. Souvenez-vous d’un phénomène que nous avons évoqué précédemment, notamment lorsque nous avons parlé de la régression polynomiale : l’overfitting.
En effet, il est souvent très facile de construire un modèle qui restitue très bien les données utilisées pour son estimation. Il est néanmoins bien plus difficile de faire en sorte que ce modèle puisse se généraliser, c’est-à-dire qu’il soit capable de prédire de façon satisfaisante de nouvelles observations, non utilisées lors du calcul du modèle. Pour trouver un juste équilibre entre apprentissage du modèle et capacité prédictive, il est indispensable de mettre en place un dispositif qui permette d’évaluer globalement la qualité d’un modèle.
La présentation de ce dispositif est l’objet de ce chapitre, composé de deux parties. La première introduit la notion de validation croisée, qui est un dispositif d’évaluation d’un modèle ; la seconde présente un ensemble d’indicateurs (aussi appelés métriques de performance) que vous pourrez utiliser pour mesurer effectivement la qualité de vos modèles.

La validation croisée

De la nécessité de diviser vos données

À partir d’un jeu de données initial, que feriez-vous pour à la fois constituer un modèle et tester sa capacité prédictive sur des données non utilisées pour la modélisation (sans attendre de nouvelles observations, bien sûr !) ? La première réponse qui vient à l’esprit est assez évidente : diviser les données en deux groupes. L’un des groupes est utilisé pour la modélisation, l’autre est utilisé pour effectuer une prévision sur des données « fraîches ». C’est effectivement l’approche de base que l’on peut adopter. On crée un échantillon d’entraînement, sur lequel on va constituer le modèle, et un échantillon de test, sur lequel on va tester le modèle. Pour évaluer la qualité du modèle et de sa performance en prévision, on utilise une métrique de performance P (nous en reparlerons dans la deuxième partie de ce chapitre). Bien évidemment, on se doute que Ptest sera inférieur à Pentraînement. En pratique, on a l’habitude de prendre 70 % des données pour l’échantillon d’entraînement (appelons-le mentraînement) et 30 % des données pour l’échantillon de test (mtest).
Voilà pour l’approche de base… Mais si on allait plus loin ? En effet, on pourrait avoir envie d’utiliser cette séparation des données pour faire le meilleur modèle possible. On pourrait ainsi essayer différents choix de variables, plusieurs paramétrages d’un modèle (rappelez-vous les différentes manières de customiser les modèles) sur mentraînement et voir lequel performe le mieux sur mtest. C’est une idée effectivement perspicace, puisqu’elle nous permettrait de trouver celui, parmi tous les possibles, qui va maximiser Ptest (car c’est généralement ça que l’on attend d’un modèle). De plus, comme l’indique Hyndman dans son blog1, c’est une approche pragmatique pour choisir un modèle : efficace, concrète, et bien plus simple que l’emploi de tests statistiques de comparaison de modèles.
Néanmoins, pourrait-on alors dire à juste titre qu’on a bien testé que le modèle se généralise bien ? Pas vraiment, puisqu’il aurait été choisi de façon à maximiser la qualité de prévision sur mtest, donc il ne serait plus complètement vrai d’affirmer qu’il a été testé sur des données toutes fraîches et innocentes !
Pour sortir de ce dilemme, le data scientist choisit généralement de diviser ses données en trois :
• un jeu d’entraînement, bien sûr (mentraînement) ;
• un jeu dit de validation (mvalidation) : celui-ci va être utilisé pour tester les différents modèles paramétrés sur mentraînement (il remplace le mtest précédent) ;
• et un vrai jeu de test (mtest), qu’on garde de côté et qui ne sera utilisé que tout à la fin du processus de modélisation, afin de tester le plus honnêtement possible la capacité de généralisation du modèle retenu.
La qualité de l’ajustement ou de la prévision est calculée pour chacun des jeux de données, à partir de la métrique P retenue. En pratique, on prend souvent 60 % des données pour mentraînement, 20 % pour mvalidation et 20 % pour mtest. Ces principes sont résumés dans la figure 14-1.
images
Figure 14-1 – Les notions de jeux d’entraînement, de validation, de test
Comme l’explique Hyndman dans son blog déjà cité, ces questions de séparation des données préoccupent plus les praticiens du machine learning que les statisticiens plus traditionnels. Cela peut s’entrendre : l’objectif du statisticien est avant tout de comprendre les processus stochastiques à l’œuvre dans les données, en essayant de contrôler les effets des variables du modèle. En machine learning, on se préoccupe moins de ces questions que de la capacité du modèle à faire la meilleure prédiction possible sur de nouvelles données, quitte à utiliser un modèle boîte noire.
La mécanique de la validation peut sembler bien évidente, pour ne pas dire basique : on coupe le jeu de données en trois paquets de données pour entraîner, valider et tester. En réalité, il existe beaucoup d’alternatives permettant de sophistiquer cette approche : on parle alors de validation croisée.

La validation croisée

Les questions liées à la validation d’un modèle peuvent vite devenir très complexes. Nous n’en aborderons quelques techniques que très superficiellement ici. Notre objectif est avant tout de vous faire comprendre que cette étape est très importante pour la bonne résolution d’un problème d’analyse de données. Il est donc nécessaire de lui consacre...

Table des matières

  1. Couverture
  2. Le résumé et la biographie auteur
  3. Page de titre
  4. Copyright
  5. Préface
  6. Table des matières
  7. Avant-propos
  8. Première partie : Le B.A.-ba du data scientist
  9. Deuxième partie : Les algorithmes et leurs usages : visite guidée
  10. Troisième partie : La data science en pratique : au-delà des algorithmes
  11. Conclusion générale
  12. Index