Il tradimento dei numeri
eBook - ePub

Il tradimento dei numeri

I dark data e l'arte di nascondere la verità

  1. 368 pagine
  2. Italian
  3. ePUB (disponibile sull'app)
  4. Disponibile su iOS e Android
eBook - ePub

Il tradimento dei numeri

I dark data e l'arte di nascondere la verità

Dettagli del libro
Anteprima del libro
Indice dei contenuti
Citazioni

Informazioni sul libro

Chiunque si occupi di raccolta e analisi dei dati lo sa bene, o almeno dovrebbe: le informazioni che non conosciamo possono essere altrettanto importanti di quelle che abbiamo a disposizione. Ha senso affermare che un prodotto è efficace perché ha solo recensioni favorevoli? Ed è davvero possibile prevedere il buon esito di un trattamento medico sulla base di un campione che, per quanto ampio, non corrisponde alla totalità dei casi? Considerazioni analoghe si possono applicare alla nostra vita di tutti i giorni: perché invidiare una persona per i successi messi in mostra sui social network, quando i suoi fallimenti ci vengono opportunamente nascosti? In un'epoca dominata dai big data, conviene prestare maggiore attenzione al rovescio della medaglia, ovvero ai dati che sappiamo di non avere o - peggio ancora - che crediamo erroneamente di possedere. Simili alla materia oscura che elude le rilevazioni dei cosmologi, idark datainfluenzano ogni campo di studio e di lavoro, dalla ricerca medica all'industria, dalle politiche pubbliche e sociali al settore finanziario, e sono molto più numerosi di quanto pensiamo. Sottostimarli è dunque un grave rischio, che può portare a costruire modelli fuorvianti e inesatti, con conseguenze talvolta catastrofiche. Al contrario, smascherare questi numeri «traditori» e imparare a gestire i problemi che essi provocano può portare vantaggi nella nostra sfera professionale e in quella personale. I dark data ci insegnano, infatti, a capovolgere il modo di considerare l'analisi dei dati, facendoci comprendere più a fondo l'universo dell'informazione e ad affrontare l'imprevedibilein maniera più consapevole e ponderata.

Domande frequenti

È semplicissimo: basta accedere alla sezione Account nelle Impostazioni e cliccare su "Annulla abbonamento". Dopo la cancellazione, l'abbonamento rimarrà attivo per il periodo rimanente già pagato. Per maggiori informazioni, clicca qui
Al momento è possibile scaricare tramite l'app tutti i nostri libri ePub mobile-friendly. Anche la maggior parte dei nostri PDF è scaricabile e stiamo lavorando per rendere disponibile quanto prima il download di tutti gli altri file. Per maggiori informazioni, clicca qui
Entrambi i piani ti danno accesso illimitato alla libreria e a tutte le funzionalità di Perlego. Le uniche differenze sono il prezzo e il periodo di abbonamento: con il piano annuale risparmierai circa il 30% rispetto a 12 rate con quello mensile.
Perlego è un servizio di abbonamento a testi accademici, che ti permette di accedere a un'intera libreria online a un prezzo inferiore rispetto a quello che pagheresti per acquistare un singolo libro al mese. Con oltre 1 milione di testi suddivisi in più di 1.000 categorie, troverai sicuramente ciò che fa per te! Per maggiori informazioni, clicca qui.
Cerca l'icona Sintesi vocale nel prossimo libro che leggerai per verificare se è possibile riprodurre l'audio. Questo strumento permette di leggere il testo a voce alta, evidenziandolo man mano che la lettura procede. Puoi aumentare o diminuire la velocità della sintesi vocale, oppure sospendere la riproduzione. Per maggiori informazioni, clicca qui.
Sì, puoi accedere a Il tradimento dei numeri di David J. Hand in formato PDF e/o ePub, così come ad altri libri molto apprezzati nelle sezioni relative a Mathematics e Mathematics General. Scopri oltre 1 milione di libri disponibili nel nostro catalogo.

Informazioni

Editore
RIZZOLI
Anno
2019
ISBN
9788858698686
I

DARK DATA: ORIGINI E CONSEGUENZE

1

Dark data

Ciò che non vediamo plasma il nostro mondo

Il fantasma dei dati

Per iniziare, una barzelletta.
L’altro giorno, mentre camminavo per strada, mi sono imbattuto in un uomo anziano che disponeva dei mucchietti di polvere lungo il centro della carreggiata, a intervalli di una quindicina di metri. Gli ho chiesto che cosa stesse facendo. «È una polvere per gli elefanti» mi ha risposto. «Serve a tenerli lontani, perché non la possono sopportare.»
«Ma qui non ci sono elefanti» ho replicato.
«Esatto!» ha esultato. «Vede, funziona che è una meraviglia!»
E ora passiamo a qualcosa di molto più serio.
Il morbillo uccide quasi un milione di persone all’anno. Un contagiato su 500 muore in seguito a complicazioni, e altri subiscono una perdita permanente dell’udito o danni cerebrali. Negli Stati Uniti, per fortuna, i casi sono rari: nel 1999, per esempio, ne sono stati registrati soltanto 99. Tuttavia, nel gennaio 2019 un’epidemia di morbillo ha spinto lo Stato di Washington a dichiarare l’emergenza, e altri Stati hanno riferito un drastico aumento del numero di casi.1 Una tendenza simile è stata riscontrata anche altrove. Verso la metà di febbraio del 2019, lo scoppio di un’epidemia in Ucraina ha portato a più di 21.000 casi.2 In Europa ci sono stati 25.863 casi nel 2017, saliti a più di 82.000 nel 2018.3 Dal 1° gennaio 2016 alla fine di marzo del 2017, in Romania sono stati registrati più di 4000 casi di morbillo, con 18 decessi.
Il morbillo è una malattia particolarmente pericolosa in quanto è in grado di diffondersi senza essere individuata: i sintomi, infatti, diventano evidenti solo qualche settimana dopo che è stata contratta. E dato che riesce a sfuggire ai radar, ci si ritrova contagiati prima ancora di sapere che è in circolazione.
Tuttavia, si tratta di una malattia che può anche essere prevenuta: una semplice vaccinazione è in grado di immunizzarvi dal rischio di contrarre il morbillo. E, di fatto, i programmi nazionali di immunizzazione come quello portato avanti negli Stati Uniti hanno avuto un enorme successo, al punto che la maggior parte dei genitori dei Paesi in cui vengono attuati non hanno mai visto o sperimentato le terribili conseguenze di queste malattie prevenibili.
Di conseguenza, quando i genitori si sentono suggerire di far vaccinare i loro figli contro una malattia che non hanno mai visto e che non ha mai colpito nessuno dei loro amici o vicini – una malattia che, secondo quanto avevano dichiarato i Centri per il controllo e la prevenzione delle malattie (CDCP), non era più endemica negli Stati Uniti – è naturale che prendano quel consiglio cum grano salis.
Vaccinarsi contro qualcosa che non c’è? È come usare la polvere per gli elefanti.
Tranne che, a differenza degli elefanti, i rischi ci sono ancora, reali come sempre. A mancare sono solo le informazioni e i dati che servirebbero a quei genitori per prendere le loro decisioni, con la conseguenza che i rischi sono diventati invisibili.
Il termine generale che uso per indicare i vari tipi di dati mancanti è dark data. I dark data sono per noi invisibili, e ciò significa che siamo a rischio di cadere in fraintendimenti, di trarre conclusioni scorrette e di prendere decisioni avventate; in breve, la nostra ignoranza ci porta a sbagliare.
L’espressione «dark data» nasce per analogia con la dark matter («materia oscura») della fisica. Circa il 27 per cento dell’universo consiste di questa misteriosa sostanza, che non interagisce con la luce o con le altre forme di radiazione elettromagnetica e non può quindi essere osservata. Dato che la materia oscura non può essere vista, gli astronomi sono stati per lungo tempo ignari della sua esistenza. Poi, però, le osservazioni e le misurazioni della rotazione delle galassie ci hanno rivelato che le stelle più distanti dal centro non si stavano muovendo più lentamente di quelle più vicine, in contraddizione con ciò che ci saremmo aspettati in base alle nostre conoscenze riguardo alla gravità. Questa anomalia rotazionale può essere spiegata supponendo che le galassie abbiano più massa di quanto risulterebbe considerando soltanto le stelle e gli altri oggetti che possiamo vedere attraverso i nostri telescopi. Dato che non possiamo vedere questa massa aggiuntiva, l’abbiamo chiamata «materia oscura». E non si tratta di qualcosa di poco conto: secondo le stime, nella nostra galassia – la Via Lattea – la quantità di materia oscura supera di circa dieci volte quella di materia ordinaria.
I dark data si comportano in modo analogo alla materia oscura: noi non li vediamo, la loro presenza non viene registrata, eppure possono avere un grande effetto sulle nostre conclusioni, le nostre decisioni e le nostre azioni. E come mostreranno alcuni dei prossimi esempi, se non siamo consapevoli della possibilità che là fuori ci sia qualcosa di ignoto che se ne resta nascosto, le conseguenze possono essere disastrose o persino fatali.
Lo scopo di questo libro è quello di esplorare come e perché emergono i dark data. Prenderemo in considerazione tre tipi differenti di dark data ed esamineremo da dove hanno origine. Vedremo innanzitutto quali misure possiamo adottare per evitare a priori l’emergere dei dark data; quindi, che cosa possiamo fare quando ci rendiamo conto che i dark data ci sono nascosti; e infine in che modo a volte, se siamo abbastanza intelligenti, possiamo trarre vantaggio dai dark data. Per quanto ciò possa sembrare curioso e paradossale, possiamo servirci dell’ignoranza e della prospettiva dei dark data per decidere e agire meglio; in termini pratici, ciò significa che, attraverso un uso giudizioso dell’ignoto, possiamo condurre vite più sane, guadagnare più soldi e assumerci rischi minori. Ciò non vuol dire che dovremmo nascondere le informazioni agli altri (anche se, come vedremo, i dati deliberatamente nascosti sono un tipo comune di dark data): è qualcosa di molto più sottile, e tutti possono trarne beneficio.
I dark data vengono a emergere in molte forme e aspetti differenti, oltre che per molte ragioni diverse, e questo libro introduce una tassonomia di tali ragioni, i tipi di dark data, indicandoli come DD-Tipo x («Dark data di tipo x»). In tutto ci sono quindici DD-Tipi, ma la mia tassonomia non pretende di essere esaustiva; del resto, data la ricchezza di ragioni per cui possono emergere i dark data, ciò sarebbe probabilmente impossibile. Inoltre, ogni particolare esempio di dark data potrebbe benissimo servire per illustrare, allo stesso tempo, l’effetto di più di un tipo di dark data: i DD-Tipi, infatti, possono lavorare assieme e possono anche combinarsi in un’infelice sinergia. Ciononostante, la consapevolezza dell’esistenza di questi DD-Tipi e l’esame degli esempi che mostrano come i dark data si manifestano possono aiutarci a cogliere il momento in cui i problemi si verificano e a proteggerci dai loro pericoli. Elencherò i DD-Tipi alla fine di questo capitolo, ordinandoli grossomodo in base alle loro somiglianze, e li descriverò più dettagliatamente nel capitolo 10. Nel corso del libro ho indicato alcuni dei punti dove entra in gioco un particolare tipo di dark data; tuttavia, ho scelto deliberatamente di non cercare di farlo in un modo esaustivo, in quanto sarebbe risultato piuttosto pesante.
Partiamo con un nuovo esempio.
In medicina, un trauma è una grave lesione con possibili conseguenze rilevanti a lungo termine. È una delle cause più serie della «perdita di anni di vita» per morte prematura e invalidità, ed è la causa di morte più comune per le persone con meno di quarant’anni. Il database della Rete per la ricerca e la valutazione dei traumi (o TARN, dall’inglese Trauma Audit and Research Network) è la più grande banca dati europea sui traumi medici: riceve i dati relativi a questi eventi da più di duecento ospedali, tra cui più del 93 per cento degli ospedali inglesi e gallesi e altre cliniche dell’Irlanda, dei Paesi Bassi e della Svizzera. Si tratta senza dubbio di una ricchissima miniera di dati per lo studio delle prognosi e dell’efficacia degli interventi nei casi di trauma.
Il dottor Evgeny Mirkes e i suoi colleghi dell’Università di Leicester, nel Regno Unito, hanno analizzato alcuni dati di questo database.4 Tra i 165.559 casi di trauma da loro esaminati, ne hanno trovati 19.289 con esiti sconosciuti. Nella ricerca traumatologica, conoscere l’«esito» significa sapere se il paziente è sopravvissuto o no per almeno trenta giorni dopo aver subito il trauma; pertanto, per oltre l’11 per cento dei pazienti, la sopravvivenza a trenta giorni dall’evento era un dato sconosciuto. Questo esempio illustra una forma comune di dark data, i nostri DD-Tipo 1: Dati di cui conosciamo la mancanza. Sappiamo che questi pazienti devono aver avuto un qualche esito, solo che non sappiamo quale.
«E che problema c’è?» starete forse pensando: accontentiamoci di analizzare i 146.270 pazienti per i quali conosciamo l’esito, e basiamo la nostra comprensione e le nostre prognosi su quelli. In fin dei conti, 146.270 è un gran numero (nel campo della medicina, può essere considerato come big data) e possiamo quindi essere sicuri che le conclusioni basate su questi dati saranno corrette.
Ma possiamo esserlo davvero? Forse i 19.289 casi mancanti sono profondamente diversi dagli altri. Dopotutto, sono senza dubbio diversi per il fatto di aver avuto esiti sconosciuti, e non è quindi irragionevole sospettare che potrebbero differire anche sotto altri aspetti. Di conseguenza, ogni analisi dei 146.370 pazienti con esiti noti potrebbe risultare fuorviante in rapporto alla popolazione generale di chi ha subito un trauma. Pertanto, le azioni prese sulla base di tale analisi potrebbero rivelarsi sbagliate, conducendo magari a prognosi erronee, prescrizioni scorrette e regimi di trattamento inadeguati, con conseguenze negative – se non addirittura fatali – per i pazienti.
Per fare un esempio estremo e volutamente irrealistico, supponiamo che tutte le 146.270 persone con esiti noti siano sopravvissute e si siano ristabilite senza alcun trattamento, mentre i 19.289 soggetti dagli esiti ignoti siano tutti morti entro due giorni dall’ammissione. Se ignorassimo i casi con esiti sconosciuti, saremmo legittimati a concludere che non c’era nulla di cui preoccuparsi e che tutte le vittime di trauma si sono riprese da sole; su queste basi, non cureremmo nessuno dei nuovi casi, aspettandoci che si ristabiliscano naturalmente, solo per poi scoprire – con orrore e sbigottimento – che più dell’11 per cento dei nostri pazienti sta morendo.
Prima di proseguire, voglio rassicurare il lettore. Il mio esempio estremo rappresenta il peggior scenario possibile; è ragionevole aspettarsi che, in realtà, le cose non vadano così male. Inoltre, il dottor Mirkes e i suoi colleghi sono esperti nell’analisi dei dati mancanti, perciò sono del tutto consapevoli dei pericoli e hanno messo a punto dei metodi statistici per far fronte al problema. Descriverò alcuni metodi simili più avanti. Intanto, l’insegnamento di questa storia – che di fatto, con una buona approssimazione, può essere quello dell’intero libro – è che le cose potrebbero non essere come sembrano: anche se avere a disposizione un sacco di dati, i cosiddetti big data, è certamente utile, le dimensioni non sono tutto, e quello che non sappiamo, ovvero i dati che non abbiamo, potrebbe essere ancora più importante, per comprendere la situazione, di quanto non lo siano i dati in nostro possesso. In ogni caso, come vedremo, i problemi dei dark data non riguardano esclusivamente i big data, ma possono emergere anche con piccoli dataset («collezioni di dati»): in altre parole, sono onnipresenti.
La mia storia sul database della TARN sarà anche un’esagerazione, ma serve da monito. Forse gli esiti di quei 19.289 pazienti non sono stati registrati proprio perché sono morti tutti nei primi trenta giorni. In fin dei conti, se la valutazione dell’esito si basasse sul contattare i pazienti trenta giorni dopo l’ammissione per sincerarsi delle loro condizioni, nessuno dei deceduti potrebbe rispondere alle domande; se non tenessimo conto di questa eventualità, non registreremmo mai la morte di un paziente.
Tutto ciò potrebbe sembrare un po’ stupido, ma in realtà situazioni di questo genere sono piuttosto frequenti. Per esempio, un modello costruito al fine di determinare la prognosi per i pazienti a cui viene somministrato un particolare trattamento si baserà sugli esiti dei soggetti che lo hanno ricevuto in precedenza. Ma se non fosse ancora trascorso un tempo sufficiente per avere un esito definitivo della terapia sui pazienti precedenti? In tal caso, quegli esiti rimarrebbero sconosciuti, e un modello costruito solo sui soggetti con esiti noti potrebbe risultare fuorviante.
Un fenomeno simile si verifica con i sondaggi, nei quali le non risposte sono fonte di difficoltà. In genere, i ricercatori hanno un elenco completo di persone da cui vorrebbero avere delle risposte, ma di solito non tutti rispondono. Ora, se chi risponde si differenzia sotto un qualche aspetto da chi non lo fa, i ricercatori potrebbero avere una buona ragione per dubitare che le loro statistiche riassumano in modo affidabile l’orientamento della popolazione. Dopotutto, se una rivista conducesse un sondaggio tra i suoi abbonati ponendo loro la singola domanda: «Rispondete ai sondaggi delle riviste?», e ricevesse il cento per cento di risposte affermative, non potremmo certo concluderne che tutti gli abbonati rispondono a questo genere di sondaggi.
I precedenti esempi illustrano il nostro primo tipo di dark data. Sappiamo che tutti i dati relativi ai pazienti della TARN esistono, anche se i loro valori non sono stati tutti registrati; sappiamo che le persone nell’elenco degli intervistati avevano delle risposte, anche se non sempre le hanno date. In generale, sappiamo che i dati hanno dei valori, anche se non conosciamo quali siano tali valori.
Ecco adesso un esempio di un tipo differente di dark data, il DD-Tipo 2: Dati di cui ignoriamo la mancanza.
Le strade di molte città presentano problemi di buche. L’acqua penetra in piccole fenditure e d’inverno, congelandosi, le allarga; il danno viene poi ulteriormente aggravato dagli pneumatici delle auto, con un circolo vizioso che porta alla formazione di buche in grado di causare la rottura di ruote e semiassi. La città di Boston aveva deciso di affrontare questo problema ricorrendo alla tecnologia moderna: aveva così rilasciato una app per smartphone che usava l’accelerometro interno del telefono per rilevare il sobbalzo di un’auto in corrispondenza di una buca e, attraverso il GPS, trasmetteva quindi automaticamente la posizione di quest’ultima alle autorità cittadine.
Splendido! Ora gli addetti alla manutenzione stradale avrebbero saputo con esattezza dov’erano le buche da riparare.
Anche qui, abbiamo davanti quella che sembrerebbe essere una soluzione elegante ed economica a un problema reale, basata sulla moderna tecnologia di analisi dei dati… se non fosse per il fatto che è più probabile che i possessori di auto e smartphone all’avanguardia siano concentrati nelle aree più ricche. Così, le buche nelle aree più povere avranno una minore probabilità di essere individuate, con la conseguenza che la loro posizione non verrà trasmessa alle autorità e che quelle buche potrebbero non essere mai riparate; pertanto, anziché risolvere il problema delle buche in generale, questo approccio potrebbe persino aggravare le disuguaglianze sociali. La differenza tra questa situazione e quella dell’esempio della TARN è che lì sapevamo che certi dati mancavano, mentre qui non ne siamo consapevoli.
Il seguente caso illustra ulteriormente questo tipo di dark data. Verso la fine di ottobre del 2012, l’uragano – o «supertempesta» – Sandy5 si abbatté sulla costa orientale degli Stati Uniti. Fu il secondo uragano più costoso nella storia statunitense e il più grande uragano atlantico fino ad allora registrato: i danni stimati raggiunsero i 75 miliardi di dollari e il bilancio delle vittime fu di oltre duecento decessi in otto Paesi. Sandy colpì ventiquattro Stati degli USA, dalla Florida al Maine, dal Michigan al Wisconsin, e portò alla chiusura dei mercati finanziari a causa delle interruzioni della corrente elettrica; inoltre, come effetto collaterale, provocò un incremento delle nascite a circa nove mesi di distanza.
Ma fu anche un trionfo dei media moderni. La tempesta fisica...

Indice dei contenuti

  1. Copertina
  2. Frontespizio
  3. Un gatto nero in una stanza buia. di Marco Malvaldi
  4. Il tradimento dei numeri
  5. Prefazione
  6. I. DARK DATA: ORIGINI E CONSEGUENZE
  7. II. ILLUMINARE E USARE I DARK DATA
  8. Note
  9. Copyright