albero decisionale o dendrogramma: forma di algoritmo di classificazione in cui si esaminano le caratteristiche una alla volta; la risposta determina la caratteristica da valutare in seguito, fino a ottenere la classificazione.
alfabetizzazione ai dati: comprensione dei principî che permettono di trarre insegnamenti dai dati, di sottoporli ad analisi elementari e di criticare la validità delle conclusioni stabilite in base ai dati.
algoritmo: regola o formula per trasformare le variabili d’ingresso in quelle di uscita, che possono essere previsioni, classificazioni o probabilità.
analisi e studi confermativi: studi rigorosi idealmente svolti secondo un protocollo prestabilito, per confermare o smentire le ipotesi sollevate dalle analisi e dagli studi esplorativi.
analisi e studi esplorativi: studi iniziali flessibili che permettono cambiamenti nella progettazione dello studio e nell’analisi per investigare filoni promettenti, e che sono destinati a generare ipotesi poi corroborate dagli studi confermativi.
analisi predittive: uso dei dati per creare algoritmi che realizzano previsioni.
apprendimento automatico: procedura che esamina dati complessi e formula algoritmi, per esempio di classificazione, previsione o raggruppamento.
apprendimento non supervisionato: identificazione delle classi basata su casi di appartenenza non prestabilita, tramite procedure di raggruppamento di qualche tipo.
apprendimento profondo / deep learning: tecnica di apprendimento automatico che parte dai tipici modelli di reti neurali artificiali e li generalizza a molti strati corrispondenti a vari livelli di astrazione, che vanno per esempio dai singoli pixel di un’immagine fino al riconoscimento di oggetti.
apprendimento supervisionato: costruzione di un algoritmo di classificazione basata su casi la cui appartenenza a certe classi è confermata.
bootstrap: metodo che genera gli intervalli di fiducia e la distribuzione degli indici statistici di verifica tramite il ricampionamento dei dati osservati, invece di ipotizzare un modello di probabilità per la variabile casuale. Un esempio elementare di ricampionamento bootstrap per un insieme di dati x1, x2, …, xn è un campione di dimensioni n ottenuto estraendo i valori dall’insieme originario, con reimmissione; generalmente i valori vi compaiono con frequenze diverse rispetto all’insieme originario.
calibrazione: richiesta che le frequenze osservate degli eventi corrispondano a quelle derivate dalle previsioni probabilistiche. Per esempio, quando agli eventi si assegna una probabilità di 0,7, essi dovrebbero in effetti avvenire circa il 70% delle volte.
causalità inversa: si ha quando sulle prime il nesso tra due variabili sembra causale, ma potrebbe in realtà funzionare nella direzione opposta. Per esempio, gli astemi tendono ad avere peggiori condizioni di salute rispetto a chi beve moderatamente, ma il motivo è almeno in parte che i problemi di salute hanno spinto alcuni a smettere di bere.
coefficiente di regressione: in un modello statistico, parametro stimato che esprime l’entità del nesso tra una variabile esplicativa e un risultato dell’analisi di regressione multipla. Il coefficiente ha interpretazioni diverse a seconda se la variabile di risposta è continua (regressione lineare multipla), è una percentuale (regressione logistica), è un conteggio (regressione di Poisson) o un tempo di sopravvivenza (regressione di Cox).
comportamento induttivo: proposta elaborata negli anni Trenta da Jerzy Neyman ed Egon Pearson per formulare il test di ipotesi in termini del processo decisionale. Ne derivano le idee di dimensione, efficacia ed errori di primo e secondo tipo.
confondente: variabile associata sia a una variabile di risposta sia a una variabile predittiva e che può forse spiegarne in parte il nesso apparente. Per esempio, la statura e il peso dei bambini hanno una forte correlazione, in gran parte spiegata però dalla loro età.
controfattuale: scenario del tipo «e se», in cui si considera uno svolgimento alternativo degli eventi.
convalida incrociata: maniera di valutare la qualità di un algoritmo per le previsioni o le classificazioni eliminando sistematicamente alcuni casi, che vanno a comporre l’insieme di verifica.
correzione di Bonferroni: metodo per regolare la dimensione (errore di primo tipo) o gli intervalli di fiducia, consentendo il test simultaneo di molte ipotesi. In particolare, nel test di n ipotesi, per una dimensione globale (errore di primo tipo) pari ad α, ciascuna ipotesi è controllata con dimensione α/n. L’alternativa equivalente è specificare intervalli di fiducia del 100(1 – α/n)% per ogni quantità stimata. Per esempio, nel test di 10 ipotesi con un’α globale pari a 5%, i valori P sarebbero confrontati alla soglia di 0,05/10 = 0,005, e si userebbero gli intervalli di fiducia del 99...