albero decisionale o dendrogramma: forma di algoritmo di classificazione in cui si esaminano le caratteristiche una alla volta; la risposta determina la caratteristica da valutare in seguito, fino a ottenere la classificazione.
alfabetizzazione ai dati: comprensione dei principĂź che permettono di trarre insegnamenti dai dati, di sottoporli ad analisi elementari e di criticare la validitĂ delle conclusioni stabilite in base ai dati.
algoritmo: regola o formula per trasformare le variabili dâingresso in quelle di uscita, che possono essere previsioni, classificazioni o probabilitĂ .
analisi e studi confermativi: studi rigorosi idealmente svolti secondo un protocollo prestabilito, per confermare o smentire le ipotesi sollevate dalle analisi e dagli studi esplorativi.
analisi e studi esplorativi: studi iniziali flessibili che permettono cambiamenti nella progettazione dello studio e nellâanalisi per investigare filoni promettenti, e che sono destinati a generare ipotesi poi corroborate dagli studi confermativi.
analisi predittive: uso dei dati per creare algoritmi che realizzano previsioni.
apprendimento automatico: procedura che esamina dati complessi e formula algoritmi, per esempio di classificazione, previsione o raggruppamento.
apprendimento non supervisionato: identificazione delle classi basata su casi di appartenenza non prestabilita, tramite procedure di raggruppamento di qualche tipo.
apprendimento profondo / deep learning: tecnica di apprendimento automatico che parte dai tipici modelli di reti neurali artificiali e li generalizza a molti strati corrispondenti a vari livelli di astrazione, che vanno per esempio dai singoli pixel di unâimmagine fino al riconoscimento di oggetti.
apprendimento supervisionato: costruzione di un algoritmo di classificazione basata su casi la cui appartenenza a certe classi Ăš confermata.
bootstrap: metodo che genera gli intervalli di fiducia e la distribuzione degli indici statistici di verifica tramite il ricampionamento dei dati osservati, invece di ipotizzare un modello di probabilitĂ per la variabile casuale. Un esempio elementare di ricampionamento bootstrap per un insieme di dati x1, x2, âŠ, xn Ăš un campione di dimensioni n ottenuto estraendo i valori dallâinsieme originario, con reimmissione; generalmente i valori vi compaiono con frequenze diverse rispetto allâinsieme originario.
calibrazione: richiesta che le frequenze osservate degli eventi corrispondano a quelle derivate dalle previsioni probabilistiche. Per esempio, quando agli eventi si assegna una probabilitĂ di 0,7, essi dovrebbero in effetti avvenire circa il 70% delle volte.
causalitĂ inversa: si ha quando sulle prime il nesso tra due variabili sembra causale, ma potrebbe in realtĂ funzionare nella direzione opposta. Per esempio, gli astemi tendono ad avere peggiori condizioni di salute rispetto a chi beve moderatamente, ma il motivo Ăš almeno in parte che i problemi di salute hanno spinto alcuni a smettere di bere.
coefficiente di regressione: in un modello statistico, parametro stimato che esprime lâentitĂ del nesso tra una variabile esplicativa e un risultato dellâanalisi di regressione multipla. Il coefficiente ha interpretazioni diverse a seconda se la variabile di risposta Ăš continua (regressione lineare multipla), Ăš una percentuale (regressione logistica), Ăš un conteggio (regressione di Poisson) o un tempo di sopravvivenza (regressione di Cox).
comportamento induttivo: proposta elaborata negli anni Trenta da Jerzy Neyman ed Egon Pearson per formulare il test di ipotesi in termini del processo decisionale. Ne derivano le idee di dimensione, efficacia ed errori di primo e secondo tipo.
confondente: variabile associata sia a una variabile di risposta sia a una variabile predittiva e che puĂČ forse spiegarne in parte il nesso apparente. Per esempio, la statura e il peso dei bambini hanno una forte correlazione, in gran parte spiegata perĂČ dalla loro etĂ .
controfattuale: scenario del tipo «e se», in cui si considera uno svolgimento alternativo degli eventi.
convalida incrociata: maniera di valutare la qualitĂ di un algoritmo per le previsioni o le classificazioni eliminando sistematicamente alcuni casi, che vanno a comporre lâinsieme di verifica.
correzione di Bonferroni: metodo per regolare la dimensione (errore di primo tipo) o gli intervalli di fiducia, consentendo il test simultaneo di molte ipotesi. In particolare, nel test di n ipotesi, per una dimensione globale (errore di primo tipo) pari ad α, ciascuna ipotesi Ăš controllata con dimensione α/n. Lâalternativa equivalente Ăš specificare intervalli di fiducia del 100(1 â α/n)% per ogni quantitĂ stimata. Per esempio, nel test di 10 ipotesi con unâα globale pari a 5%, i valori P sarebbero confrontati alla soglia di 0,05/10 = 0,005, e si userebbero gli intervalli di fiducia del 99...