Ricampionamento
In statistica, con ricampionamento si indicano differenti metodi per:
- stimare la precisione di campioni statistici (mediana, varianza, percentili) usando sottoinsiemi dei dati (tecnica nota con il nome di jackknife) o scelti casualmente mediante sostituzioni a partire da un insieme dei dati (metodo bootstrap)
- scambiare etichette sui dati quando si eseguono test di significatività (test di permutazione, anche chiamati test esatti)
- confermare modelli usando sottoinsiemi casuali (metodo bootstrap, validazione incrociata).
Tecniche di ricampionamento sono il bootstrapping, il metodo jackknife e i test di permutazione.
Bootstrap
[modifica | modifica wikitesto]Il bootstrap (o bootstrapping) è un metodo statistico per stimare la distribuzione di campionamento[1] di uno stimatore, sostituendo dei dati nel campione originale, spesso con lo scopo di ottenere stime robuste degli errori standard e degli intervalli di confidenza dei parametri di una popolazione come la media, la mediana, odds ratio, il coefficiente di correlazione o il coefficiente di regressione. Questo metodo può essere usato anche per costruire test di verifica delle ipotesi.
Jackknife
[modifica | modifica wikitesto]Il metodo jackknife, simile al bootstrapping, è usato nell'inferenza statistica e per stimare il bias e l'errore standard in una statistica. L'idea basilare del metodo consiste nel ricalcolare le stime statistiche lasciando fuori una osservazione alla volta dal campione.
Il metodo jackknife ed il metodo bootstrap stimano la variabilità di una statistica a partire dalla variabilità di quella statistica tra sottocampioni invece di fare assunzioni parametriche. Il metodo jackknife è una tecnica meno generale del bootstrap ed esplora in modo diverso le variazioni del campione. Comunque il jackknife è più semplice, rispetto al bootstrap, da applicare a casi complessi come il campionamento multistadio con pesi di campionamento che cambiano.
Il metodo jackknife e il metodo bootstrap possono portare a risultati simili, tuttavia, quando sono usati per stimare l'errore standard di una statistica il bootstrap da risultati leggermente differenti se viene ripetuto sugli stessi dati, mentre il metodo jackknife da sempre lo stesso risultato (posto che i sottocampioni rimossi siano sempre gli stessi).
Cross-validazione
[modifica | modifica wikitesto]La cross-validazione è un metodo statistico per validare un modello predittivo. Preso un campione di dati, esso viene suddiviso in sottoinsieme alcuni dei quali vengono usati per la costruzione del modello (insiemi di allenamento, training sets) e gli altri da confrontare con le predizioni del modello (insiemi di validazione, validation sets). Mediando la qualità delle predizioni tra i vari insiemi di validazione dà una misura dell'accuratezza delle predizioni.
Una forma di cross-validazione lascia fuori una singola osservazione alla volta, questo è simile al metodo jackknife. Un'altra, la K-fold cross-validation, divide i dati in K sottoinsiemi, ognuno dei quali è lasciato fuori a turno come insieme di validazione.
Questo permette di evitare l'"autoinfluenza", per confronto nella regressione lineare, ogni valore pilota la retta di regressione verso se stesso facendo apparire la regressione più accurata di quanto non lo sia in realtà, in media. La cross-validazione applicata alla regressione predice i valori per ogni osservazione senza usare quell'osservazione stessa.
Note
[modifica | modifica wikitesto]- ^ ossia, la distribuzione di probabilità di una data statistica, intesa come quantità numerica calcolata a partire da un campione, basata su un campione casuale.
Controllo di autorità | Thesaurus BNCF 52497 · LCCN (EN) sh92003436 · BNF (FR) cb12410720w (data) · J9U (EN, HE) 987007561072505171 |
---|