Fondamenta10 min
Pulizia Dati
Impara a identificare e correggere dati sporchi, duplicati, mancanti e inconsistenti prima di qualsiasi analisi.
Pulizia Dati
L'80% del tempo di un analista va nella pulizia dati. Dati sporchi producono analisi sbagliate — "garbage in, garbage out" non è un modo di dire.
I 5 problemi più comuni
- ●Valori mancanti — Celle vuote o "N/A"
- ●Duplicati — Stesso record inserito due volte
- ●Formati inconsistenti — "Milano", "MILANO", "MI", "milano"
- ●Outlier — Valori anomali (età: 250 anni)
- ●Tipi sbagliati — Numeri salvati come testo
Strategia di pulizia
Segui sempre questo ordine:
- ●Rimuovi i duplicati esatti
- ●Standardizza i formati (maiuscole, date, codici)
- ●Gestisci i valori mancanti (elimina, imputa o segnala)
- ●Identifica gli outlier con statistiche descrittive
- ●Valida i tipi di dato colonna per colonna
Esempio pratico
Un dataset clienti con 10.000 righe. Dopo la pulizia:
- ●342 duplicati rimossi
- ●89 CAP corretti (4 cifre invece di 5)
- ●156 valori mancanti nel campo email segnalati
Regola d'oro
Conserva sempre il dataset originale. Lavora su una copia e documenta ogni trasformazione. Così puoi sempre tornare indietro.