Parliamo

project-cherry.dev

Fondamenta10 min

Pulizia Dati

Impara a identificare e correggere dati sporchi, duplicati, mancanti e inconsistenti prima di qualsiasi analisi.

Pulizia Dati

L'80% del tempo di un analista va nella pulizia dati. Dati sporchi producono analisi sbagliate — "garbage in, garbage out" non è un modo di dire.

I 5 problemi più comuni

  • Valori mancanti — Celle vuote o "N/A"
  • Duplicati — Stesso record inserito due volte
  • Formati inconsistenti — "Milano", "MILANO", "MI", "milano"
  • Outlier — Valori anomali (età: 250 anni)
  • Tipi sbagliati — Numeri salvati come testo

Strategia di pulizia

Segui sempre questo ordine:

  • Rimuovi i duplicati esatti
  • Standardizza i formati (maiuscole, date, codici)
  • Gestisci i valori mancanti (elimina, imputa o segnala)
  • Identifica gli outlier con statistiche descrittive
  • Valida i tipi di dato colonna per colonna

Esempio pratico

Un dataset clienti con 10.000 righe. Dopo la pulizia:

  • 342 duplicati rimossi
  • 89 CAP corretti (4 cifre invece di 5)
  • 156 valori mancanti nel campo email segnalati

Regola d'oro

Conserva sempre il dataset originale. Lavora su una copia e documenta ogni trasformazione. Così puoi sempre tornare indietro.