Avanzato15 min
Pipeline di Automazione
Costruisci pipeline dati automatizzate che raccolgono, trasformano e aggiornano le tue analisi senza intervento manuale.
Pipeline di Automazione
Una pipeline dati automatizza l'intero flusso: raccolta, pulizia, trasformazione e output. Quello che oggi fai a mano in 2 ore, domani gira da solo ogni notte.
Anatomia di una pipeline
- ●Extract — Scarica dati da fonti diverse (API, database, file)
- ●Transform — Pulisci, arricchisci e aggrega
- ●Load — Salva nel formato finale (database, CSV, dashboard)
Questo pattern si chiama ETL ed è la base di ogni sistema dati professionale.
Esempio pratico con Python
python
import pandas as pd
import requests
from datetime import datetime
def extract():
response = requests.get("https://api.example.com/vendite")
return pd.DataFrame(response.json())
def transform(df):
df["data"] = pd.to_datetime(df["data"])
df = df.dropna(subset=["importo"])
df["mese"] = df["data"].dt.to_period("M")
return df.groupby("mese")["importo"].sum().reset_index()
def load(df):
df.to_csv(f"report_{datetime.now():%Y%m%d}.csv", index=False)
# Esecuzione pipeline
dati = extract()
dati_puliti = transform(dati)
load(dati_puliti)Schedulazione
- ●Cron job — Per script semplici su un server Linux
- ●GitHub Actions — Pipeline versionata e gratuita per progetti piccoli
- ●Airflow / Prefect — Orchestratori professionali per pipeline complesse
Best practice
- ●Logga ogni esecuzione con timestamp e conteggio righe
- ●Gestisci gli errori — la pipeline deve avvisarti, non fallire in silenzio
- ●Versiona il codice della pipeline come qualsiasi altro software
- ●Testa su dati campione prima di lanciare su tutto il dataset