Valutare Output AI
Cinque criteri e quattro tecniche per valutare se l'output dell'AI è affidabile. Dal cross-check automatizzato al framework della fiducia calibrata, con un caso reale che fa riflettere.
Valutare Output AI
Sara Conti, consulente fiscale, ha iniziato a usare l'AI per redigere pareri fiscali e comunicazioni ai clienti. Una mattina invia a un cliente un parere sull'applicabilità dell'IVA agevolata al 10% per lavori di ristrutturazione. Il parere cita l'Art. 127-septies della Tabella A, Parte III, allegata al DPR 633/72. Il cliente lo presenta in sede di dichiarazione. Due mesi dopo arriva la sanzione: quell'articolo non dice ciò che il parere afferma. La responsabilità è di Sara. Il danno è reale. L'AI aveva generato un testo convincente, strutturato, autorevole — e sbagliato.
Generare testo con l'AI è facile. Valutare se quel testo è affidabile è la vera competenza.
I 5 criteri di valutazione
Ogni output dell'AI va passato attraverso cinque filtri prima di essere utilizzato. Non servono strumenti sofisticati — servono le domande giuste.
I 5 criteri — checklist di valutazione:
1. ACCURATEZZA
Domanda guida: "I fatti, i numeri e i riferimenti sono corretti?"
Esempio: Sara verifica ogni articolo di legge citato sul sito
dell'Agenzia delle Entrate
2. COMPLETEZZA
Domanda guida: "Copre tutti gli aspetti rilevanti della questione?"
Esempio: il parere menziona l'IVA agevolata ma ignora
le condizioni soggettive del richiedente
3. COERENZA
Domanda guida: "La logica regge dall'inizio alla fine?"
Esempio: il primo paragrafo dice che l'agevolazione si applica,
il terzo elenca eccezioni che la escludono — contraddizione
4. RILEVANZA
Domanda guida: "Risponde effettivamente alla domanda posta?"
Esempio: Sara chiede un parere sull'IVA e riceve un trattato
generico sulla fiscalità immobiliare
5. UTILIZZABILITÀ
Domanda guida: "Posso usare questo output così com'è?"
Esempio: il parere è corretto ma scritto in linguaggio tecnico
incomprensibile per il cliente — richiede rielaborazioneTecniche di verifica
Cinque criteri non bastano senza tecniche concrete per applicarli. Ecco quattro metodi che Sara usa quotidianamente.
TECNICA 1 — CROSS-CHECK
Fai la stessa domanda a due modelli diversi (es. ChatGPT e Claude).
Se le risposte concordano sui punti chiave, la fiducia sale.
Se divergono, approfondisci.
Esempio fiscale:
Sara chiede a entrambi: "Un forfettario può detrarre le spese
di ristrutturazione del proprio studio?"
- Modello A: "Sì, fino al 50%"
- Modello B: "No, il regime forfettario non consente detrazioni"
La divergenza segnala che serve verifica sulla fonte ufficiale.
TECNICA 2 — SOURCING
Chiedi esplicitamente le fonti e poi verificale.
Prompt: "Indica gli articoli di legge su cui si basa
questa risposta, con numero, comma e testo rilevante."
Poi cerca ogni riferimento sul sito ufficiale.
TECNICA 3 — DECOMPOSIZIONE
Spezza una domanda complessa in sotto-domande semplici.
Invece di: "Come si calcola l'IVA per una ristrutturazione
di un immobile vincolato di proprietà di una SRL?"
Chiedi separatamente: aliquota base, condizioni per agevolazione,
vincoli per immobili tutelati, requisiti soggettivi della SRL.
TECNICA 4 — CONTRADDIZIONE
Chiedi all'AI di trovare i punti deboli della sua stessa risposta.
Prompt: "Quali sono i punti deboli, le possibili eccezioni
e gli errori più probabili nella risposta che hai appena dato?"Red flags da riconoscere
Non tutti gli errori dell'AI sono ovvi. Alcuni segnali di allarme indicano che l'output richiede verifica approfondita:
- ●Risposte troppo sicure su temi incerti — Se l'AI risponde con certezza assoluta su una questione controversa o in evoluzione normativa, diffida. Le aree grigie del fisco italiano non hanno risposte nette
- ●Statistiche precise senza fonti — "Il 73,4% delle PMI italiane..." senza indicare la fonte è quasi certamente un dato inventato
- ●Cambi di posizione tra prompt — Se nella stessa conversazione l'AI prima dice sì e poi dice no alla stessa domanda, il modello sta seguendo il contesto invece di ragionare
- ●Risposte che ripetono la domanda — Un output che riformula la tua domanda come risposta non sta aggiungendo valore
- ●Riferimenti normativi troppo specifici — "Art. 47-bis, comma 3-ter, lettera d)" con un livello di dettaglio che suona autorevole è spesso il segnale di un'allucinazione. Più il riferimento è preciso, più va verificato
Scoring per dominio
Il livello di verifica necessario dipende dal dominio. Non ogni output richiede lo stesso scrutinio.
Dominio | Fiducia base | Verifica richiesta
-------------------------------------------------
Marketing | Media-alta | Revisione di stile e tono,
| | i fatti contano meno
-------------------------------------------------
Amministrativo| Media | Verifica procedure e scadenze,
| | i dettagli operativi contano
-------------------------------------------------
Fiscale | Bassa | Ogni riferimento normativo va
| | controllato sulla fonte ufficiale
-------------------------------------------------
Legale | Molto bassa | Verifica articolo per articolo,
| | giurisprudenza per giurisprudenza
-------------------------------------------------
Medico | Molto bassa | Ogni indicazione clinica va
| | confrontata con le linee guida
Regola pratica di Sara Conti:
- Bozza email al cliente → revisione rapida (5 min)
- Post social per lo studio → controllo tono e fatti (10 min)
- Parere fiscale → verifica completa punto per punto (30+ min)
- Dichiarazione dei redditi → MAI senza verifica integraleIl framework della fiducia calibrata
Non fidarti ciecamente, non diffidare per principio. Calibra la fiducia in base a tre variabili:
- ●Dominio — L'AI è più affidabile su argomenti generali che su normativa fiscale italiana di nicchia. Più il dominio è specialistico, meno ti puoi fidare
- ●Criticità — Una bozza di email ha un margine di errore ampio. Un parere che il cliente usa per una dichiarazione non ne ha nessuno
- ●Verificabilità — Se puoi controllare rapidamente (es. un articolo di legge), controlla sempre. Se la verifica richiederebbe ore, valuta se l'output è abbastanza critico da giustificare l'investimento
# Script semplice di cross-check automatizzato
# Confronta le risposte di due modelli sulla stessa domanda
import openai
import anthropic
def cross_check(domanda: str) -> dict:
"""Invia la stessa domanda a due modelli e confronta."""
# Risposta dal primo modello
client_openai = openai.OpenAI()
risposta_gpt = client_openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": domanda}]
).choices[0].message.content
# Risposta dal secondo modello
client_claude = anthropic.Anthropic()
risposta_claude = client_claude.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
messages=[{"role": "user", "content": domanda}]
).content[0].text
return {
"domanda": domanda,
"risposta_modello_a": risposta_gpt,
"risposta_modello_b": risposta_claude,
"nota": "Confronta i punti chiave: se divergono, verifica."
}
# Esempio di utilizzo
risultato = cross_check(
"Un contribuente forfettario può detrarre le spese "
"di ristrutturazione del proprio studio professionale?"
)
print("Domanda:", risultato["domanda"])
print("\nModello A:", risultato["risposta_modello_a"][:200])
print("\nModello B:", risultato["risposta_modello_b"][:200])
print("\nNota:", risultato["nota"])Da ricordare
- ●Generare output è facile, valutarlo è la competenza che distingue il professionista — non delegare mai il giudizio all'AI
- ●Applica i 5 criteri (accuratezza, completezza, coerenza, rilevanza, utilizzabilità) a ogni output che intendi usare
- ●Usa le 4 tecniche di verifica: cross-check, sourcing, decomposizione e contraddizione
- ●Più il dominio è specialistico e critico, meno puoi fidarti dell'output senza verifica
- ●I riferimenti normativi troppo precisi sono spesso il segnale di un'allucinazione — verifica sempre sulla fonte ufficiale
- ●Calibra la fiducia in base a dominio, criticità e verificabilità: non tutto richiede lo stesso livello di scrutinio