Parliamo

project-cherry.dev

Intermedio12 min

Valutare Output AI

Cinque criteri e quattro tecniche per valutare se l'output dell'AI è affidabile. Dal cross-check automatizzato al framework della fiducia calibrata, con un caso reale che fa riflettere.

Valutare Output AI

Sara Conti, consulente fiscale, ha iniziato a usare l'AI per redigere pareri fiscali e comunicazioni ai clienti. Una mattina invia a un cliente un parere sull'applicabilità dell'IVA agevolata al 10% per lavori di ristrutturazione. Il parere cita l'Art. 127-septies della Tabella A, Parte III, allegata al DPR 633/72. Il cliente lo presenta in sede di dichiarazione. Due mesi dopo arriva la sanzione: quell'articolo non dice ciò che il parere afferma. La responsabilità è di Sara. Il danno è reale. L'AI aveva generato un testo convincente, strutturato, autorevole — e sbagliato.

Generare testo con l'AI è facile. Valutare se quel testo è affidabile è la vera competenza.

I 5 criteri di valutazione

Ogni output dell'AI va passato attraverso cinque filtri prima di essere utilizzato. Non servono strumenti sofisticati — servono le domande giuste.

text
I 5 criteri — checklist di valutazione:

1. ACCURATEZZA
   Domanda guida: "I fatti, i numeri e i riferimenti sono corretti?"
   Esempio: Sara verifica ogni articolo di legge citato sul sito
   dell'Agenzia delle Entrate

2. COMPLETEZZA
   Domanda guida: "Copre tutti gli aspetti rilevanti della questione?"
   Esempio: il parere menziona l'IVA agevolata ma ignora
   le condizioni soggettive del richiedente

3. COERENZA
   Domanda guida: "La logica regge dall'inizio alla fine?"
   Esempio: il primo paragrafo dice che l'agevolazione si applica,
   il terzo elenca eccezioni che la escludono — contraddizione

4. RILEVANZA
   Domanda guida: "Risponde effettivamente alla domanda posta?"
   Esempio: Sara chiede un parere sull'IVA e riceve un trattato
   generico sulla fiscalità immobiliare

5. UTILIZZABILITÀ
   Domanda guida: "Posso usare questo output così com'è?"
   Esempio: il parere è corretto ma scritto in linguaggio tecnico
   incomprensibile per il cliente — richiede rielaborazione

Tecniche di verifica

Cinque criteri non bastano senza tecniche concrete per applicarli. Ecco quattro metodi che Sara usa quotidianamente.

text
TECNICA 1 — CROSS-CHECK
Fai la stessa domanda a due modelli diversi (es. ChatGPT e Claude).
Se le risposte concordano sui punti chiave, la fiducia sale.
Se divergono, approfondisci.

Esempio fiscale:
Sara chiede a entrambi: "Un forfettario può detrarre le spese
di ristrutturazione del proprio studio?"
- Modello A: "Sì, fino al 50%"
- Modello B: "No, il regime forfettario non consente detrazioni"
La divergenza segnala che serve verifica sulla fonte ufficiale.

TECNICA 2 — SOURCING
Chiedi esplicitamente le fonti e poi verificale.

Prompt: "Indica gli articoli di legge su cui si basa
questa risposta, con numero, comma e testo rilevante."
Poi cerca ogni riferimento sul sito ufficiale.

TECNICA 3 — DECOMPOSIZIONE
Spezza una domanda complessa in sotto-domande semplici.

Invece di: "Come si calcola l'IVA per una ristrutturazione
di un immobile vincolato di proprietà di una SRL?"
Chiedi separatamente: aliquota base, condizioni per agevolazione,
vincoli per immobili tutelati, requisiti soggettivi della SRL.

TECNICA 4 — CONTRADDIZIONE
Chiedi all'AI di trovare i punti deboli della sua stessa risposta.

Prompt: "Quali sono i punti deboli, le possibili eccezioni
e gli errori più probabili nella risposta che hai appena dato?"

Red flags da riconoscere

Non tutti gli errori dell'AI sono ovvi. Alcuni segnali di allarme indicano che l'output richiede verifica approfondita:

  • Risposte troppo sicure su temi incerti — Se l'AI risponde con certezza assoluta su una questione controversa o in evoluzione normativa, diffida. Le aree grigie del fisco italiano non hanno risposte nette
  • Statistiche precise senza fonti — "Il 73,4% delle PMI italiane..." senza indicare la fonte è quasi certamente un dato inventato
  • Cambi di posizione tra prompt — Se nella stessa conversazione l'AI prima dice sì e poi dice no alla stessa domanda, il modello sta seguendo il contesto invece di ragionare
  • Risposte che ripetono la domanda — Un output che riformula la tua domanda come risposta non sta aggiungendo valore
  • Riferimenti normativi troppo specifici — "Art. 47-bis, comma 3-ter, lettera d)" con un livello di dettaglio che suona autorevole è spesso il segnale di un'allucinazione. Più il riferimento è preciso, più va verificato

Scoring per dominio

Il livello di verifica necessario dipende dal dominio. Non ogni output richiede lo stesso scrutinio.

text
Dominio       | Fiducia base | Verifica richiesta
-------------------------------------------------
Marketing     | Media-alta   | Revisione di stile e tono,
              |              | i fatti contano meno
-------------------------------------------------
Amministrativo| Media        | Verifica procedure e scadenze,
              |              | i dettagli operativi contano
-------------------------------------------------
Fiscale       | Bassa        | Ogni riferimento normativo va
              |              | controllato sulla fonte ufficiale
-------------------------------------------------
Legale        | Molto bassa  | Verifica articolo per articolo,
              |              | giurisprudenza per giurisprudenza
-------------------------------------------------
Medico        | Molto bassa  | Ogni indicazione clinica va
              |              | confrontata con le linee guida

Regola pratica di Sara Conti:
- Bozza email al cliente → revisione rapida (5 min)
- Post social per lo studio → controllo tono e fatti (10 min)
- Parere fiscale → verifica completa punto per punto (30+ min)
- Dichiarazione dei redditi → MAI senza verifica integrale

Il framework della fiducia calibrata

Non fidarti ciecamente, non diffidare per principio. Calibra la fiducia in base a tre variabili:

  • Dominio — L'AI è più affidabile su argomenti generali che su normativa fiscale italiana di nicchia. Più il dominio è specialistico, meno ti puoi fidare
  • Criticità — Una bozza di email ha un margine di errore ampio. Un parere che il cliente usa per una dichiarazione non ne ha nessuno
  • Verificabilità — Se puoi controllare rapidamente (es. un articolo di legge), controlla sempre. Se la verifica richiederebbe ore, valuta se l'output è abbastanza critico da giustificare l'investimento
python
# Script semplice di cross-check automatizzato
# Confronta le risposte di due modelli sulla stessa domanda

import openai
import anthropic

def cross_check(domanda: str) -> dict:
    """Invia la stessa domanda a due modelli e confronta."""

    # Risposta dal primo modello
    client_openai = openai.OpenAI()
    risposta_gpt = client_openai.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": domanda}]
    ).choices[0].message.content

    # Risposta dal secondo modello
    client_claude = anthropic.Anthropic()
    risposta_claude = client_claude.messages.create(
        model="claude-sonnet-4-20250514",
        max_tokens=1024,
        messages=[{"role": "user", "content": domanda}]
    ).content[0].text

    return {
        "domanda": domanda,
        "risposta_modello_a": risposta_gpt,
        "risposta_modello_b": risposta_claude,
        "nota": "Confronta i punti chiave: se divergono, verifica."
    }

# Esempio di utilizzo
risultato = cross_check(
    "Un contribuente forfettario può detrarre le spese "
    "di ristrutturazione del proprio studio professionale?"
)

print("Domanda:", risultato["domanda"])
print("\nModello A:", risultato["risposta_modello_a"][:200])
print("\nModello B:", risultato["risposta_modello_b"][:200])
print("\nNota:", risultato["nota"])

Da ricordare

  • Generare output è facile, valutarlo è la competenza che distingue il professionista — non delegare mai il giudizio all'AI
  • Applica i 5 criteri (accuratezza, completezza, coerenza, rilevanza, utilizzabilità) a ogni output che intendi usare
  • Usa le 4 tecniche di verifica: cross-check, sourcing, decomposizione e contraddizione
  • Più il dominio è specialistico e critico, meno puoi fidarti dell'output senza verifica
  • I riferimenti normativi troppo precisi sono spesso il segnale di un'allucinazione — verifica sempre sulla fonte ufficiale
  • Calibra la fiducia in base a dominio, criticità e verificabilità: non tutto richiede lo stesso livello di scrutinio