RAG: cos'è e perché lo userai prima di quanto pensi — Francesco Mancino

C'è un problema fondamentale con gli LLM che nessuno ti dice subito.

ChatGPT, Claude, Gemini — sono tutti addestrati su enormi quantità di dati pubblici fino a una certa data. Poi vengono "congelati" e messi in produzione. Da quel momento in poi non sanno nulla di quello che succede nel mondo. E soprattutto non sanno nulla di dati privati: i tuoi documenti aziendali, il tuo CRM, i contratti con i clienti.

Risultato: gli chiedi qualcosa di specifico sulla tua azienda e il modello inventa. Oppure non risponde. In entrambi i casi, inutile.

RAG risolve questo problema. E lo fa in modo elegante.

01Come funziona, senza fronzoli

RAG sta per Retrieval Augmented Generation. Il nome è tecnico ma il concetto è semplice: invece di ri-addestrare il modello ogni volta che hai dati nuovi — operazione costosissima — gli passi le informazioni rilevanti al momento della domanda.

Il flusso è questo:

L'utente fa una domanda
Il sistema cerca nei tuoi documenti i pezzi più rilevanti
Li passa al modello insieme alla domanda
Il modello risponde usando quei dati come contesto

Il modello non "impara" i tuoi dati. Li legge al volo, come se stesse consultando un documento prima di risponderti. Per questo si chiama Retrieval Augmented Generation: prima recupera, poi genera.

02Perché questo cambia tutto per chi costruisce prodotti

Tre vantaggi concreti.

Primo: aggiornamenti near real-time. Non devi ri-addestrare niente. Aggiorni la knowledge base e il modello risponde con informazioni fresche.

Secondo: risposte specifiche per dominio. Il modello smette di rispondere in modo generico e inizia a rispondere sul tuo contesto specifico — i tuoi prodotti, i tuoi clienti, la tua documentazione.

Terzo: molto più affidabile. Il modello si basa su fatti recuperati, non su memoria generica. Meno invenzioni, più precisione.

03Chi lo usa già, e su cosa

Non è teoria. Ci sono prodotti in produzione che funzionano esattamente così.

Telescope integra il RAG con i CRM dei clienti: il modello accede a dati sui lead aggiornati e specifici per ogni account, restituendo informazioni contestuali invece di risposte generiche.

Causal lo usa per la contabilità: integrazione con piattaforme finanziarie, il modello accede ai rendiconti in tempo reale e produce analisi basate sui numeri reali dell'azienda.

AIDOC lo applica alla diagnostica medica per immagini: segnalazione rapida delle anomalie critiche integrando immagini con dati clinici aggiornati.

COACH AI di JP Morgan è un agente usato da venditori e consulenti che si interfacciano con clienti. Aggiornato costantemente con dati di mercato in real-time, risponde a domande complesse in modo preciso e tempestivo.

04Dove sono io con questo

Ho studiato RAG nella prima parte del corso AI Developer che sto seguendo con DataMasters. È uno dei concetti che ha più senso pratico da subito — non serve aspettare di essere un ML engineer per capire quando e perché usarlo.

Il prossimo step per me è costruirci qualcosa sopra. Probabilmente un chatbot su documenti aziendali, usando LangChain. Quando sarà fatto, ne scrivo qui.