Intelligenze opache: perché non sappiamo come "ragionano" le AI (e cosa stiamo facendo)
Costruiamo modelli che funzionano senza poter spiegare del tutto perché. La nuova scienza dell'interpretabilità meccanicistica prova ad aprire la scatola nera — un neurone alla volta.

C'è un fatto scomodo al centro dell'intelligenza artificiale moderna: costruiamo sistemi che funzionano straordinariamente bene senza essere in grado di spiegare del tutto perché. Un grande modello linguistico non è programmato con regole esplicite; è un intreccio di miliardi di parametri il cui comportamento emerge dall'addestramento. Quando produce una risposta giusta — o un errore — la catena causale che l'ha generata ci è, in larga parte, opaca. È il problema della scatola nera.
Aprire la scatola, un neurone alla volta
Una giovane disciplina, l'interpretabilità meccanicistica, prova a fare per le reti neurali ciò che la biologia fa per gli organismi: capire i meccanismi interni, non solo osservare il comportamento. Il problema è che i "neuroni" artificiali sono polisemantici: lo stesso neurone si attiva per concetti scollegati, e questo rende illeggibile la rete. Il laboratorio Anthropic ha mostrato che usando tecniche di dictionary learning (sparse autoencoder) è possibile scomporre questa confusione in feature interpretabili — unità che corrispondono a concetti precisi. Dal lavoro "Towards Monosemanticity" (ottobre 2023) si è passati, nel maggio 2024, a estrarne milioni da Claude 3 Sonnet, fino alla dimostrazione pubblica del "Golden Gate Claude": amplificando artificialmente la feature del Golden Gate Bridge, il modello iniziava a parlarne in modo ossessivo (Anthropic).
Dai concetti ai circuiti
Identificare i concetti è solo metà dell'opera: bisogna capire come si concatenano. Nel marzo 2025 Anthropic ha pubblicato il lavoro sul circuit tracing — "On the Biology of a Large Language Model" — ricostruendo i percorsi di calcolo interni e mostrando, ad esempio, che il modello a volte pianifica in anticipo (sceglie la rima finale di un verso prima di scriverlo) o ragiona per passi intermedi non visibili nell'output (Anthropic).
Perché non è un esercizio accademico
Capire i meccanismi interni non è curiosità: è sicurezza. Se non sappiamo come un modello arriva a una decisione, non possiamo accorgerci quando inganna, discrimina o "allucina" con sicurezza. È la ragione per cui Dario Amodei, CEO di Anthropic, ha parlato apertamente di "urgenza dell'interpretabilità" (aprile 2025), e per cui le norme spingono verso la trasparenza: gli obblighi dell'EU AI Act in materia maturano da agosto 2026.
Resta una dose di umiltà necessaria: oggi sappiamo leggere frammenti di una mente artificiale, non l'intera mente. Ma la direzione è chiara. Affidare decisioni importanti a sistemi che non comprendiamo non è una posizione difendibile a lungo: l'opacità non è una caratteristica accettabile, è un problema da risolvere.
