Intelligenze opache: perché non sappiamo come "ragionano" le AI (e cosa stiamo facendo)

Costruiamo modelli che funzionano senza poter spiegare del tutto perché. La nuova scienza dell'interpretabilità meccanicistica prova ad aprire la scatola nera — un neurone alla volta.

Pierpaolo Marturano · CEO & Founder, Core Matrix 13 giugno 2026 2 min

Interpretabilità dei modelli di intelligenza artificiale

C'è un fatto scomodo al centro dell'intelligenza artificiale moderna: costruiamo sistemi che funzionano straordinariamente bene senza essere in grado di spiegare del tutto perché. Un grande modello linguistico non è programmato con regole esplicite; è un intreccio di miliardi di parametri il cui comportamento emerge dall'addestramento. Quando produce una risposta giusta — o un errore — la catena causale che l'ha generata ci è, in larga parte, opaca. È il problema della scatola nera.

Aprire la scatola, un neurone alla volta

Una giovane disciplina, l'interpretabilità meccanicistica, prova a fare per le reti neurali ciò che la biologia fa per gli organismi: capire i meccanismi interni, non solo osservare il comportamento. Il problema è che i "neuroni" artificiali sono polisemantici: lo stesso neurone si attiva per concetti scollegati, e questo rende illeggibile la rete. Il laboratorio Anthropic ha mostrato che usando tecniche di dictionary learning (sparse autoencoder) è possibile scomporre questa confusione in feature interpretabili — unità che corrispondono a concetti precisi. Dal lavoro "Towards Monosemanticity" (ottobre 2023) si è passati, nel maggio 2024, a estrarne milioni da Claude 3 Sonnet, fino alla dimostrazione pubblica del "Golden Gate Claude": amplificando artificialmente la feature del Golden Gate Bridge, il modello iniziava a parlarne in modo ossessivo (Anthropic).

Dai concetti ai circuiti

Identificare i concetti è solo metà dell'opera: bisogna capire come si concatenano. Nel marzo 2025 Anthropic ha pubblicato il lavoro sul circuit tracing — "On the Biology of a Large Language Model" — ricostruendo i percorsi di calcolo interni e mostrando, ad esempio, che il modello a volte pianifica in anticipo (sceglie la rima finale di un verso prima di scriverlo) o ragiona per passi intermedi non visibili nell'output (Anthropic).

Perché non è un esercizio accademico

Capire i meccanismi interni non è curiosità: è sicurezza. Se non sappiamo come un modello arriva a una decisione, non possiamo accorgerci quando inganna, discrimina o "allucina" con sicurezza. È la ragione per cui Dario Amodei, CEO di Anthropic, ha parlato apertamente di "urgenza dell'interpretabilità" (aprile 2025), e per cui le norme spingono verso la trasparenza: gli obblighi dell'EU AI Act in materia maturano da agosto 2026.

Resta una dose di umiltà necessaria: oggi sappiamo leggere frammenti di una mente artificiale, non l'intera mente. Ma la direzione è chiara. Affidare decisioni importanti a sistemi che non comprendiamo non è una posizione difendibile a lungo: l'opacità non è una caratteristica accettabile, è un problema da risolvere.

There is an uncomfortable fact at the heart of modern artificial intelligence: we build systems that work extraordinarily well without being able to fully explain why. A large language model is not programmed with explicit rules; it is a tangle of billions of parameters whose behavior emerges from training. When it produces a correct answer — or an error — the causal chain that generated it is, largely, opaque to us. This is the black-box problem.

Opening the box, one neuron at a time

A young discipline, mechanistic interpretability, tries to do for neural networks what biology does for organisms: understand the internal mechanisms, not just observe behavior. The problem is that artificial "neurons" are polysemantic: the same neuron fires for unrelated concepts, which makes the network unreadable. The Anthropic lab showed that using dictionary learning techniques (sparse autoencoders) it is possible to decompose this confusion into interpretable features — units corresponding to precise concepts. From "Towards Monosemanticity" (October 2023), the work scaled, in May 2024, to extracting millions of them from Claude 3 Sonnet, up to the public "Golden Gate Claude" demo: by artificially amplifying the Golden Gate Bridge feature, the model began to talk about it obsessively (Anthropic).

From concepts to circuits

Identifying concepts is only half the job: you must understand how they chain together. In March 2025 Anthropic published its work on circuit tracing — "On the Biology of a Large Language Model" — reconstructing internal computation paths and showing, for example, that the model sometimes plans ahead (choosing a line's final rhyme before writing it) or reasons in intermediate steps not visible in the output (Anthropic).

Why this is not an academic exercise

Understanding internal mechanisms is not curiosity: it is safety. If we don't know how a model reaches a decision, we cannot notice when it deceives, discriminates or "hallucinates" with confidence. That is why Dario Amodei, Anthropic's CEO, spoke openly of the "urgency of interpretability" (April 2025), and why regulation pushes toward transparency: the EU AI Act's relevant obligations mature from August 2026.

A necessary dose of humility remains: today we can read fragments of an artificial mind, not the whole mind. But the direction is clear. Entrusting important decisions to systems we do not understand is not a defensible position for long: opacity is not an acceptable feature, it is a problem to be solved.

#interpretabilità#AI safety#Anthropic#black box

Intelligenze opache: perché non sappiamo come "ragionano" le AI (e cosa stiamo facendo)

Aprire la scatola, un neurone alla volta

Dai concetti ai circuiti

Perché non è un esercizio accademico

Opening the box, one neuron at a time

From concepts to circuits

Why this is not an academic exercise

Articoli correlati

La prima mappa globale delle reti di funghi sotterranei: filamenti lunghi quanto centinaia di volte la distanza dal Sole

Menti ibride: la mente estesa e il rischio dell'offloading cognitivo

Il bias del punto cieco: perché "io non ci casco" è il primo segnale di vulnerabilità

Ricevi le analisi che contano