O echipă de cercetători de la Anthropic a propus o metodă nouă pentru a investiga procesele interne ale rețelelor neurale: așa-numitele „hărți de atribuire” (attribution graphs).
Studiul lor, publicat în martie 2025 pe platforma independentă transformer-circuits.pub, analizează în profunzime modelul Claude 3.5 Haiku și oferă o privire fără precedent asupra modului în care acesta construiește concepte, planifică răspunsuri și ia decizii complexe.
Scopul cercetării este de a aduce mai multă transparență în comportamentul modelelor AI și de a pune bazele unei „neuroștiințe” a inteligenței artificiale – un demers care să facă aceste sisteme mai înțelese și mai previzibile.
“Biologia” LLM-urilor
Când biologii doresc să înțeleagă cum funcționează un organism complex, folosesc microscopul pentru a privi celulele și modul în care acestea interacționează. Analog, cercetătorii care studiază inteligența artificială utilizează instrumente speciale pentru a explora cum „gândesc” rețelele neurale, precum modelele Transformer, care alimentează tehnologiile avansate de astăzi.
Unul dintre aceste instrumente se numește „harta (graf) de atribuire”. În informatică și matematică, termenul „graf” reprezintă o structură formată din puncte (numite noduri) conectate între ele prin linii (numite muchii). Un astfel de graf permite vizualizarea relațiilor și interacțiunilor dintre elementele unei structuri complexe. În cazul AI-ului, aceste hărți de atribuire arată clar care elemente interne („neuroni artificiali” sau concepte interne numite „features”) influențează direct răspunsurile modelului la diverse solicitări.
Cum funcționează o hartă (graf) de atribuire?
Imaginați-vă această hartă ca pe o schemă electrică detaliată, unde fiecare componentă influențează următoarea etapă a procesului. Când un model Transformer (precum Claude 3.5 Haiku, utilizat în studiul analizat) primește o solicitare, începe o reacție în lanț internă: anumite concepte („features”) se activează, declanșând activarea altor concepte, până când se ajunge la răspunsul final.
Cercetătorii au tradus aceste procese interne în noduri („features”) și muchii (relații de influență), formând grafuri detaliate care arată cum exact ajunge modelul la o concluzie.
Analogii biologice: celule și proteine
Exact cum proteinele dintr-o celulă biologică interacționează pentru a realiza funcții complexe, „neuroni artificiali” ai Transformerelor interacționează prin aceste hărți de atribuire pentru a genera răspunsuri coerente și precise. Unele concepte sunt active frecvent, precum enzimele-cheie, iar altele sunt specializate, reacționând doar la anumite tipuri de solicitări.
Studiul cazului: deducția în doi pași „Dallas → Texas → Austin”
Un exemplu ilustrativ prezentat în studiul recent („Biology of the Transformer Attribution Graph”, 2025) este cazul unui prompt simplu: „Capitala statului care conține Dallas este…”. Răspunsul corect este „Austin”, iar graful de atribuire a dezvăluit clar că modelul face o deducție internă în doi pași: mai întâi activează conceptul „Texas” pornind de la „Dallas”, apoi activează conceptul „capitală”, combinându-le pentru a genera răspunsul „Austin”.

Aceste rezultate demonstrează că AI-ul folosește adesea metode logice interne similare gândirii umane, nu doar memorări brute ale informației.
Planificare în avans și gândire strategică
Cercetătorii au descoperit și că modelele AI pot anticipa anumite rezultate și apoi să-și ajusteze răspunsurile pentru a ajunge la acestea. De exemplu, la generarea unei poezii, modelul stabilește mai întâi rima finală și abia apoi compune versurile. Această metodă amintește de strategia unui poet uman care își stabilește ținta și apoi planifică înapoi de la aceasta.
Limbaj intern universal și multilingvism
Un aspect fascinant relevat de aceste hărți este că modelele Transformer posedă un fel de „limbaj intern universal”, independent de limba în care primesc solicitarea. Aceleași circuite logice interne sunt activate indiferent dacă solicitarea este în engleză, franceză sau chineză, cu adaptări finale doar pentru a livra răspunsul în limba cerută.
Circuite interne specializate: similarități cu biologia
Studiul a identificat circuite interne reutilizabile (precum cel de adunare aritmetică), care apar în contexte multiple. Acest lucru este similar cu modul în care natura folosește proteine sau celule identice în contexte biologice variate, optimizând resursele și funcțiile.
Introspecția modelului: când AI-ul știe că nu știe
Aceste hărți au dezvăluit și mecanisme interne prin care modelul își dă seama când nu cunoaște un răspuns și decide să refuze politicos sau să semnaleze că nu este sigur. E ca și cum modelul ar avea un sistem intern de alarmă, declanșat atunci când detectează solicitări despre subiecte necunoscute sau riscante.
Concluzie: cunoașterea prin transparență
Analiza hărților (grafurilor) de atribuire marchează un pas înainte esențial în transparența inteligenței artificiale. Precum biologii folosesc microscopul pentru a înțelege funcționarea celulelor, aceste hărți ne permit să privim clar în „creierul” modelelor AI, să înțelegem logica lor internă și să dezvoltăm astfel sisteme mai inteligente și mai explicabile.
Această metodă de cercetare deschide calea către o neuroștiință artificială autentică, unde, înțelegând procesele AI-ului la un nivel fundamental, vom putea crea inteligențe artificiale nu doar mai eficiente, dar și mai ușor de înțeles și integrat în viața noastră.
Pentru mai multe detalii: Antrophic Paper