DeepMind a dezvăluit o metodă prin care modelele vizuale AI îşi organizează reprezentările interne a ceea ce „văd” într-un mod mai apropiat de clasificările conceptuale pe care le fac oamenii.
Context actual
- În prezent modelele vizuale AI grupează imaginile după trăsături superficiale: textură, formă, culoare. Ele sunt incapabile să facă corelații conceptuale de tip uman. De exemplu, un model poate considera o pisică mai apropiată de o stea de mare decât de o vulpe, doar pentru că fundalul sau textura sunt similare.
- În testele cognitive clasice se folosește metoda “odd one out”, prin care se scoate imaginea care nu se leagă conceptual de celelalte două. În aceste teste modelele actuale şi oamenii dau răspunsuri divergente într-o proporție destul de mare, în doar aproximativ 40% de situații răspunsurile coincid.
- DeepMind încearcă să reducă acest decalaj prin învățarea modelelor să dezvolte corelaţii conceptuale similare cu cele umane, fără a reantrena modelul de la zero.

Cum funcționează noua metodă
- Un model numit „Profesor” este creat prin fine-tuning-ul unui model vizual pre-antrenat (SigLIP-S0 400M) cu un set mic de date, construit din selecții de tip “odd one out” făcute exclusiv de oameni.
- Modelul “Profesor” generează un set mare de date sintetice, denumit AligNet, format din milioane de triplete de imagini și decizii de tip „care nu aparține grupului”.
- Un nou model „student” este antrenat pe setul de date AligNet pentru a-și restructura harta de reprezentări vizuale astfel încât să reflecte mai fidel structurile conceptuale umane (de exemplu, câinii sunt mai aproape de alte animale decât de vehicule, chiar dacă alte elemente secundare sunt similare – cum ar fi fundalul sau paleta cromatică).
Rezultate
- Modelele realiniate (adică învățate să facă corelații conceptuale mai aproape de cum fac oamenii) s-au dovedit mai robuste la variații de distribuție — adică performează mai bine când apar imagini sau condiții noi față de cele din antrenament.
- Datele statistice arată că modelele AI nealiniate aleg corect „imaginea care nu se potrivește” doar în 35–51 % din cazuri, dar după ce sunt aliniate cu AligNet ajung la 60,5–62,5 %, adică extrem de aproape de plafonul maxim uman de ~67 % – limita peste care nici oamenii între ei nu se pun perfect de acord.
- În sarcini de învățare cu puține exemple (few-shot learning), aceste modele au arătat o generalizare mai bună, semn că reorganizarea conceptuală are efecte concrete asupra adaptabilității și capacității de auto-învățare.
- În plus, modelele realiniate manifestă o incertitudine similară celei umane: timpul lor de decizie în sarcini ambigue corelează cu timpul de reacție al subiecților umani.
Care sunt următorii pași
DeepMind a publicat un articol în jurnalul Nature care detaliază metoda și rezultatele. Cercetătorii oferă și resurse tehnice pentru reproducere, inclusiv setul de date Alignet și codul aferent pe Github.
Dacă metoda poate fi reprodusă și de alte echipe și se dovește viabilă în sistemele vizuale complexe din lumea reală (de exemplu în robotică, vehicule autonome sau sisteme de analiză video) putem vorbi de o piesă importantă în construirea modelelor de inteligență generală și cel mai important necostisitoare și ușor de implementat.
Surse:
https://deepmind.google/blog/teaching-ai-to-see-the-world-more-like-we-do/
https://www.nature.com/articles/s41586-023-06958-4






