Dr. Fei-Fei Li, considerată „nașa” inteligenței artificiale, a explicat într-o conferință, de ce îi este dificil unui robot să execute chiar și o instrucțiune simpă, precum: „deschide sertarul de sus, dar ai grijă să nu răstorni vasul de flori”.
Pentru un copil de cinci ani, este o sarcină trivială dar pentru cele mai avansate sisteme robotice din 2025, rămâne încă un exercițiu aproape imposibil.
De ce e atât de greu?
O astfel de instrucțiune aparent banală implică simultan:
• înțelegere lingvistică abstractă („ai grijă”, „să nu răstorni”) care presupune noțiuni despre intenții, risc și consecințe;
• percepție 3D într-un mediu dezordonat și cu obiecte parțial ascunse;
• raționament spațial fin, pentru a anticipa traiectorii sigure în prezența unui obiect fragil;
• gestionarea incertitudinii – cât deviază mâna robotică, câtă forță e necesară pentru a trage sertarul fără a vibra masa.
În reinforcement learning clasic, un asemenea task ar necesita milioane de încercări – iar recompensa apare doar la final. În mod natural, robotul ar sparge vasul de nenumărate ori până ar învăța. Un om are nevoie de una-două demonstrații sau pur și simplu de instrucțiunea verbală.
Asta pentru că oamenii vin cu un ansamblu de modele predictive intuitive despre fizică, fragilitate, intenție și consecință. Ele operează automat, fără deliberare explicită și fără calcule de mare putere.
Ce aduce nou VoxPoser
Laboratorul lui Fei-Fei Li a construit VoxPoser, un sistem bazat pe LLM-uri care sparge instrucțiunea în acțiuni mai mici și generează planuri de mișcare conștiente de obstacole. În simulare, sistemul rezolvă peste 20 de sarcini casnice în regim zero-shot. În lumea reală, performanța rămâne încă fragilă.
Progresul este autentic și impresionant, dar diferența față de robustețea umană rămâne uriașă.
Concluzia imediată
Roboți generali care să ne înlocuiască în case nu vom avea în viitorul foarte apropiat așa cum sugerează unii. Problemele nu țin doar de date sau putere de calcul, ci de absența unui „bun-simț” fizic și contextual integrat – o capacitate care, la oameni, e rezultatul unei dezvoltări biologice și cognitive de milioane de ani.
În cazul roboților din fabrici lucrurile stau mult mai ușor pentru că vorbim de medii fizice controlate.
Lumea reală e însă plină de excepții imprevizibile. Sistemele actuale se dezechilibrează rapid odată scoase din contexte foarte controlate.
Concluzia mai profundă (ontologică)
Materialiștii vin cu acest argument că inteligența ar fi „doar” algoritmi + date + timp. În viziunea lor, totul e doar o chestiune de scalare computațională și de îmbunătățire a algoritmilor pentru a reproduce ceea ce face un om.
Dar cu cât avansăm mai mult vedem că aceasta teorie devine tot mai șubredă. Cei din robotică și AI, precum Dr Fei-Fei Li, știu cât de dificil sunt de reprodus chiar și cele mai simple acțiuni.
E explicabil de ce tot mai mulți cercetători se gândesc că poate inteligența nu este reductibilă la puterea computațională și algoritmi și că e ceva mai mult de atât.
Materialiști hardcore vor contrargumenta la nesfârșit, spunând că poate nu am ajuns încă la combinația potrivită de arhitecturi, hardware și software. Așa cum învățarea profundă părea marginală înainte de 2012, tot așa e posibil ca un nou salt tehnic să apară.
Argumentație validată de multiple alte momente în evoluția tehnologică când următoare iterație de tehnologie a rezolvat ceea ce se credea imposibil.
Doar că de această dată, se intră pe un teritoriu posibil guvernat și de alte forțe și principii ce transced dimensiunea fizicii newtoniene.
Adevărata dificultate — și locul unde apar nuanțele solide — nu rezidă într-o „dovadă” că inteligența nu poate fi algoritmică, ci în faptul că, pe măsură ce înțelegem mai bine complexitatea proceselor cognitive și neurobiologice, apar tot mai multe zone în care modelele actuale nu reușesc nici măcar să se apropie conceptual de ceea ce oamenii fac spontan.
Încercarea de a reproduce abilități aparent banale — prinderea delicată a unui obiect fragil, anticiparea consecințelor unei mișcări, interpretarea unui „ai grijă” — scoate la suprafață un tip de dificultate fundamentală, nu doar tehnică.
Nu doar că nu avem încă modelele, dar nici nu știm prea bine ce fel de modele ar trebui să construim pentru a obține acel bun-simț implicit.
Pe acest fundal, unii cercetători încep să exploreze și cadre interpretative alternative, inclusiv perspective filozofice sau teologice asupra naturii inteligenței și conștiinței.
Nu ca explicații mistice, ci ca încercări de a formula ipoteze despre faptul că realitatea mentală ar putea avea proprietăți care nu se lasă reduse simplu la calcul.
Dificultățile persistente din robotică — tocmai în zonele unde credeam că „doar mai trebuie să scalăm” — întăresc discuția despre posibilitatea ca ființele vii să manifeste o formă de integrare cognitivă pe care arhitecturile artificiale actuale nici măcar nu știu cum să o aproximeze.
Nu e o concluzie finală. Dar este o schimbare de nuanță care devine tot mai greu de ignorat: cu cât avansăm în cercetare, cu atât devine mai clar că lipsa progresului nu se explică simplu prin „nu avem destule GPU-uri”, ci printr-un decalaj conceptual profund între felul în care funcționează sistemele artificiale și felul în care funcționează viața inteligentă.
Iar faptul că promisiunile „AGI în 5 ani” continuă să fie amânate nu dovedește nimic de la sine — dar ridică întrebări despre ce anume nu vedem încă în structura realității cognitive.
Dacă vreți să aflați mai multe despre Dr Fei Fei Li și de ce i se spune Nașa AI-ului
Mai jos puteți vedea întregul discurs in care Dr Fei Fei Li a facut aceasta afirmatie


