Humanity’s Last Exam – “Ultimul Examen al Umanității” pentru evaluarea Inteligenței Artificiale

Modelele de inteligență artificială obțin rezultate maxime pe benchmark-urile tradiționale, motiv pentru care un grup de cercetători a propus un standard nou de evaluare: Humanity’s Last Exam. Acest examen este conceput pentru a măsura în mod clar limitele cunoașterii și raționamentului la nivel de expert ale sistemelor AI.

Motivația și necesitatea noului mod de evaluare

Modelele AI au demonstrat performanțe bune pe teste standardizate precum MMLU, însă aceste benchmark-uri nu mai permit o diferențiere clară între un sistem capabil să răspundă la întrebări de nivel universitar și unul care poate aborda probleme la nivel de expert. Pentru a aborda această problemă, Humanity’s Last Exam a fost creat pentru a testa capacitățile de raționament și aplicare a cunoștințelor într-un context mai complex și diversificat.

Ce implică Humanity’s Last Exam?

Acest benchmark reunește 3.000 de întrebări elaborate, acoperind peste o sută de domenii – de la matematică și științe naturale, la științe umaniste și sociale. Întrebările sunt concepute de experți din întreaga lume, incluzând profesori, cercetători și specialiști din industrie, pentru ca răspunsurile să fie clare și verificabile. Procesul de selecție a început cu peste 70.000 de propuneri, ulterior filtrate și revizuite de comunitatea academică, rezultând în setul final de întrebări publice, alături de un grup restrâns de întrebări rezervate pentru evaluări ulterioare.

Exemple și formatul întrebărilor

Întrebările de la Humanity’s Last Exam solicită nu doar cunoaștere factuală, ci și aplicarea gândirii critice și a raționamentului în mai mulți pași. De exemplu, o întrebare din domeniul ecologiei se prezintă astfel:

“Hummingbirds within Apodiformes uniquely have a bilaterally paired oval bone, a sesamoid embedded in the caudolateral portion of the expanded, cruciate aponeurosis of insertion of m. depressor caudae. How many paired tendons are supported by this sesamoid bone? Answer with a number.”

“Colibrii din ordinul Apodiformes au, în mod unic, un os oval prezent în pereche bilaterală – un os sesamoid încorporat în porțiunea caudolaterală a aponeurozei extinse și cruciate de inserție a musculului depressor caudae. Câte tendoane pereche sunt susținute de acest os sesamoid? Răspundeți cu un număr.”

Această întrebare necesită o înțelegere a anatomiei comparate și capacitatea de a interpreta termeni tehnici specifici, ceea ce nu poate fi rezolvat prin simpla căutare pe internet.

Rezultatele experimentale

Testele efectuate pe Humanity’s Last Exam au arătat că modelele actuale – cum ar fi GPT-4o, Claude 3.5 Sonnet, Google Gemini 1.5 Pro și OpenAI o1 – au reușit să ofere răspunsuri corecte la mai puțin de 10% din întrebări. Aceste rezultate indică că există încă diferențe notabile între performanțele modelelor de AI și nivelul de expertiză al specialiștilor umani.

Impactul și perspectivele viitoare

Humanity’s Last Exam este un instrument de evaluare care identifică punctele slabe în raționamentul AI și oferă direcții clare pentru dezvoltările viitoare. Pe lângă rolul său de benchmark, proiectul implică și comunitatea de experți, oferind premii financiare și oportunitatea de coautorat pentru întrebările alese.

Concluzie

Humanity’s Last Exam reprezintă o abordare nouă în evaluarea inteligenței artificiale. Deși modelele actuale se descurcă bine pe teste convenționale, acest examen arată că există încă provocări legate de aplicarea cunoștințelor la nivel de expert. Pe măsură ce tehnologia evoluează, se așteaptă ca rezultatele la Humanity’s Last Exam să se îmbunătățească, oferind o perspectivă clară asupra progresului spre atingerea unei inteligențe generale. Acest examen servește, de asemenea, drept ghid pentru direcțiile viitoare de cercetare și dezvoltare în domeniul inteligenței artificiale.

SursăAgi Safe

Te-AI pregătit pentru ce vine?
Abonează-te la "Pulsul AI", newsletter-ul care te ține la zi cu noutățile din Inteligența Artificială. Fără hype sau panică. Doar ce contează.

Ultimele Știri

Noutăți din AI