De ce modelele de limbaj halucinează: Concluziile studiului OpenAI din septembrie 2025


Un nou studiu publicat de OpenAI pe 4 septembrie 2025, semnat de Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala și Edwin Zhang, analizează cauzele halucinațiilor în modelele de limbaj mari (LLM-uri). Aceste halucinații sunt răspunsuri plauzibile, dar incorecte, generate de modele atunci când sunt nesigure.

Articolul, intitulat Why Language Models Hallucinate, arată că fenomenul nu este o problemă inerentă modelelor, ci rezultă din presiuni statistice în pre-antrenare și din modul de evaluare în etapele ulterioare. Studiul propune soluții practice, bazate pe ajustarea metodelor de evaluare, pentru a reduce erorile fără a fi necesare schimbări majore în arhitectura modelelor.

Pre-antrenarea: erori statistice inevitabile

Analiza este structurată în două etape: pre-antrenarea, unde halucinațiile apar ca erori naturale de învățare, și post-antrenarea, unde ele persistă din cauza modului în care sunt evaluate modelele.

Autorii folosesc un cadru teoretic din teoria învățării computaționale, reducând generarea de text la probleme de clasificare binară. Halucinațiile sunt definite ca erori în sarcina „Is-It-Valid” (IIV), unde modelul trebuie să decidă dacă o propoziție generată este validă sau nu.

Această reducere permite stabilirea unei relații matematice între rata de eroare generativă și rata de eroare în clasificarea IIV: rata de eroare generativă este cel puțin de două ori mai mare decât rata de eroare IIV, minus ajustări minore pentru distribuții specifice.

În pre-antrenare, halucinațiile apar din presiuni statistice inevitabile. Modelele învață distribuția limbajului dintr-un corpus de date, presupunând inițial că acestea sunt perfecte. Totuși, generarea de output-uri valide este mai dificilă decât clasificarea binară, deoarece implică verificarea implicită a validității fiecărui răspuns posibil.

Autorii demonstrează prin Teorema 1 că, pentru orice distribuție de antrenare unde probabilitatea output-urilor valide este 1, rata de eroare a modelului (err) satisface inegalitatea:

err ≥ 2 · err_iiv − |V|/|E| − δ

unde err_iiv este rata de eroare în IIV, V este mulțimea output-urilor valide, E este spațiul total de output-uri, iar δ reprezintă o diferență de probabilitate între modelul de bază și distribuția reală. Cu alte cuvinte, dacă modelul nu poate distinge perfect afirmațiile incorecte de cele corecte, halucinațiile apar în mod natural ca erori de clasificare.

De exemplu, în experimente cu întrebări simple, precum data nașterii lui Adam Tauman Kalai, un model open-source de ultimă generație a generat răspunsuri incorecte („03-07”, „15-06”, „01-01”), ilustrând cum erorile statistice duc la afirmații plauzibile, dar false.

Post-antrenarea: evaluări care favorizează ghicitul

Post-antrenarea accentuează problema prin evaluări ce recompensează ghicitul în locul admiterii incertitudinii. Majoritatea benchmark-urilor, precum MMLU-Pro, GPQA sau BigBench Hard, folosesc scoruri binare de acuratețe, unde răspunsul „Nu știu” (IDK) nu primește niciun punct.

Aceasta creează o epidemie a penalizării incertitudinii, optimizând modelele să fie „bune la teste” în loc să fie de încredere. Autorii compară acest comportament cu elevii care ghicesc la examene grilă sau blufează la lucrările scrise, generând răspunsuri plauzibile doar pentru a maximiza scorul.

Chiar și în evaluări recente precum Humanity’s Last Exam (HLE), unde se măsoară eroarea de calibrare, performanța rămâne scăzută: acuratețe sub 30 %, eroare de calibrare peste 70 %. Autorii critică însă această metrică, arătând că un model poate halucina 100 % din timp cu eroare de calibrare zero, dacă indică mereu încredere scăzută în răspunsurile incorecte.

Experimente și rezultate

Experimentele confirmă aceste concluzii prin exemple controlate. Autorii arată că un model antrenat să ghicească poate obține scoruri mai bune la teste binare, dar produce mai multe halucinații.

De exemplu, în sarcini de tip „What is the title of Adam Tauman Kalai’s dissertation?”, modelele generează titluri fictive plauzibile, în loc să răspundă prin „nu știu”.

Autorii propun și un experiment teoretic: dacă evaluările ar recompensa abstinența cu un scor parțial (de pildă, 0,5 pentru IDK în loc de 0), rata de eroare ar scădea semnificativ. În simulări, un model cu rată de abstinență de 52 % reduce erorile mai eficient decât unul cu rată minimă de abstinență, demonstrând că optimizarea pentru încredere calibrată depășește simpla maximizare a acurateței.

Concluzii

Halucinațiile nu sunt un mister, ci consecința unor teste croite să premieze răspunsul cu orice preț, chiar și greșit, în loc să încurajeze recunoașterea lipsei de răspuns. Autorii recomandă o soluție socio-tehnică: ajustarea benchmark-urilor dominante astfel încât să nu penalizeze admiterea incertitudinii.

Introducerea unor teste dedicate pentru halucinații nu ar fi suficientă, deoarece ponderea lor ar fi prea mică pentru a contracara presiunea evaluărilor binare. În schimb, modificarea modului de punctare în clasamente precum HELM sau Open LLM Leaderboard – prin acordarea unui credit parțial pentru incertitudine – ar orienta dezvoltarea spre modele mai de încredere.

Aceasta ar putea reduce halucinațiile în aplicații critice, cum ar fi diagnosticul medical, fără a sacrifica performanța generală.

Studiul avertizează că, fără astfel de schimbări, halucinațiile vor persista chiar și la modelele de vârf, subminând încrederea utilizatorilor. Concluzia autorilor este clară: „The numerous primary evaluations must be adjusted to stop penalizing abstentions when uncertain.”

Why Language Models Hallucinate – OpenAI, 4 septembrie 2025

Te-AI pregătit pentru ce vine?
Abonează-te la "Pulsul AI", newsletter-ul care te ține la zi cu noutățile din Inteligența Artificială. Fără hype sau panică. Doar ce contează.

Ultimele Știri

Noutăți din AI