Recursive Language Models: MIT a găsit o soluție pentru problema de memorie a LLM-urilor


Cercetători de la MIT au descoperit o strategie de inferență numită Recursive Language Models (RLM), care permite modelelor mari de limbaj (LLM) să opereze prompt-uri de dimensiuni mult peste limitele ferestrelor de context convenționale.

Studiul, publicat pe 31 decembrie 2025 pe arXiv și semnat de Alex L. Zhang, Tim Kraska și Omar Khattab, arată că această abordare poate scala procesarea contextului cu până la două ordine de mărime, menținând performanța pe sarcini complexe și costuri comparabile sau, în anumite cazuri, mai reduse decât metodele existente.

Prompt-uri lungi sunt tratate ca un mediu extern, nu ca input direct

RLM tratează prompt-urile foarte lungi ca pe o stare externă, accesibilă printr-un mediu programabil de tip REPL Python. În loc să încarce integral inputul în fereastra de atenție a modelului, sistemul permite LLM-ului să genereze și să execute cod pentru a inspecta, filtra și segmenta datele, precum și pentru a lansa apeluri recursive către sub-modele pe fragmente relevante. Contextul este parcurs incremental, în funcție de necesitățile raționamentului, nu ingerat ca un tot unitar.

Performanță mai bună pe sarcini cu context masiv

Evaluările raportate includ teste pe modele de mari dimensiuni, precum GPT-5 și Qwen3-Coder-480B-A35B. Pe benchmark-ul BrowseComp-Plus, care presupune agregarea informației din până la 1.000 de documente (însumând între 6 și 11 milioane de tokeni), autorii raportează o acuratețe de până la 91%, în timp ce apelurile directe ale modelului de bază obțin scoruri apropiate de zero. Pe OOLONG-Pairs, o sarcină cu complexitate quadratică, RLM atinge un scor F1 de 58%, față de sub 0,1% pentru modelele standard.

Avantaj față de sumarizare și retrieval clasic

Rezultatele indică un avantaj față de agenți bazați pe sumarizare sau pe execuție de cod combinată cu mecanisme clasice de retrieval, precum BM25. Pe sarcini cu acces dens la context, RLM își menține performanța la dimensiuni de peste 128.000 de tokeni, prag dincolo de care modelele convenționale tind să degradeze rapid.

Costul median per interogare este adesea mai mic, deoarece sunt procesate doar fragmentele strict necesare, evitând ingestia completă a prompts-ului.

Externalizarea contextului schimbă modul de lucru al modelelor

Inovația centrală constă în externalizarea gestionării contextului către un mediu programabil, într-o manieră inspirată de algoritmi out-of-core. Modelul primește un set inițial de metadate, execută cod pentru filtrare (de exemplu, regex sau slicing) și agregă răspunsuri obținute din sub-apeluri recursive.

Fără antrenare specializată, autorii notează apariția unor comportamente precum verificarea intermediară a rezultatelor sau segmentarea adaptivă a inputului.

Benchmark-uri care testează limitele raționamentului pe termen lung

Experimentele acoperă patru benchmark-uri principale: S-NIAH (căutare cu complexitate constantă), BrowseComp-Plus (agregare multi-document), OOLONG (transformare liniară) și OOLONG-Pairs (asociere quadratică), cu dimensiuni ale inputului scalate între 8.192 și 262.144 de tokeni.

Chiar și fără recursivitate explicită, varianta RLM bazată exclusiv pe REPL depășește rezultatele modelelor de bază, sugerând rolul central al execuției programabile.

Limitări și direcții viitoare

Studiul menționează limitări precum latența crescută cauzată de apelurile sincrone, decizii ineficiente în cazul modelelor neantrenate pentru acest regim și recursivitate restrânsă, de regulă, la un singur nivel. Direcțiile viitoare includ REPL-uri asincrone, antrenare dedicată pentru acest tip de inferență și suport pentru recursivitate mai profundă.

O posibilă schimbare de paradigmă pentru AI cu context lung

Problema pe care RLM încearcă să o ocolească este context rot, fenomen în care performanța LLM-urilor scade odată cu lungimea inputului, uneori chiar sub limitele teoretice ale ferestrei de context.

Metode precum RAG sau compactarea contextului tind să eșueze pe sarcini dense, unde accesul la multiple porțiuni ale inputului este esențial. RLM indică o schimbare de direcție: de la extinderea ferestrelor de context la navigare controlată în volume de informație practic nelimitate, fără modificări arhitecturale ale modelelor.

SursăArxiv

Te-AI pregătit pentru ce vine?
Abonează-te la "Pulsul AI", newsletter-ul care te ține la zi cu noutățile din Inteligența Artificială. Fără hype sau panică. Doar ce contează.

Ultimele Știri

Noutăți din AI