Experiment: LLM-uri mici interconectate pentru inferența au bǎtut modelele mari la mai multe categorii

Cercetători de la Fortytwo au dezvoltat un protocol nou pentru inferența AI descentralizată, numit swarm inference, care permite rețelelor de modele mici să colaboreze și să depășească performanțele modelelor mari centralizate pe sarcini precum generarea de cod sau raționamente complexe.

Protocolul, descris într-o lucrare publicată pe arXiv în octombrie 2025, folosește un mecanism de consens bazat pe clasamente peer-to-peer și ponderat cu reputație, obținând îmbunătățiri de până la 17,21% față de votul majoritar pe benchmark-uri precum GPQA Diamond.

Funcționarea Sistemului

Sistemul Fortytwo implică o rețea de noduri – fiecare reprezentând un model AI – care generează răspunsuri independente și apoi le evaluează reciproc prin comparații pereche.

Fiecare nod produce lanțuri de raționament de 50-100 de tokeni pentru a justifica preferințele, inspirat din principii de inteligență colectivă observate în natură, cum ar fi coloniile de furnici.

Consensul se formează folosind un model Bradley-Terry pentru estimarea scorurilor de calitate, cu ponderi bazate pe reputația nodurilor, calculată din acuratețea trecută.

Această abordare rezistă atacurilor adversarial, arătând o degradare de doar 0,12% față de 6,20% la modelele individuale, și previne infiltrări prin mecanisme de proof-of-capability.

Experimente și Rezultate

Experimentele au implicat o rețea de 35 de noduri diverse, incluzând modele precum GLM 4.5 și QWEN3, testate pe șase benchmark-uri riguroase: GPQA Diamond (științe la nivel absolvent), LiveCodeBench (codare), MATH-500 (matematică competițională), HLE (cunoștințe de frontieră), și AIME 2024-2025 (probleme de matematică avansată).

Rezultatele arată performanțe superioare: 85,90% pe GPQA Diamond față de media bazelor de 83,82%, 84,4% pe LiveCodeBench (nivel SOTA) și 99,6% pe MATH-500.

Comparativ cu modele precum xAI Grok 4 sau GPT-5 Thinking, swarm inference oferă consistență mai bună prin diversitatea nodurilor, cu îmbunătățiri notabile de la lanțurile de raționament (+5,3%) și diversitatea temperaturilor de sampling (+10,1% fără ea).

Potrivit unui raport Reuters, această arhitectură descentralizată depășește modelele AI de vârf pe benchmark-uri cheie, permițând scalare orizontală prin participarea comunitară.

Limitări și Implicații Viitoare

Printre limitări se numără latența adăugată de consens (2-5 secunde pentru interogări simple) și dificultatea de interpretare a interacțiunilor complexe în rețea, deși lanțurile de raționament oferă o oarecare transparență.

Performanța crește rapid până la 30 de noduri, dar platouează ulterior, sugerând optimizări pentru rețele moderate.

Implicațiile viitoare includ extinderi la modele multimodale (vizual-limbaj) și colaborări om-AI, potențial democratizând accesul la AI de înaltă calitate pe hardware variat, cu integrări blockchain pentru securitate economică.

Protocolul pune bazele pentru ecosisteme AI rezistente, unde inteligența emergentă apare din interacțiuni locale simple, fără dependență de infrastructuri centralizate.

Te-AI pregătit pentru ce vine?
Abonează-te la "Pulsul AI", newsletter-ul care te ține la zi cu noutățile din Inteligența Artificială. Fără hype sau panică. Doar ce contează.

Ultimele Știri

Noutăți din AI