Pe 5 aprilie 2025, Meta a lansat seria Llama 4, formată din trei modele de inteligență artificială: Llama 4 Scout, Llama 4 Maverick și Llama 4 Behemoth. Aceste modele open-source sunt concepute pentru a gestiona sarcini multimodale, procesând text, imagini și video, cu perspective de extindere către audio. Lansarea marchează un pas semnificativ pentru Meta în cursa pentru dezvoltarea AI, poziționând compania ca un competitor direct al unor jucători precum OpenAI, Google și DeepSeek. În acest articol, vom explora detaliile tehnice ale modelelor, contextul lansării și impactul lor asupra industriei tehnologice.
Detalii tehnice despre modele
Llama 4 scout
Llama 4 Scout este un model cu 17 miliarde de parametri activi și 109 miliarde de parametri totali, utilizând o arhitectură Mixture-of-Experts (MoE) cu 16 experți. Această structură permite activarea selectivă a parametrilor în funcție de sarcină, reducând consumul de resurse computaționale. Modelul dispune de o fereastră de context de 10 milioane de tokeni, echivalentul a aproximativ 15.000 de pagini de text, ceea ce îl face potrivit pentru procesarea unor volume mari de informații, cum ar fi documente extinse sau baze de cod. Scout poate rula pe un singur GPU Nvidia H100 (cu cuantizare INT4), fiind accesibil pentru dezvoltatori cu resurse limitate. În benchmark-uri, a obținut rezultate mai bune decât Gemma 3, Gemini 2.0 Flash-Lite și Mistral 3.1. De asemenea, folosește arhitectura iRoPE pentru a gestiona eficient atenția pe contexte lungi și poate procesa până la 8 imagini per prompt.
Llama 4 maverick
Llama 4 Maverick are tot 17 miliarde de parametri activi, dar cu 128 de experți și 400 de miliarde de parametri totali. Fereastra sa de context este de 1 milion de tokeni, adică aproximativ 1.500 de pagini de text. Spre deosebire de Scout, Maverick nu poate rula pe un singur GPU, necesitând un sistem Nvidia H100 DGX sau inferență distribuită pentru eficiență. Este optimizat pentru sarcini multimodale, în special pentru alinierea prompturilor utilizatorilor cu concepte vizuale, cum ar fi ancorarea răspunsurilor la regiuni specifice dintr-o imagine. În teste, a obținut rezultate comparabile cu DeepSeek v3 în raționament și programare, având doar jumătate din parametrii activi ai acestuia, și a depășit GPT-4o și Gemini 2.0 Flash pe mai multe benchmark-uri. Versiunea de chat a lui Maverick a atins un scor ELO de 1417 pe LMArena, iar costurile de inferență sunt estimate între 0,19 și 0,49 dolari per milion de tokeni, pe baza unui raport de intrare-ieșire de 3:1.
Llama 4 behemoth
Llama 4 Behemoth este cel mai mare model din serie, cu 288 de miliarde de parametri activi și 2 trilioane de parametri totali. Este încă în faza de antrenare, Meta oferind doar o previzualizare a performanțelor sale. În benchmark-urile interne, Behemoth a depășit GPT-4.5, Claude Sonnet 3.7 și Gemini 2.0 Pro în sarcini STEM, cum ar fi rezolvarea problemelor de matematică. Totuși, conform VentureBeat, rămâne în urma DeepSeek R1 și OpenAI o1 pe anumite metrici, cum ar fi MATH-500 și MMLU, deși a obținut rezultate mai bune decât DeepSeek R1 pe GPQA Diamond. Behemoth necesită hardware mai avansat decât Scout și Maverick, dar cerințele exacte nu au fost specificate.
Contextul lansării
Lansarea Llama 4 vine într-un moment în care Meta încearcă să recupereze teren în fața competitorilor din domeniul AI. Reuters notează că Meta a amânat lansarea din cauza unor performanțe sub așteptări în raționament și matematică, domenii în care modelele OpenAI, precum o1, au un avantaj. De asemenea, Llama 4 a fost mai puțin capabil decât modelele OpenAI în conversații vocale cu un ton uman. Pentru a răspunde acestor provocări, Meta a alocat un buget de 65 de miliarde de dolari pentru infrastructura AI în 2025.
Modelele Llama 4 sunt open-source, o strategie prin care Meta își propune să atragă comunitatea de dezvoltatori. Compania a colaborat cu parteneri precum Hugging Face, Snowflake și Databricks pentru a facilita accesul la modele. Llama 4 Scout și Maverick sunt disponibile pentru descărcare pe site-ul llama.com, în timp ce Behemoth nu este încă accesibil publicului. Meta a integrat modelele în aplicațiile proprii, precum WhatsApp, Messenger și Instagram, extinzând astfel utilizarea lor.
Arhitectura mixture-of-experts
Toate cele trei modele folosesc arhitectura Mixture-of-Experts (MoE), care combină mai mulți „experți” specializați în sarcini diferite, cum ar fi procesarea textului, imaginilor sau raționamentul. Doar un subset de parametri este activat pentru fiecare token, ceea ce reduce consumul de resurse. De exemplu, în cazul lui Maverick, doar 17 miliarde din cei 400 de miliarde de parametri sunt activi la un moment dat. Această abordare, popularizată de modele precum cele de la OpenAI și Mistral, permite o eficiență mai mare în inferență, reducând costurile și latența. VentureBeat subliniază că această arhitectură face ca Llama 4 să fie competitiv în raportul performanță-cost, un aspect evidențiat și de scorul ELO al lui Maverick pe LMArena.
Performanțe și comparații
Llama 4 Scout și Maverick au fost testate pe benchmark-uri standard, obținând rezultate notabile. Scout a depășit Gemma 3, Gemini 2.0 Flash-Lite și Mistral 3.1, fiind optimizat pentru sarcini precum sumarizarea documentelor și raționamentul pe baze de cod lungi. Maverick a obținut rezultate comparabile cu DeepSeek v3 în raționament și programare, depășind GPT-4o și Gemini 2.0 Flash. Behemoth, deși nu este finalizat, a arătat rezultate competitive în benchmark-uri STEM, dar rămâne în urma DeepSeek R1 și OpenAI o1 pe anumite metrici.
Fereastra de context de 10 milioane de tokeni a lui Scout a atras atenția comunității tech. Un dezvoltator a comentat: „10M tokeni? Este o capacitate impresionantă” [sursa: refiammingo], în timp ce un altul a ridicat întrebarea: „Poate rula pe un singur GPU?” [sursa: atphacking]. Răspunsul este afirmativ pentru Scout, dar Maverick necesită hardware mai puternic.
Impactul asupra industriei
Lansarea Llama 4 are implicații importante pentru industria AI. Fereastra de context de 10 milioane de tokeni a lui Scout ridică întrebarea dacă sistemele Retrieval-Augmented Generation (RAG) mai sunt necesare. RAG este folosit pentru a gestiona date dinamice prin recuperarea informațiilor relevante, dar un context atât de mare ar putea permite modelelor să proceseze direct volume uriașe de date. Totuși, RAG rămâne util pentru aplicații care necesită actualizări în timp real, unde cunoștințele modelului (limitate la august 2024) nu sunt suficiente.
Accesibilitatea este un alt impact major. Faptul că Scout poate rula pe un singur GPU îl face atractiv pentru dezvoltatori independenți și cercetători. Maverick, cu performanțele sale multimodale, este potrivit pentru aplicații complexe, cum ar fi agenți AI sau chat-uri avansate. Costurile reduse de inferență, estimate de Meta la 0,19-0,49 dolari per milion de tokeni, fac modelele competitive față de soluții proprietare precum cele de la OpenAI.
Meta a introdus și instrumente de siguranță, cum ar fi Llama Guard, Prompt Guard și CyberSecEval, pentru a detecta inputuri sau ieșiri nesigure. De asemenea, a implementat Generative Offensive Agent Testing (GOAT) pentru testarea automată a vulnerabilităților, un pas important pentru alinierea modelelor cu standardele etice.
Concluzie
Llama 4 reprezintă un progres semnificativ pentru Meta în domeniul AI, oferind modele open-source care combină eficiența cu performanța multimodală. Scout și Maverick sunt disponibile pentru descărcare, în timp ce Behemoth rămâne în faza de antrenare. Fereastra de context de 10 milioane de tokeni a lui Scout și capacitățile de imagine ale lui Maverick deschid noi posibilități pentru aplicații AI, de la sumarizarea documentelor la agenți conversaționali. Totuși, provocările legate de raționament și competiția cu modele precum OpenAI o1 arată că mai este loc de îmbunătățiri. Prin strategia open-source și colaborările cu parteneri precum Hugging Face, Meta își consolidează poziția în comunitatea AI.