lmarena.ai este o platformă open-source care îți permite să compari și să evaluezi cele mai avansate modele de inteligență artificială, precum ChatGPT, Gemini, Claude și Llama. Utilizatorii pot pune întrebări și vota între două modele anonime prin două moduri: Arena (battle), unde AI-urile se duelează într-o luptă directă, și Arena (side-by-side), oferind o comparare paralelă a răspunsurilor.
Platforma este dezvoltată de membrii LMSYS și UC Berkeley SkyLab. lmarena.ai folosește proiectul FastChat de pe GitHub și încurajează participarea comunității pentru a îmbunătăți calitatea evaluărilor. Printre colaboratori se numără și profesorul de la UC Berkley, Ion Stoica, unul dintre cei mai cunoscuți experți din lume în inteligență artificială, cloud și sisteme cibernetice complexe.
Datele și modelele platformei sunt disponibile pe HuggingFace pentru cercetare și dezvoltare ulterioară.
Moduri de comparare și secțiuni din LMSYS Chatbot Arena (Multimodal):
- Arena (battle): Două modele anonime (de exemplu, ChatGPT, Gemini, Claude, Llama) sunt puse unul împotriva celuilalt. Utilizatorii pot pune întrebări și vota modelul preferat după o conversație. Identitatea modelului nu trebuie dezvăluită.
- Arena (side-by-side): Permite o comparare paralelă a modelelor, utilizatorul putând evalua direct răspunsurile date de fiecare model.
- Leaderboard: Clasamentele se bazează pe voturi umane, colectând peste 1 milion de evaluări. Modelele sunt ordonate după un scor de tip Elo.
- RedTeam Arena: O secțiune dedicată pentru testarea vulnerabilităților („jailbreaking”) modelelor, permițând utilizatorilor să încerce metode de a exploata limitările acestora.
- Chat cu modele VLM: Oferă suport pentru conversații multimodale, permițând utilizatorilor să încarce imagini (sub 15 MB) și să interacționeze cu modele care procesează atât text cât și imagini.
- Reguli:
- Întrebările pot fi adresate către două modele alese.
- Se poate continua conversația până când se identifică un câștigător.
- Conversațiile sunt logate în scopuri de cercetare.
Platforma poate fi accesata aici: https://lmarena.ai/