Meta anunță SAM3 – Platforma sa pentru recunoaștere, segmentare și transformare 3D a obiectelor și persoanelor din poze și video-uri

Meta a lansat a treia versiune a platformei sale Segment Anything Model, SAM3.

SAM3 este un model AI capabil să detecteze, segmenteze şi să urmărească obiecte în imagini şi video-uri prin înțelegerea conceptelor exprimate în limbaj natural, prin prompt-uri și exemple vizuale.

Noul model poate detecta, segmenta și urmări exhaustiv toate instanțele unui concept specificat (ex. „toate mașinile galbene”) în imagini și videoclipuri, reprezentând o evoluție importantă față de predecesorii săi SAM 1 și SAM 2.

SAM 3 extinde versiunea precedentă (SAM & SAM 2) adăugând „Promptable Concept Segmentation” (PCS) — identificarea tuturor instanţelor unui concept în scenă, pe baza unei fraze text.

În paralel, Meta a lansat şi SAM 3D (Body și Objects) — două modele care permit reconstrucţia 3D a obiectelor sau corpului uman dintr-o imagine simplă.

Cele două modele – SAM 3D Objects (pentru obiecte și scene) și SAM 3D Body (pentru corpul uman) – stabilesc un nou standard în reconstrucția 3D „grounded” în lumea fizică reală, depășind limitele soluțiilor anterioare care funcționau bine doar pe imagini sintetice sau puse în scenă.

Potrivit blogului oficial Meta AI, SAM 3D transformă o fotografie obișnuită – cu obiecte mici, ocluzii sau unghiuri indirecte – într-un model 3D texturat, poziționat și manipulabil, în doar câteva secunde.

Utilizatorii pot selecta orice obiect din imagine, genera asset-ul 3D și apoi să-l rotească, să schimbe camera sau să-l plaseze într-o scenă virtuală.

SAM 3D Objects reconstruiește obiecte și scene întregi, prezicând formă, textură, material și poziție 3D. Modelul gestionează imagini din lumea reală, unde contextul și recunoașterea obiectelor compensează lipsa informațiilor vizuale directe.

SAM 3D Body este specializat pe reconstrucția corpului uman, chiar și în posturi neobișnuite, cu ocluzii sau mai multe persoane în cadru. Acceptă prompturi interactive (măști de segmentare, puncte 2D) și folosește noul format open-source Meta Momentum Human Rig (MHR), care separă scheletul de țesuturile moi pentru o interpretabilitate și riggabilitate superioară.

Ambele modele sunt open-source: codul de inferență, checkpoint-urile și datele de antrenament/evaluare sunt deja disponibile pe GitHub.

În curând va fi lansat și dataset-ul SAM 3D Artist Objects (SA-3DAO), creat în colaborare cu artiști 3D profesioniști, considerat cel mai dificil și realist benchmark public pentru reconstrucție 3D single-image până în prezent.

Performanțe și progrese tehnice

Meta afirmă că SAM 3D Objects obține un raport de preferință umană de cel puțin 5:1 față de cele mai bune modele concurente și livrează reconstrucții texturate complete în câteva secunde datorită optimizărilor de tip diffusion shortcut.

SAM 3D Body depășește metodele anterioare pe benchmark-uri precum AGORA-3D și este mult mai robust la îmbrăcăminte variată, posturi rare și ocluzii.

Secretul performanței stă într-un data engine inovator: în loc să ceară artiștilor să creeze mesh-uri 3D de la zero (proces lent și scump), Meta a antrenat un sistem care generează automat mii de variante, iar annotatorii umani doar le evaluează și le clasează.

Astfel au fost etichetate aproape 1 milion de imagini reale și 3,14 milioane de mesh-uri model-in-the-loop pentru Objects, respectiv 8 milioane de imagini pentru Body.

Antrenamentul folosește o rețetă în două etape inspirată de LLM-uri: pre-training pe date sintetice + post-training pe date reale pentru a elimina gap-ul sim-to-real.

Deja în produsele Meta și disponibile public

SAM 3D este integrat imediat în Facebook Marketplace prin funcția „View in Room”, care permite utilizatorilor să proiecteze mobilier sau decorațiuni în camera lor reală înainte de cumpărare.

De asemnea se menţionează că experienţe noi bazate pe SAM 3 vor apărea în Meta AI app.

În Instagram la funcția de editare video — SAM 3 va fi utilizat pentru efecte aplicate automat pe obiecte/personaje, graţie segmentării bazate pe text.

Împreună cu SAM 3 (lansat simultan, pentru segmentare open-vocabulary cu text), modelele alimentează și Segment Anything Playground – o platformă demo gratuită unde oricine poate încărca poze proprii și genera modele 3D instantaneu.

Screenshot

Aplicații existente în știință ale SAM 3 / SAM 3D

Primele utilizări științifice ale SAM 3 apar deja în proiecte colaborative de cercetare, unde modelul accelerează analiza imaginilor în domenii greu accesibile.

Primul exemplu este SA-FARI, un set de date deschis construit împreună cu Conservation X Labs și Osa Conservation. Cercetătorii au combinat monitorizarea wildlife din teren cu SAM 3 pentru a procesa automat imagini și video.

Rezultatul: peste 10.000 de clipuri din camere-capcană, acoperind 100+ specii, fiecare cu bounding boxes și măști de segmentare la nivel de individ. Setul este deja folosit pentru studii de biodiversitate, detecția speciilor rare și modelarea prezenței animalelor în habitate sensibile.

Pe zona marină, Meta colaborează cu MBARI prin FathomNet, o platformă care furnizează imagini și date pentru cercetare oceanografică. SAM 3 a fost folosit pentru a genera măști de segmentare și un benchmark dedicat pentru imagistică subacvatică, adaptat condițiilor extreme din mediul oceanic.

Aceste resurse ajută biologii marini și laboratoarele de robotică subacvatică să creeze modele mai robuste pentru identificarea speciilor și înțelegerea ecosistemelor adânci.

Prin accesul public la SA-FARI și FathomNet, întreaga comunitate AI poate dezvolta metode noi de a descoperi, monitoriza și conserva biodiversitatea — de pe uscat până în zonele oceanice greu de explorat.

Limitări recunoscute de Meta

Compania este transparentă în privința punctelor slabe actuale: rezoluția moderată limitează detaliile foarte fine (de exemplu, reconstrucția unei persoane întregi poate avea distorsiuni), iar modelele procesează obiectele/persoanele individual, fără să raționeze interacțiuni fizice (contact, suprapunere).

Următorii pași anunțați: rezoluție mai mare, raționament multi-object și integrarea interacțiunilor om-obiect/om-om.

Meta vede SAM 3D ca pe un accelerator pentru robotică, AR/VR, gaming, film, medicină sportivă și creație de conținut.

Fiind complet open-source și rapid, scade dramatic bariera de intrare pentru studiouri mici și creatori individuali, permițând generarea de asset-uri 3D de calitate dintr-o simplă fotografie de telefon.

Anunț Blog Meta
Demo live: aidemos.meta.com/segment-anything
Code Github: SAM 3 Github
Paper SAM3
Huggingface Model SAM3
SA-Co Dataset
Sa-Fari Dataset

Te-AI pregătit pentru ce vine?
Abonează-te la "Pulsul AI", newsletter-ul care te ține la zi cu noutățile din Inteligența Artificială. Fără hype sau panică. Doar ce contează.

Ultimele Știri

Noutăți din AI