Deepseek trimite o nouă undă de șoc: DeepSeek-OCR

Compania Chineză DeepSeek AI, a lansat modelul open-source DeepSeek-OCR, un sistem de recunoaștere optică a caracterelor (OCR).

Noul model permite compresia contextuală a textelor lungi prin mapare optică 2D, reducând numărul de tokeni cu un factor de 7 până la 20 de ori, în timp ce menține o acuratețe de până la 97%.

Cu astfel de performanțe, DeepSeek-OCR poate transforma fundamental modul în care modelele mari de limbaj (LLM) procesează texte lungi.

Dacă noul sistem poate comprima, să zicem un text de peste un milion de tokeni într-o reprezentare vizuală echivalentă cu doar 100.000 de tokeni, fără pierderi majore de acuratețe, atunci vorbim de un alt moment de inflexiune în industrie.

Modelul, disponibil pe platforme precum Hugging Face și GitHub, promite să revoluționeze procesarea documentelor pentru modelele mari de limbaj (LLM), permițând generarea a peste 200.000 de pagini de date de antrenament pe zi pe un singur GPU A100.

Sistemul DeepSeek-OCR este compus din două componente principale: DeepEncoder, un encoder vizual cu aproximativ 380 de milioane de parametri, conceput pentru intrări de înaltă rezoluție cu un consum redus de memorie, și DeepSeek3B-MoE-A570M, un decodor bazat pe un model de tip mixture-of-experts (MoE) pentru inferență eficientă și precizie ridicată în sarcinile OCR.

DeepEncoder utilizează o combinație de atenție pe ferestre și atenție globală, împreună cu un compresor convoluțional de 16x, pentru a reduce numărul de tokeni vizuali la doar 100 pe pagină, evitând supraîncărcarea memoriei GPU chiar și pentru imagini mari.

Acest lucru permite procesarea eficientă a documentelor multilingve, inclusiv diagrame, formule chimice, figuri geometrice și imagini naturale cu text.

Mai pe înțelesul tuturor

În loc să trateze fiecare cuvânt ca pe un token separat, DeepSeek-OCR convertește întregul document într-o hartă vizuală bidimensională, unde relațiile dintre cuvinte, paragrafe și elemente grafice sunt „codificate” într-o imagine de înaltă rezoluție.

Această imagine este apoi procesată de un encoder vizual (DeepEncoder), care transformă datele în aproximativ 100 de „vision tokens” per pagină, de până la 60 de ori mai eficient decât modelele OCR convenționale.

Pe baza benchmark-urilor OmniDocBench, DeepSeek-OCR depășește modele concurente precum GOT-OCR2.0, care utilizează 256 de tokeni pe pagină, și MinerU2.0, care necesită peste 6.000 de tokeni în medie, obținând performanțe superioare cu până la 60 de ori mai multă eficiență în utilizarea tokenilor.

La rate de compresie de 9-10x, modelul atinge o precizie de peste 96%, scăzând la aproximativ 90% la 10-12x și 60% la 20x, demonstrând un echilibru optim între eficiență și fidelitate.

Aceste rezultate subliniază superioritatea sa față de alte modele vizuale-lingvistice open-source, cum ar fi Vary, InternVL2.0 sau Qwen2-VL, prin minimizarea limitărilor precum preprocesarea complexă sau fragmentarea.

Implicațiile lansării sunt semnificative pentru dezvoltarea AI-ului, oferind o direcție promițătoare pentru gestionarea contextelor lungi în LLM-uri și generarea de date de antrenament la scară largă.

Modelul susține ideea că o imagine poate echivala cu mii de cuvinte în termeni de compresie informațională, facilitând aplicații precum arhivarea documentelor istorice, mecanisme de memorie în AI și parsarea avansată a documentelor.

Procesul de antrenament implică două etape: inițializarea encoderului pe date OCR și vizuale generale, urmată de fine-tuning integrat, utilizând surse diverse pentru robustețe.

DeepSeek AI, cu sediul în Hangzhou, continuă să creeze momente de inflexiune în industrie cu acest nou model.

Embargoul cipurilor AI asupra Chinei s-ar putea să fi jucat un rol în ambiția companiilor chineze de a construi modele eficiente cu costuri reduse de dezvoltare si utilizare.

Lansarea vine într-un moment în care cererea pentru soluții scalabile de procesare a textului vizual crește rapid, contribuind la progresul open-source în comunitatea AI.

Surse:

Deepseek trimite o nouă undă de șoc: DeepSeek-OCR

Mai pe înțelesul tuturor

Te-AI pregătit pentru ce vine?
Abonează-te la "Pulsul AI", newsletter-ul care te ține la zi cu noutățile din Inteligența Artificială. Fără hype sau panică. Doar ce contează.

Ultimele Știri

SAP unifică AI-ul, datele și aplicațiile într-o singură platformă de business

Electronii din grafen ultra-curat contrazic o lege fizică veche de 170 de ani

Albania numește un AI în funcție guvernamentală: Diella va superviza achizițiile publice

Noutăți din AI

În premieră, o persoană aflată într-un vis lucid a reușit să interacționeze în timp real cu un mediu virtual

Higgsfield a lansat Popcorn, un instrument AI pentru generarea de storyboard-uri cinematice

Lightricks LTX-2, un model AI open-source pentru generarea de conținut video și audio

Conform unui studiu recent AI-ul ar putea ajuta la identificarea obiectivă a adulților cu ADHD

Quantum Echoes – Google marchează primul „avantaj cuantic” verificabil

Browserele cu AI pot fi păcălite: riscuri reale, soluții simple

Meta Lansează MobileLLM-Pro: Model de 1B Parametri Optimizat pentru Mobil

Google lansează Coral NPU, o platformă open-source pentru AI local

Deepseek trimite o nouă undă de șoc: DeepSeek-OCR

Mai pe înțelesul tuturor

Te-AI pregătit pentru ce vine? Abonează-te la "Pulsul AI", newsletter-ul care te ține la zi cu noutățile din Inteligența Artificială. Fără hype sau panică. Doar ce contează.

Ultimele Știri

Noutăți din AI

Te-AI pregătit pentru ce vine?
Abonează-te la "Pulsul AI", newsletter-ul care te ține la zi cu noutățile din Inteligența Artificială. Fără hype sau panică. Doar ce contează.