OpenAI a anunțat recent DALL-E 3, o versiune capabilă să rivalizeze, poate chiar să detroneze, liderul momentului, MidJourney.

În ultimele luni, DALL-E a fost mult depășit de Midjourney, Stable Diffusion si alte generatoare de imagini de pe piață. Pe baza imaginilor prezentate de OpenAI, noua versiune pare să rezolve această diferență.

“An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.” – Stânga DALL-E 2 / Dreapta DALL-E 3

Dar nu prin calitatea imaginilor va deveni DALL-E 3 o amenințare serioasă pentru concurență ci prin integrarea sa cu ChatGPT.

ChatGPT va fi interfața prin care vom “vorbi” cu DALL-E.

E suficient să ne exprimăm ideea ca și cum vorbim cu o persoană reală și ChatGPT va genera prompt-uri specifice și detaliate pentru DALL-E 3.

Dacă imaginea nu este întru totul așa cum vrem, putem cere prin același limbaj natural ajustări incrementale, fără a pierde elementele pe care dorim să le păstrăm. Acest aspect de consistență între iterații este foarte greu de obținut cu alte generatoare.

OpenAI prezintă foarte bine exact un astfel de proces, care arată cât de ușor putem crea o poveste cu ChatGPT și DALL-E 3.

ChatGPT ca interfață pentru DALL-E, rezolvă nevoia de a cunoaște prompt engineering, un skill încă foarte important în generarea imaginilor cu ajutorul AI-ului, mai ales dacă dorim rezultate specifice.

DALL-E 3 va fi disponibil pentru clienții ChatGPT Plus și Enterprise începând din prima parte a lunii octombrie.

Alte detalii despre DALL-E 3

  • DALL-E 3 nu va permite generarea de imagini in stilul artiștilor în viață
  • Creatorii pot opta pentru a nu li se folosi imaginile in antrenarea continuă a modelului
  • Va fi capabil să urmeze descrieri complexe și să gestioneze generarea de text în imagini, cum ar fi etichete și semne.
  • este construit nativ pe ChatGPT și va fi o caracteristică integrată a ChatGPT Plus. DALL-E va genera imaginile direct în ChatGPT.
  • permite rafinări conversaționale ale imaginilor, folosind asistentul AI ca un partener de brainstorming.
  • ChatGPT va putea genera imagini bazate pe contextul conversației curente și va putea menține consistența vizuală între iterații
  • Comparativ cu DALL-E 2, noua versiune îmbunătățește detaliile mici, cum ar fi mâinile, creând imagini mai angajante “fără trucuri sau inginerie a prompturilor necesare”.
  • DALL-E 3 poate urma instrucțiunile prompturilor mai fidel și poate reda obiecte cu deformări minime.
  • pare să gestioneze detaliile fotorealistice bine, dar fără a necesita ajustări contraintuitive ale prompturilor pentru a controla rezultatul imaginii.

Cum era de așteptat, OpenAI a depus un efort special pentru măsurile de protecție. DALL-E 3 va refuza generarea de imagini cu conținut violent, pornografic și discriminatoriu.

Deși aceste eforturi sunt foarte importante, sper totuși că OpenAI nu a făcut același exces de zel ca atunci când a lansat ChatGPT,  și va înțelege mai bine nuanțele de gri și va permite folosirea generatorului pentru un spectru larg de exprimări artistice.

Cu lansarea programată pentru începutul lunii octombrie, rămâne de văzut cum va influența această nouă versiune piața și dacă va reuși să-și recâștige poziția, măcar morală, de lider și trendsetter.

 

Pentru mai multe detalii intrați pe blogul OpenAI