Am testat generatorul de imagini AI care a depășit DALL-E și Gemini

În domeniul generatoarelor de imagini AI, competiția este acerbă și ierarhiile se schimbă rapid, motiv pentru care urmăresc constant clasamentul LMArena, o platformă unde poți testa gratuit modele de top în schimbul unui vot. Recent, un nou model a urcat pe prima poziție a clasamentului oficial, depășind nume consacrate: Hunyuan Image 3.0, un model open-source dezvoltat de Tencent, care promite performanțe de top.

Evident, am fost curios să văd dacă rezultatele se confirmă și în practică. L-am pus la treabă cu câteva cerințe specifice, inclusiv generarea de imagini cu pisici jucându-se, menționând uneori și rasa exactă, cum ar fi Tabby Point. Scopul era să verific nu doar calitatea imaginii, ci și capacitatea modelului de a interpreta corect și în detaliu instrucțiuni complexe, un aspect unde multe alte platforme eșuează.

După câteva zeci de teste, pot confirma că performanța sa este într-adevăr superioară. Imaginile generate sunt coerente, respectă cu fidelitate detaliile din prompt, iar calitatea generală depășește ce am obținut recent folosind modelele DALL-E (integrat în ChatGPT) sau cele de la Gemini. Hunyuan înțelege mai bine compoziția scenei și elementele specifice, fără a introduce artefacte sau interpretări bizare.

Faptul că este un proiect cu sursă deschisă, al cărui cod este disponibil pe GitHub, reprezintă un avantaj major, fâcându-l accesibil nu doar pentru utilizare directă, ci și pentru cercetare sau integrare în alte proiecte, democratizând accesul la o tehnologie de vârf care, până nu demult, era în spatele unor sisteme închise.