LMArena: O soluție pentru a folosi gratuit AI de top în schimbul unui vot

Există momente când am nevoie să editez rapid o imagine, de obicei pentru a elimina un element sau a adăuga o adnotare, iar deschiderea unui editor foto dedicat pare o pierdere de timp. Recent, când pregăteam articolul despre antenele 5G camuflate în casete luminoase, aveam nevoie să elimin niște săgeți și texte adăugate pe imaginile originale înainte de a le putea publica. Soluția a venit de la o platformă pe care o folosesc ocazional pentru a vedea care mai este pulsul modelelor de inteligență artificială: LMArena.

Pe scurt, LMArena este o platformă deschisă unde oricine poate testa și compara performanța celor mai importanți agenți AI, de la modele lingvistice (LLM) la generatoare de imagini. Procesul este simplu și eficient: introduci o cerință, iar platforma îți prezintă, în paralel, rezultatele de la doi asistenți anonimi. Tu, ca utilizator, compari cele două variante și o votezi pe cea pe care o consideri mai reușită, contribuind astfel la un clasament global.

Cum funcționează LMArena și care e beneficiul?

Mecanismul din spatele LMArena se bazează pe crowdsourcing pentru a crea un clasament cât mai obiectiv, bazat pe preferințele umane. Fiecare vot contribuie la un scor Elo (similar cu cel din șah), care reflectă performanța unui model în comparație cu altele.

Beneficiul este reciproc: dezvoltatorii primesc feedback valoros despre performanța reală a modelelor lor, iar utilizatorii au acces gratuit la tehnologii de ultimă oră, unele nelansate oficial sau disponibile doar contra cost. Un exemplu celebru este modelul „Nano Banana” de la Google, care a putut fi testat pe LMArena înainte de lansarea oficială, demonstrându-și superioritatea în editarea foto.

O experiență reală: Când graba strică votul

Ca în orice sistem bazat pe voturi, se merge pe încrederea în discernământul utilizatorilor. Problema e că, uneori, aceștia pot fi superficiali sau grăbiți. Așa am pățit-o și eu la una dintre imagini; sarcina era simplă: eliminarea unei săgeți și a textului asociat.

Primul asistent a făcut treaba doar pe jumătate, în timp ce al doilea a fost complet pe lângă subiect și mi-a returnat o imagine dintr-un test anterior. Din grabă, am apăsat greșit pe vot, selectând rezultatul care nu avea nicio legătură cu cerința, deși corect ar fi fost să le descalific pe amândouă. Principiul este să votezi rezultatul mai bun, chiar dacă nici acela nu este perfect — un exemplu se poate observa și în captura de ecran de mai jos, unde agentul din stânga a eliminat săgeata, dar a distrus numărul de telefon inscripționat pe geam fără să încerce să mascheze eroarea, în timp ce de la celălalt am primit înapoi imaginea originală, nemodificată.

Unul dintre aspectele care îmi plac la LMArena este transparența post-vot. Odată ce ai ales un câștigător, platforma îți dezvăluie numele celor doi „concurenți”. Astfel am putut vedea că modelul votat de mine din greșeală era o versiune mai veche, în timp ce un model superior, precum „Nano Banana”, se afla în competiție și probabil ar fi oferit un rezultat perfect dacă ar fi fost ales de sistem pentru acea sarcină.

Poate fi păcălit sistemul?

Greșeala mea în timpul votării ridică o întrebare mai amplă, pe care mi-o pun doar speculativ: ce s-ar întâmpla dacă un grup mare de utilizatori ar vota în mod coordonat un anumit model, nu pe baza performanței, ci din alte interese?

De exemplu, cum ar fi ca o țară să-și susțină modelele autohtone pentru a le urca artificial în clasament? Discuția nu este nouă, existând deja studii care atrag atenția că marile companii pot obține un avantaj prin testarea internă a zeci de variante și publicarea doar a celor mai performante, ceea ce poate influența percepția publică.

În concluzie, dacă aveți nevoie punctual de un instrument AI pentru sarcini specifice și ofertele gratuite ale jucătorilor mari nu vă sunt suficiente, LMArena este o alternativă excelentă. Nu doar că vă veți rezolva problema rapid și gratuit, dar veți și contribui activ la evaluarea și ierarhizarea celor mai bune modele de inteligență artificială de pe piață.