Următoarea generație de Inteligență Artificială reprezintă un salt semnificativ față de tehnologiile cu care suntem deja familiarizați. Google a prezentat recent un agent AI avansat, bazat pe modelul Gemini, care nu este doar un alt chatbot, ci un sistem capabil să navigheze și să opereze pe un computer în mod autonom, replicând cu acuratețe comportamentul unui utilizator uman.

Gemini 2.5 - computer use

Această evoluție depășește simpla generare de text, imagini sau video, orientându-se către executarea unor sarcini interactive complexe. Practic, agentul „vede” ce este pe ecran și decide care este următorul pas logic pentru a îndeplini un obiectiv, fie că vorbim de navigare web, completarea unor formulare sau utilizarea unor aplicații software.

De ce este această abordare diferită?

Conceptul de „agent AI” nu este complet nou; și alte modele de inteligență artificială au capabilități similare. Totuși, diferența fundamentală constă în modul de operare. Majoritatea agenților existenți rulează în medii izolate și controlate, precum mașini virtuale (VMs) sau instanțe de browser special create (sandboxes). Aceștia nu interacționează cu interfața grafică reală, ci se bazează pe o reprezentare simplificată a acesteia, adesea prin API-uri.

 

Inovația adusă de Google este că agentul său interacționează direct cu interfața vizuală, exact ca un om. El „privește” pixelii de pe ecran, identifică elemente grafice (butoane, meniuri, câmpuri de text) și simulează acțiuni precum mișcarea cursorului, click-urile și tastarea. Această capacitate de a lucra cu orice interfață vizuală îi oferă o flexibilitate enormă, permițându-i teoretic să învețe să folosească orice aplicație, fără a necesita adaptări speciale din partea dezvoltatorilor.

Cum funcționează agentul AI de la Google?

Mecanismul de operare, descris în anunțul oficial Google DeepMind, este un ciclu inteligent de acțiune și analiză. La primirea unei sarcini, agentul realizează o captură de ecran și analizează istoricul acțiunilor recente pentru a înțelege contextul. Pe baza acestor informații, decide unde să miște cursorul, pe ce element să dea clic sau ce text să introducă. Procesul se repetă – acțiune, captură de ecran, analiză – până la finalizarea completă a obiectivului.

 

Agentul „Computer Use” poate efectua acțiuni concrete direct în interfețele grafice, fiind antrenat să recunoască butoane, meniuri și câmpuri de text. Poate derula conținutul pentru a găsi informații, completa automat formulare sau naviga pe site-uri complexe, toate aceste operațiuni pornind de la o simplă comandă scrisă în limbaj natural. De exemplu, i-am putea cere să realizeze cumpărăturile online sau să completeze un formular de înregistrare stufos, eliminând astfel sarcini repetitive.

În mod surprinzător, tehnologia s-a dovedit capabilă chiar să rezolve teste CAPTCHA, concepute special pentru a bloca boții. Deși a fost antrenat în principal pentru browsere, potențialul său se extinde și către alte interfețe, precum aplicațiile desktop sau mobile. Conștientă de riscurile unui astfel de control avansat, echipa Google a integrat funcționalități de siguranță direct în modelul de bază. Aceste măsuri sunt menite să prevină utilizarea sa în scopuri rău intenționate și să asigure o interacțiune sigură, blocând acțiunile care ar putea duce la consecințe nedorite.

Disponibilitate și perspective

Deocamdată, acest agent avansat este disponibil doar pentru dezvoltatori și cercetători, prin intermediul API-urilor din Google AI Studio și Vertex AI. Asta înseamnă că noi, utilizatorii obișnuiți, vom mai avea de așteptat până când această tehnologie inovatoare va fi implementată pe scară largă în produsele de consum. Totuși, direcția este clară: viitorul interacțiunii cu tehnologia nu se va limita la comenzi vocale sau text, ci va implica agenți autonomi care ne vor ajuta să ducem la bun sfârșit sarcini complexe.

Spune-ți părerea!

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.