Sunt mereu cu ochii pe noile tehnologii AI, dar recunosc că am avut mereu o rezervă. Una e ca un model AI să proceseze text și să înțeleagă un context, și cu totul alta e să *cânte* în limba română.
Mă așteptam ca orice tentativă să sune, în cel mai bun caz, ca un turist străin care se chinuie cu dicția, stricând tot farmecul. Asta până am dat, întâmplător, peste o piesă AI pe YouTube intitulată „Hora Ielelor”. Calitatea acesteia, în special coerența versurilor și, mai ales, o pronunție surprinzător de curată pe o temă de folclor, m-a fascinat și m-a făcut să sap mai adânc.
Piesa, o creație originală AI de pe canalul Zmeu ZM, este un studiu de caz perfect despre cât de departe a ajuns generarea muzicală.
Ceea ce m-a frapat este capacitatea AI-ului de a structura o narațiune complexă dintr-o temă specifică folclorului românesc. Reușește să creeze o atmosferă supranaturală, captând corect atributele Ielelor: „învelite în fum și sare” și cu „părul lung pământ pe picioare”.
Mai mult, AI-ul (probabil Suno) a înțeles perfect componenta de pericol a mitului. Versurile avertizează clar „nu te-ntoarce, nu privi, ți-au pus vrajă pe copii” și se încheie abrupt, exact cum cere legenda: „ți-au luat pașii și ai murit”. Faptul că poate articula aceste concepte într-o română perfectă, cu o linie melodică potrivită și o pronunție surprinzător de clară, este sincer impresionant.
Dar dincolo de simpla coerență a versurilor, ceea ce este cu adevărat impresionant este execuția vocală. Nu vorbim de o pronunție robotică sau de o simplă articulare corectă a cuvintelor. Vocea generată are intonație, reușește să transmită o emoție și să urmeze linia melodică într-un mod natural, aproape uman. Faptul că poate livra o astfel de performanță într-o română perfectă, fără artefacte audio evidente și cu o claritate care surprinde, este un salt calitativ major.
Contrastul: Cover-ul AI „$efu” (Deliric)
Spre deosebire de seriozitatea folclorică a „Horei Ielelor”, cover-ul piesei „$efu” este un exercițiu de stil pur. Aici, AI-ul (pare tot Suno) a luat versurile de rap ale lui Deliric și le-a transpus într-un stil de „60s Blues Story”. Rezultatul este comic și bizar.
A auzi versuri ca „vreau bani să întorc cu lopata” sau „să mi iau BMW, Benz și Ferrari” cântate cu „suflet” de un bluesman de epocă scoate în evidență o altă fațetă a AI-ului. Arată capacitatea de a recontextualiza creativ, chiar dacă dicția în română aici este vizibil mai slabă și mai „murdară” decât în piesa folclorică, probabil din cauza nepotrivirii dintre cadența rap și ritmul de blues.
Ce este și cum funcționează Suno?
Dar ce este, mai exact, Suno? Este un serviciu de inteligență artificială generativă specializat în crearea de muzică de la zero. La bază, funcționează pe un model (acum la versiunea v3) care generează audio pe baza unui prompt text. Tu îi spui ce vrei (de exemplu, „o piesă pop despre ploaie”), iar el compune o melodie completă, incluzând voce, instrumentație și, de multe ori, chiar și versuri. Tehnic, modelele inițiale se numeau „Bark” (pentru voce) și „Chirp” (pentru instrumentație), deși compania este destul de discretă cu detaliile.
Procesul de creație este, de obicei, foarte simplu. Există un mod de bază în care doar descrii genul și tema, iar AI-ul face totul. Însă, pentru a obține rezultate ca cele din articol, secretul stă în „Custom Mode” (Modul Personalizat). Aici, utilizatorul poate introduce propriile versuri, poate seta un titlu și poate defini stilul muzical (de exemplu, „60s Blues Story” sau „Balkan folk”). AI-ul preia apoi aceste versuri și le interpretează vocal, generând orchestrația potrivită. Acesta este, cel mai probabil, modul în care au fost create piesele de mai sus, pornind de la un set de versuri deja scrise.
Concluzie
Cele două piese de pe canalul „Zmeu ZM” sunt exemple excelente ale stadiului actual. Dacă melodia a fost generată într-adevăr conform descrierii de pe YouTube, atunci „Hora Ielelor” demonstrează o capacitate surprinzătoare de a genera conținut original, coerent narativ și cultural, cu o calitate a pronunției în română mult peste așteptările mele.
În contrast, cover-ul „$efu” arată limitările actuale ale dicției atunci când se luptă cu un stil nepotrivit, dar excelează la reinterpretarea instrumentală. Este clar că AI-ul muzical nu mai e doar o jucărie care alătură sunete, ci o unealtă de creație și reinterpretare cu un potențial fascinant, dar mai vorbim peste vreo 2-3 ani.
