Imatges generades per Google Vlogger

Google revoluciona la IA amb una nova eina que dóna vida a les fotos

Amb només un àudio i una fotografia qualsevol podrà crear humans falsos que interactuïn per Internet

Google ha llançat una nova tecnologia que revolucionarà el món. Els investigadors de la companyia han desenvolupat un nou model d'intel·ligència artificial que pot transformar una imatge única fixa d'una persona en un avatar que parla i es mou. Es diu Vlogger i els seus resultats sorprenentment realistes ens aboquen a una distòpia que podria canviar la manera de relacionar-nos.

En un document tècnic, l'equip de Google descriu Vlogger com un "marc nou per sintetitzar humans a partir d'àudio", i afegeix que "és precisament l'automatització i el realisme conductual el que busquem en aquest treball... una interfície multimodal per a un agent conversacional encarnat". Aquest “agent”, continuen, està en última instància “dissenyat per recolzar converses naturals amb un usuari humà”.

Aleshores, en altres paraules, l'objectiu d'aquests investigadors és crear persones falses d'aparença realista que interactuïn d'una manera "humana" amb éssers humans reals a l'altre extrem.

A l'article, els investigadors proposen que aquest model, que requereix només una imatge i un clip d'àudio desitjat com a entrades, es podria fer servir per "millorar la comunicació en línia, l'educació o els assistents virtuals personalitzats". Vlogger també pot editar vídeos en moviment, cosa que, segons els investigadors, "facilitarà els processos creatius".

Tot i això, no esmenten que una eina que podria generar videoclips completament sintètics, en moviment i parlant a partir d'una sola imatge, sembla propicia per a l'abús per part de mals actors.

De fet, són els avenços que Google afirma haver fet en la seva creació de Vlogger els que ho fan tan hipotèticament perillós.

Els deepfakes d'IA, per exemple, ja són un problema creixent. Però si bé generar un deepfake és més fàcil que mai a causa de la disponibilitat pública d'eines d'IA generativa, crear un vídeo deepfake particularment convincent generalment requereix una combinació de múltiples eines d'IA. Però quan s'utilitza el model Vlogger, els usuaris només han de proporcionar l'àudio desitjat per al vídeo i una foto, cosa que probablement agilitzaria el procés en general.

És més, segons Google, Vlogger "no requereix formació per a cada persona" que anima la seva tecnologia. En poques paraules, això significa que Vlogger no requereix entrenament específic per a les persones que el facin servir, cosa que permetria fabricar un vídeo fals realista a partir d'una sola imatge de gairebé qualsevol persona, incloses persones comunes i corrents que no estan a l'ull públic . Què pot sortir malament?