Desde la compañía señalaron que no planean lanzar este modelo al público de inmediato, al menos "hasta que estemos seguros de que la tecnología se utilizará de manera responsable y de acuerdo con las regulaciones adecuadas".
(CNN) – La Mona Lisa ahora puede hacer más que sonreír gracias a la nueva tecnología de inteligencia artificial de Microsoft, llamada VASA-1.
La semana pasada, los investigadores de Microsoft detallaron un nuevo modelo de inteligencia artificial que desarrollaron y que puede tomar una imagen fija de una cara y un clip de audio de alguien hablando y crear automáticamente un video de apariencia realista de esa persona hablando. Los videos, que pueden estar hechos a partir de rostros fotorrealistas, así como también de dibujos animados u obras de arte, se completan con una atractiva sincronización de labios y movimientos naturales de la cara y cabeza.
En un vídeo de demostración, los investigadores mostraron cómo animaron a la Mona Lisa para que recitara un rap cómico de la actriz Anne Hathaway.
Microsoft dijo que la tecnología podría usarse para educación o “mejorar la accesibilidad para personas con problemas de comunicación”, o potencialmente para crear compañeros virtuales para humanos. Pero también es fácil ver cómo se podría abusar de la herramienta y utilizarla para hacerse pasar por personas reales.
Es una preocupación que va más allá de Microsoft: a medida que surgen más herramientas para crear imágenes, videos y audio convincentes generados por IA, los expertos temen que su mal uso pueda conducir a nuevas formas de desinformación. A algunos también les preocupa que la tecnología pueda perturbar aún más las industrias creativas, desde el cine hasta la publicidad.
Por ahora, Microsoft dijo que no planea lanzar el modelo VASA-1 al público de inmediato. La medida es similar a cómo OpenAI, socio de Microsoft, está manejando las preocupaciones en torno a su herramienta de video generada por IA, Sora, la que hasta ahora solo se ha puesto a disposición de algunos usuarios profesionales y profesores de ciberseguridad con fines de prueba.
“Nos oponemos a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales”, señalaron investigadores de Microsoft en una publicación de blog. Pero, agregaron, la compañía “no tiene planes de lanzar” el producto públicamente “hasta que estemos seguros de que la tecnología se utilizará de manera responsable y de acuerdo con las regulaciones adecuadas”.
Hacer que las caras se muevan
El nuevo modelo de inteligencia artificial de Microsoft se entrenó en numerosos videos de rostros de personas mientras hablaban, y está diseñado para reconocer los movimientos naturales de la cara y la cabeza, incluido “el movimiento de los labios, la expresión (sin labios), la mirada y el parpadeo, entre otros”, dijeron los investigadores. El resultado es un vídeo más realista cuando VASA-1 anima una fotografía.
Por ejemplo, en un vídeo de demostración con un clip de alguien que suena agitado, aparentemente mientras juega videojuegos, la cara que habla tiene el ceño fruncido y los labios fruncidos.
La herramienta de inteligencia artificial también se puede dirigir para producir un video en el que el sujeto mira en una dirección determinada o expresa una emoción específica.
Al mirar de cerca, todavía hay signos de que los videos fueron generados por máquinas, como parpadeos poco frecuentes y movimientos exagerados de las cejas. Pero Microsoft dijo que cree que su modelo “supera significativamente” a otras herramientas similares y “allana el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos”.