Google ha mostrado Genie 3, un nuevo modelo de lenguaje que simula entornos fotorrealistas y que considera como un trampolín hacia la superinteligencia artificial. Desarrollada por DeepMind, esta IA puede generar simulaciones de varios minutos que pueden servir para entrenar agentes de propósito general. La compañía asegura que estos entornos son consistentes y que Genie puede recordar lo que generó anteriormente.
De acuerdo con una publicación en el blog de DeepMind, Genie 3 es una mezcla de su predecesor con Veo 3, el modelo para crear videos a partir de texto. A diferencia de Genie 2, que generaba escenarios interactivos de unos cuantos segundos, la nueva IA crea simulaciones de múltiples minutos con resolución 720p. Los usuarios pueden navegar a través de los entornos usando el teclado o los controles direccionales.
Una de las características más notables de Genie 3 es que está basado en generación autorregresiva, una técnica que le permite construir el mundo cuadro por cuadro recordando lo anterior. Esto le permite mantener la consistencia física, por lo que los usuarios pueden regresar a un momento anterior. Google señala que la técnica autorregresiva puede añadir imprecisiones; sin embargo, los entornos se mantienen coherentes, con una memoria visual que se remonta a un minuto.
En términos de desempeño, Genie 3 puede generar escenas con propiedades físicas complejas. Los ejemplos muestran a una moto acuática desplazándose por un lago a la medianoche, una caminata por el bosque o un recorrido en skydiving por un acantilado.
Genie 3 genera mundos para entrenar a otros agentes de IA
Los videos incluyen controles de navegación para mover la cámara o desplazarse por el entorno, aunque también existe la posibilidad de programar interacciones. Esto último es similar a lo que vimos en Black Mirror: Bandersnatch, donde el usuario puede elegir un evento que ocurrirá después. Los eventos pueden programarse a través de prompts basados en una instrucción de texto, los cuales cambiarán los elementos del mundo virtual.
Si bien Genie 2 se posicionó como una alternativa para diseñar mundos para videojuegos, su sucesor está en otro nivel. Más allá de las aplicaciones de entretenimiento, Genie 3 se está usando para entrenar a agentes de IA en diversos entornos simulados. Google mencionó que aprovechó el nuevo modelo para instruir a su agente SIMA para que cumpliera diversas acciones en los escenarios virtuales.

“Creemos que los modelos mundiales son clave en el camino hacia la inteligencia artificial general, específicamente para los agentes incorporados, donde la simulación de escenarios del mundo real es particularmente desafiante”, dijo Jack Parker-Holder, científico investigador de DeepMind.
Pese a sus avances, Genie 3 no es perfecto. La simulación del comportamiento físico tiene sus detalles y la IA no puede representar ubicaciones del mundo real con precisión geográfica. Tampoco es posible hacer que varios agentes interactúen entre sí en el mismo entorno, o llevar a cabo entrenamientos de larga duración.
Por el momento, Genie 3 no estará disponible para el público, aunque la compañía ya evalúa ofrecerlo a investigadores y desarrolladores de IA. Google cree que su IA podría tener impacto en el entrenamiento de robots y sistemas autónomos.