Mundo

La pista dice que sus videos Gen-4 AI ahora son más consistentes


La producción de contenido de video es un desafío particular para los modelos AI generativos, que no tienen un concepto real de espacio o física, y esencialmente están soñando clips de clips por marco. Puede conducir a errores e inconsistencias obvias, como escribimos sobre en diciembre con Sora de OpenaiDespués de que sirvió un video con un taxi que desaparece.

Son estos problemas específicos que la compañía de videos AI Runway dice que es hizo algunos progresos en la fijación con sus nuevos modelos Gen-4. Los nuevos modelos ofrecen «una nueva generación de medios consistentes y controlables» según la pista de pasarela, con personajes, objetos y escenas ahora es mucho más probable que se vea igual en un proyecto completo.

Si ha experimentado con video de IA, sabrá que muchos clips son breves y muestran un movimiento lento, y no presentan elementos que salen del marco y vuelven, generalmente porque la IA los representará de una manera diferente. Las personas se fusionan en edificios, las extremidades se transforman en animales, y las escenas enteras mutan a medida que pasan los segundos.

Esto se debe a que, como ya habrás reunido, estos AIS son esencialmente máquinas de probabilidad. Saben, más o menos, cómo debería ser un paisaje urbano futurista, basado en raspar muchos paisajes urbanos futuristas, pero no entienden los componentes básicos del mundo real y no pueden mantener una idea fija de un mundo en sus recuerdos. En cambio, siguen reinventando.

Runway tiene como objetivo solucionar esto con imágenes de referencia a las que puede seguir volviendo mientras inventa todo lo demás en el marco: las personas deben verse lo mismo de marco a marco, y debe haber menos problemas con los personajes principales que caminan a través de muebles y transformándose en paredes.

Los nuevos modelos Gen-4 también pueden «comprender el mundo» y «simular la física del mundo real» mejor que nunca, dice Runway. El beneficio de salir al mundo con una cámara de video real es que puedes disparar un puente desde un lado, luego cruzar y disparar el mismo puente desde el otro lado. Con IA, tiende a obtener una aproximación diferente de un puente cada vez, algo que la pista quiere abordar.

Echar un vistazo a los videos de demostración Armados por pista y verá que hacen un trabajo bastante bueno en términos de consistencia (aunque, por supuesto, se seleccionan a mano de una piscina amplia). Los personajes en este clip Mira más o menos lo mismo de disparo a disparo, aunque con algunas variaciones en el vello facial, la ropa y la edad aparente.

¿Qué piensas hasta ahora?

También hay La pequeña llama solitaria (arriba), que, como todos los videos de pista, ha sido sintetizado del trabajo duro de animadores y cineastas reales. Parece impresionantemente profesional, pero verás la forma y las marcas en la mofeta cambian de escena en escena, al igual que la forma del personaje de rock en la segunda mitad de la historia. Incluso con estos últimos modelos, todavía hay algún camino por recorrer.

Si bien los modelos Gen-4 ahora están disponibles para generaciones de imagen a video para pagar a los usuarios de la pista, las características de consistencia de escena a escena aún no se han implementado, por lo que no puedo probarlas personalmente. He experimentado con la creación de algunos clips cortos en Sora, y la consistencia y la física del mundo real siguen siendo un problema allí, con objetos que aparecen (y desaparecen) el aire delgado y los caracteres que se mueven a través de paredes y muebles. Vea a continuación una de mis creaciones:

Es posible crear algunos clips de aspecto pulido, como puede ver La página oficial de Sora ShowcaseY la tecnología ahora es de un estándar lo suficientemente alto que está comenzando a usarse de manera limitada en las producciones profesionales. Sin embargo, los problemas de desaparecer y transformar los taxis sobre los que escribimos el año pasado no se han ido.

Por supuesto, solo tienes que mirar dónde La tecnología de video de IA fue hace un año Saber que estos modelos van a mejorar cada vez más, pero generar video no es lo mismo que generar texto o una imagen estática: requiere mucho más potencia informática y mucho más «pensamiento», así como una comprensión de la física del mundo real que será difícil para la IA para aprender.



Source link

Publicaciones relacionadas

Botón volver arriba