Mundo

Los mejores generadores de video de IA (y cómo se comparan entre sí)


Los generadores de video de IA están mejorando rápidamente y están cada vez más disponibles, con Veo 2 de Google ahora integrado en la aplicación Géminis para cualquiera que pague por un Plan premium de Google One AI. Al igual que Sora, Runway, Adobe’s Firefly y otros, VEO 2 le permite crear un video de aspecto profesional a partir de nada más que un mensaje de texto.

Con Veo 2 ahora disponible para los usuarios de pago, parece una buena oportunidad para probar estos diferentes generadores de videos de inteligencia artificial entre sí, y comparar sus fortalezas y debilidades, y evaluar dónde estamos con un video de IA en general. Seguimos diciendo que estas herramientas Transformar la realización de películaso al menos llenar Internet con ai slop¿Pero son realmente prácticamente útiles?

Microsoft parece pensar que sí, tener lo usó en un anuncio reciente. Sin embargo, solo las partes del clip estaban hechas por IA: disparos con cortes rápidos y movimiento limitado, donde es menos probable que ocurran alucinaciones o se noten.

A los fines de esta guía, voy a echar un vistazo a Google Veo 2 y lo pondré contra Sora, Runway y Firefly. Hay otros generadores de video disponibles, pero estos son cuatro de los más prominentes: todos cuestan dinero para acceder (a partir de $ 20 al mes), por lo que deberá registrarse durante un mes al menos para jugar con ellos.

Bolas rebotando

Si eres tan viejo como yo, recordarás un increíble anuncio que Sony hizo para promocionar sus nuevos televisores Bravia de 1080p en 2005 (arriba). Se lanzaron más de 100,000 bolas hinchables en las empinadas calles de San Francisco mientras las cámaras rodaban, y fue un reloj convincente (la historia detrás de escena es bastante divertido también).

Este es un verdadero desafío para la IA, que involucra mucha física y movimiento. El aviso que utilicé fue: «Miles de bolas individuales de colores brillantes que rebotaban por una calle empinada y soleada en San Francisco, en cámara lenta. La cámara se mueve cuidadosamente por la calle mientras las bolas rebotan hacia abajo, pasan árboles y autos estacionados».

El intento de Google Veo 2 no es malo. Aquí hay algo de física extraña, pero parece razonablemente natural, y podría funcionar como un clip corto si no mira demasiado de cerca. Los elementos de fondo están bien renderizados, y las instrucciones en mi aviso original se siguieron bastante de cerca.

Sora parece confundida acerca de la escena que se supone que está renderizando. Seguro que hay bolas de color, pero se mueven como una papilla confusa y desafían la gravedad. El ritmo del video está bien, incluso si va en la dirección opuesta a la que solicité, y las partes de fondo del video se ven bien en general.

La pista hace que las vibraciones sean bastante cerca, si lo compara con el clip de Sony original, pero nuevamente, hay varios problemas: las bolas no son constantes, el movimiento no es lo que pedí, y parece que hay un alienígena mirando desde una ventana en la esquina superior derecha. Sin embargo, la calle se ve muy bien.

Firefly es probablemente la peor del grupo, aquí. La mayoría de las bolas son estacionarias, y las que se mueven no están muy bien renderizadas. La calle se ve bien, pero no es nada especial: definitivamente hay una sensación de videojuego retro. Al igual que con el clip Sora, la cámara me está llevando a la calle cuando realmente quería bajar.

Escena del «Parque Jurassic»

Si AI va a reemplazar a las personas reales que hacen películas, entonces debe ser capaz de crear escenas tan poderosas como la «Bienvenida al Parque Jurassic» uno en la película de Spielberg en 1993: el momento en que Richard Attenborough como John Hammond revela a los dinosaurios a sus visitantes por primera vez (arriba).

Tenía curiosidad por ver qué haría Ai de la escena. El aviso fue: «En la cima de una colina, dos paleontólogos se tambalean lentamente a través de la hierba. Mientras lo hacen, la cámara retrocede para un disparo más amplio, revelando un claro y un lago debajo. Hay dinosaurios caminando lentamente a través del lago y los árboles».

El clip de Google Veo 2 se ve bastante bien. La cámara no se mueve realmente en la forma en que describí, y los paleontólogos no son realmente asombrosos (y tampoco están en una colina), pero el paisaje se ve bien y los dinosaurios se ven bien. Es bastante genérico en general, pero es un esfuerzo decente.

Sora se vuelve un poco loca con este aviso. Los movimientos de la cámara son cecinosos y no siguen las instrucciones que hice, y los dinosaurios parecen criaturas extrañas que cambian de forma. Lo mejor que puedo decir sobre este esfuerzo es que todos los elementos que describí están incluidos, y el paisaje circundante está razonablemente bien hecho.

En cuanto a la pista, probablemente sea lo más cercano a lo que quería cuando se trata de los movimientos de la cámara y la sensación general de la escena. El lago y los dinosaurios se ven lo suficientemente realistas, pero de ninguna manera es una representación perfecta, ¿a dónde desaparece el paleontólogo de camisa roja?

Es otro mal esfuerzo de Firefly. No estoy seguro de que sepa qué son los paleontólogos, y los dinosaurios son muy pequeños. Sin embargo, el lago y el bosque circundante se realizan a un estándar OK, incluso si hay un notable Sheen Ai para todo en el marco. Los movimientos de la cámara se han traducido bien aquí.

Escena «The Living Daylights»

Uno más: el memorable Bond y la escena de cruce de Kara en la frontera en La luz del día que vivedonde se deslizan por una montaña nevada en un caso de violonchelo (arriba). No necesito contratar a Timothy Dalton o Maryam D’Abo, aprender a operar una cámara o viajar a Austria, porque AI puede hacer toda la escena para mí.

El aviso de este fue: «Un hombre y una mujer en ropa de invierno se deslizan por un camino cubierto de nieve en un caso de violonchelo. Hay una barrera en el camino, y a medida que la alcanzan, ambos personajes se agachan debajo de él».

¿Qué piensas hasta ahora?

Google VEO 2 logra bastante bien, todo lo que se considera: la escena se ve en su mayoría realista y divertida, y eso se parece un poco a un caso de violonchelo. Tenemos que ignorar a las dos personas que atraviesan la barrera del camino como si no estuviera allí, pero al menos hay una barrera allí (algo que los otros modelos de IA no podrían comprender).

A Sora, y nuevamente, no es terrible. Ok, ese no es realmente un caso de violonchelo, y seguramente las dos personas se enfrentarían hacia adelante, pero el camino nevado y los árboles circundantes se ven bien, es una escena inmersiva. ¿Dónde está mi barrera de carretera, Sora? Quiero ver a estas personas agachándose debajo.

En cuanto a la pista, cualquier videos en los que se entrenó, seguramente no eran videos de personas que montaban casos de violonchelo por las montañas. Las personas se mezclan entre sí, los elementos en la toma tienen forma cambiante y se ve raro. Sin embargo, el paisaje nevado y el efecto de nieve vivo real se ven bien.

Quién sabe lo que Adobe Firefly está pensando aquí. La física en este no tiene absolutamente ningún sentido, los personajes no son consistentes y no hay barrera de carretera para agacharse. En realidad es inquietante de ver. Sin embargo, obtenemos un camino nevado, un caso de violonchelo y dos personas en el clip.

No hay un ganador claro

Creo que los videos VEO 2 me impresionaron más en general, aunque la pista parece buena para el realismo la mayoría de las veces. En general, tenemos muchos problemas con el físico, el realismo e interpretación inmediata. Todos estos son claramente videos de IA, con numerosas peculiaridades e inconsistencias extrañas.

Ahora, no esperaba que estos generadores de IA se acercaran a la calidad de los anuncios o películas profesionales: simplemente no es posible recrear esas escenas con solo un mensaje de texto y unos minutos de tiempo y esfuerzo. No estoy tratando de tomar una toma barata en estas herramientas, que obviamente son muy inteligentes, sino que señala algunos de los problemas fundamentales con el video de IA.

Bolas rebotando

Estas bolas no están rebotando.
Crédito: Adobe Firefly/Lifehacker

Con un trabajo y experiencia más cuidadosos, probablemente podría obtener algo que parecía mucho mejor, y claramente estos generadores de videos mejorarán con el tiempo. ¿Quién sabe lo que podrán producir en cinco o 10 años? Si mira los videos exhibidos en estas plataformas, puede ver que son posibles excelentes resultados.

Personalmente, sin embargo, no estoy convencido de que estas herramientas de IA reemplazarán completamente el trabajo de cine tradicional, sin importar qué tan bien estén capacitados. Para obtener algo como el anuncio de Sony en AI, tendrías que escribir resmas y resmas de indicaciones increíblemente detalladas, e incluso entonces es posible que no obtengas lo que querías. ¿Ai pensaría en la rana saltando del desagüe? Los resultados son rápidos y fáciles, claro, pero está descargando la mayoría de las decisiones creativas a la IA. Estos videos se sienten generados por computadora.

Gente caminando

Una de estas personas está a punto de desaparecer.
Crédito: pista/Lifehacker

La IA realmente no sabe cómo rebota una pelota, o cómo se ve un dinosaurio, o de qué manera deberían enfrentar las personas mientras se deslizan por un camino nevado en una caja de violonchelo. Se aproxima y calcula en base a todos los videos que se ve anteriormente, y esas deficiencias muestran mucho más en video que con imágenes o texto. Notará que la mayoría de los videos de IA, incluidos los ejemplos anteriores, no incluyen elementos que entren y salgan de la toma, porque es probable que la IA olvide cómo se ven si no son visibles.

Y ni siquiera he tenido espacio aquí para cubrir los problemas de derechos de autor o el costo de energía para el planeta. Sin duda veremos un número creciente de anuncios hechos y pantalones cortos a medida que pasa el tiempo y la tecnología mejora, pero vale la pena volver a la famosa advertencia En Jurassic Park: estar tan preocupados por si podemos hacerlo, no nos detenemos a pensar si nosotros debería.

Divulgación: la empresa matriz de Lifehacker, Ziff Davis, presentó una demanda contra Operai en abril, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.



Source link

Publicaciones relacionadas

Botón volver arriba