El año pasado falsifiqué el animal de peluche de mi hijo para que pareciera que su ciervo de peluche estaba de vacaciones.
Fue un experimento para ver si podía recrear los eventos descritos en un anuncio de Gemini que Google estaba publicando, y nunca le mostré los videos de Buddy el ciervo en sus aventuras a mi hijo de cuatro años. Pero fue un ejercicio revelador que me hizo pensar mucho en la diferencia entre una diversión inofensiva con IA generativa y una completa bazofia. ¡Quizás ese diagrama de Venn sea un círculo perfecto! Quizás no. Pero lo que sí sé con certeza es que las herramientas para crear vídeos realistas son sorprendentemente buenas y requieren sorprendentemente poco esfuerzo y conocimientos. Y esa tendencia continúa en la era Omni de Géminis.
Omni es una nueva familia de modelos generativos que supuestamente algún día podrá convertir cualquier tipo de entrada (foto, vídeo, texto) en cualquier otra cosa. Pero para empezar, se trata sólo de crear vídeo. Omni Flash es el primero de estos modelos que Google ha lanzado, ahora disponible en la plataforma de edición y generación de videos con IA de la compañía, Flow. Aún puedes usar el modelo anterior, Veo, si lo deseas, pero Omni mejora Veo en algunos aspectos.
Con Omni, puede cargar un video y usarlo junto con un mensaje de texto como punto de partida para su creación generada por IA. Google también afirma que Omni incorpora más conocimiento del mundo real al producir videos y, como resultado, puede hacer un mejor trabajo al mantener los personajes consistentes a lo largo de un video. Solo había una forma de saber realmente si esas afirmaciones son ciertas: traje a AI Buddy para que empacara sus pequeñas maletas generadas por IA para otra aventura.
Los resultados son tan variados que resultan desconcertantes. Algunos fueron muy buenos, mucho más consistentes y fieles a mis indicaciones que cuando probé Veo hace cinco meses. Pero incluso los mejores clips que Omni preparó para mí todavía tienen ciertos sobresaltos de la IA, como cuando Buddy cambia repentinamente de orientación mientras salta en paracaídas.
Para otro vídeo, le di a Omni algo de libertad artística. «Crea un montaje de Buddy empacando para unas vacaciones y embarcándose en un crucero para unas vacaciones tropicales. El ambiente es lindo y divertido. Buddy empaca algo divertido en su maleta que entra en juego más adelante en el clip». Buddy hizo que empacara un tarro de miel; Más adelante en el clip lo alcanza como si fuera una botella de protector solar. «Uh oh», dice el personaje mientras se rocía miel en el casco.
Sinceramente, no está nada mal. Excepto que la botella de miel cambia constantemente a lo largo del video, de un frasco a una botella con atomizador transparente llena de agua, y luego de nuevo a una botella exprimible llena de miel. Y ni siquiera puedo empezar a describir cómo se le ocurrió a la modelo el fotograma final del vídeo, casi como si acabara de vomitar un montón de elementos de la secuencia que acaba de hacer.
Puedes usar indicaciones basadas en texto para sugerir ediciones a tus videos, y le daré crédito a Google: esto funciona mejor con Omni que cuando probé Veo 3. Pero los resultados fueron malo con Veo, tan malo que me resultó mucho más fácil generar un nuevo video desde cero cada vez que quería cambiar algo. Omni realmente tendrá en cuenta sus ediciones, pero los resultados no siempre son exitosos.
Hice que enfatizaran las reacciones faciales de Buddy en sus clips de vacaciones, y los resultados terminaron luciendo extraños. También le daría a Buddy astas de vez en cuando, las cuales él no tiene. amigo es un bebémuchas gracias. Cuando le pedí que quitara las astas que aparecían en una escena, aceptó y luego añadió astas en todas las demás.
La cuestión es que nada de esto es gratis. Generar videos cuesta créditos, que varían de 15 a 40 créditos según la duración de la escena y los “ingredientes” con los que comienzas. Una ronda de ediciones cuesta 40 créditos. Tengo el plan AI Pro de $20 por mes que viene con 1000 créditos cada mes. Después de alrededor de 20 clips generados con algunas ediciones en algunos, me quedé con 145. Si tiene ideas específicas sobre el video que desea que Omni genere, es posible que tenga que enfrentar muchos y costosos intercambios con el modelo para obtener un video que se acerque a su visión.
Realmente puedo decir que no estaba preparado para lo que vi.
Una de las supuestas fortalezas de Omni es agregar material generado por IA a videos reales, así que le di un respiro a Buddy y me falsifiqué. Comenzando con un video de selfie con una expresión neutral, le pedí a Omni que generara videos de mí comiendo un plato de espaguetis, sentado en el asiento de un avión y parado frente a la Torre Eiffel dando un mordisco a una baguette. Y puedo decir sinceramente que no estaba preparado para lo que vi.
Hay señales de inteligencia artificial en mis videos deepfake. El tintineo del tenedor al golpear el plato de pasta es demasiado artificial. Hay una mujer al fondo del vídeo del avión que aparece dos veces. Pero aparte de esos pequeños fallos y una sensación vagamente extraña sobre ellos, son increíblemente convincentes.
Le mostré a mi marido el clip de pasta; él sabía que estaba probando una herramienta de video de IA, pero no le dije qué había generado la IA en la escena. Sin saber qué era lo que generaba la IA, entendió que yo estaba sentado frente a una cámara comiendo pasta y dijo que su única pista de que algo estaba pasando era que el cuenco no le parecía familiar. El hecho de comer pasta parecía lo suficientemente real como para convencer mi marido. Un hombre que me ha mirado en la vida real básicamente. todos los días durante la última década.
Mis otros deepfakes tienen distintos niveles de «lo suficientemente buenos como para engañar a la gente en las redes sociales». Un par de clips de la Torre Eiffel parecen un poco caricaturescos, pero uno de ellos es lo suficientemente convincente como para que tengas que volver a verlo varias veces para ver que es IA. I Sé que no soy yo cuando la IA gira la cabeza y revela su cabello recogido en una cola de caballo. Pero no estoy seguro de que alguien más pueda notar la diferencia, y eso me hace sentir raro.
Definitivamente estamos en lo profundo del valle inquietante.
Estoy un poco agotado por todo esto, para ser honesto. Cuando probé Veo 3 me sorprendió el realismo que podía producir. Me ha sorprendido lo fácil que es hacer que personas falsas aparezcan en fotografías falsas una y otra vez en los últimos años. Probablemente Omni también debería sorprenderme, y supongo que lo estoy, pero el borde ha desaparecido.
Todavía no es tan fácil crear una obra maestra cinematográfica generada por IA como a Google le gustaría hacernos creer. Pero Omni mejora a Veo en algunos aspectos reconocibles. Si tiene una cuenta de Google y una tarjeta de crédito, puede grabar un vídeo de usted sentado en casa y hacer que parezca que está en un vuelo a Maui con un esfuerzo trivial. No creo que estemos exactamente en las “estribaciones de la singularidad”, pero definitivamente estamos en lo profundo del valle inquietante.
Todas las imágenes y videos de esta historia fueron generados por Google Gemini.



