
Ciudad de México.- La inteligencia artificial (IA) avanza veloz de la mano de las tecnológicas, quienes desarrollan productos para automatizar procesos. La más reciente es Netflix, que presentó la herramienta Eliminador de Objetos e Interacciones en Video o VOID, por sus siglas en inglés.
A través del repositorio académico arXiv, Netflix explicó que VOID es un marco de trabajo diseñado para eliminar objetos en movimiento de videos y generar resultados físicamente plausibles al calcular cómo cambiarían las interacciones físicas del entorno, como evitar una colisión o hacer que un objeto caiga si se elimina su soporte.
Es decir, no solo elimina un objeto de la toma, sino que recrea una física de movimiento que necesita el equipo de trabajo para completar la escena, sin rodar de nuevo. Esto, con unos cuántos clics, pues funciona con grandes modelos de lenguaje (LLM) como Gemini 3 Pro, GPT-5.2 y Qwen-3.5 V.
“El dominio de esta capacidad beneficiará a los efectos visuales cinematográficos y hará que la edición avanzada de vídeo sea accesible para personas sin conocimientos especializados”, indicó Netflix.
Para hacer posible a VOID, los investigadores de la cadena de streaming recurrieron a los motores de simulación Kubric, para simular físicas de cuerpos rígidos como colisiones, objetos que caen o se apoyan, y el conjunto de datos Humoto para interacciones humanas, digamos, una persona soltando o manipulando un objeto.
Durante su uso se utiliza un Modelo de Visión-Lenguaje (VLM, como Gemini 3 Pro) que identifica las áreas del escenario afectadas por el objeto eliminado y con estos datos crean Quadmasks o máscaras de cuatro regiones que se encargan de guiar a un modelo de difusión de video, basado en la arquitectura CogVideoX, para generar el nuevo resultado.

En pocas palabras: se requiere un entramado de tecnología de Código Abierto bien entrenado. Piensa a Gemini 3 Pro como un chatbot especializado en video que recibe la orden y luego va sobre el lienzo del video para eliminar y rehacer o modificar la escena según se requiera.
Así crea las mencionadas Quadmasks. Para más simple, hablamos de una división en cuatro de la imagen: el área a reconstruir, sus bordes inmediatos, el contexto circundante y las partes que deben permanecer intactas. Estos datos guían al CogVideoX, encargado de generar nuevos fotogramas, rellenar de forma coherente el espacio y asegurar que el resultado mantenga continuidad visual entre cuadros.
La investigación fue elaborada por Saman Motamed, William Harvey, Benjamin Klein, Zhuoning Yuan y Ta-Ying Cheng, doctorantes o doctores provenientes de escuelas como Columbia, la Universidad de Tel Aviv, la Universidad de Oxford y el Instituto de Informática, Inteligencia Artificial y Tecnología.
Al ser un artículo científico, los investigadores obvian aspectos como el impacto laboral que tendrá la implementación de esta tecnología en la industria del cine y televisión. (AGENCIA REFORMA)




