Por qué importa este repo
El problema de la robótica y los vehículos autónomos es la data. Para que un sistema aprenda a actuar en el mundo físico necesita ver millones de situaciones, y capturarlas en la realidad cuesta una fortuna, toma años, y algunas son demasiado peligrosas para grabarlas a propósito. Cosmos genera esa data de forma sintética: describes una escena en texto o partes de una imagen, y el modelo produce video y simulación de mundo coherente.
NVIDIA llama a esto Physical AI: modelos que entienden y generan dinámicas del mundo real para entrenar robots, coches autónomos e infraestructura inteligente. Lo que distingue a Cosmos de una demo cerrada es que los pesos están abiertos bajo licencia OpenMDW-1.1. Puedes descargarlos y correrlos en tu propio hardware.
La familia de modelos
| Modelo | Tamaño | Para qué sirve |
|---|---|---|
| Cosmos3-Nano | 16B | Entendimiento omnimodal compacto, simulación y razonamiento de acción |
| Cosmos3-Super | 64B | Entendimiento multimodal avanzado y tareas de Physical AI |
| Cosmos3-Super-Text2Image | 64B | Generación de imagen desde texto de alta fidelidad |
| Cosmos3-Super-Image2Video | 64B | Video temporalmente coherente desde una imagen |
| Cosmos3-Nano-Policy-DROID | 16B | Políticas de manipulación robótica |
La plataforma expone dos superficies de uso. El Reasoner toma texto y visión y devuelve texto, para planear y razonar. El Generator toma entrada multimodal y produce visión, audio o acción, para simulación de mundo.
Capacidades técnicas reales
- Generación de video: de 5 a 300 cuadros, por defecto 189 (unos 7.9 segundos a 24 FPS).
- Resoluciones: 256p, 480p y 720p (1280×720), con relaciones de aspecto 16:9, 4:3, 1:1, 3:4 y 9:16.
- Cuadros por segundo: 10, 16, 24 y 30 FPS.
- GPUs soportadas: arquitecturas NVIDIA Ampere, Hopper y Blackwell.
- Precisión: probado en BF16.
- Prompts: se recomienda menos de 300 palabras para generación de mundo.
Limitaciones honestas
NVIDIA documenta las fallas en su propio README, y eso habla bien del proyecto. Cosmos 3 produce artefactos en salidas largas, de alta resolución o físicamente complejas. Los modos de falla comunes incluyen inconsistencia temporal, movimiento inestable de cámara u objetos, mala alineación entre audio y video, inconsistencia en el estado de la acción, objetos que se deforman, estructura 3D inexacta y dinámicas físicas poco plausibles.
La conclusión práctica: para aplicaciones donde la seguridad importa, las salidas del modelo no bastan. Hace falta validación adicional y un análisis de seguridad a nivel sistema antes de confiar en lo que genera.
A esto se suma el costo de entrada. No es un repo que cualquiera corre. Pide GPUs de gama de centro de datos, un stack de Python con diffusers, y suficiente VRAM para cargar modelos de 16B a 64B. Es research-grade en el sentido literal: pensado para laboratorios y equipos con infraestructura seria, no para una laptop.
Mi recomendación
Si tu equipo construye sistemas físicos autónomos (robots, vehículos, infraestructura) y tienes el hardware de GPU para sostenerlo, Cosmos es una de las bases abiertas más serias que hay para generar data de mundo y validar políticas en simulación. Que venga de NVIDIA con pesos abiertos bajo OpenMDW-1.1 le da peso institucional que pocos proyectos de este tipo tienen.
Para todos los demás, lo veo como una ventana al futuro, no como herramienta de hoy. Si tu negocio no toca Physical AI, no hay un caso de uso inmediato. Lo que sí vale es entender que la simulación de mundo está llegando a pesos abiertos: dentro de unos años, la barrera de entrada a la robótica va a ser mucho más baja de lo que es ahora, y este repo es la señal.