Gabriel Neuman
Gabriel Neuman
WORLD MODELS · PHYSICAL AI

Modelos de mundo de NVIDIA para entrenar robots y vehículos sin chocarlos en la vida real.

Entrenar un robot o un coche autónomo en el mundo físico es caro, lento y peligroso. Cosmos genera video y simulación de mundo a partir de texto o imagen, para que el sistema aprenda en un entorno sintético antes de tocar hardware real. Es research-grade y pesado, pero viene de NVIDIA con pesos abiertos.

Estrellas
10k★
Lenguaje
Jupyter Notebook
Parámetros (Super)
64B
Revisado
13 jun 2026
Lo que ofrece

De un vistazo, lo que vas a obtener si lo instalas.

  • ·
    Pesos abiertos

    Modelos y código bajo licencia OpenMDW-1.1, no una demo cerrada: puedes descargar y correr los pesos tú mismo.

  • ·
    Omnimodal

    Procesa lenguaje, imagen, video, audio y secuencias de acción en una sola arquitectura transformer.

  • ·
    Reasoner y Generator

    Un modo razona y planea desde texto y visión, otro genera simulación de mundo en video, audio o acción.

  • ·
    Familia escalable

    De 16B (Nano) a 64B (Super), con variantes de texto-a-imagen, imagen-a-video y políticas de robot.

  • ·
    Honesto con sus fallas

    NVIDIA documenta los modos de falla físicos y pide validación extra para usos críticos de seguridad.

Por qué importa

El contexto detrás del repo.

El cuello de botella de la robótica y los vehículos autónomos no es el algoritmo, es la data. Necesitas millones de horas de situaciones físicas (un robot navegando un pasillo, un coche frenando ante un peatón) y capturarlas en el mundo real cuesta una fortuna, toma años, y algunas son demasiado peligrosas para grabarlas a propósito. Esa es la brecha que NVIDIA quiere cerrar con Cosmos.

Cosmos es una plataforma abierta de modelos de mundo. Procesa lenguaje, imágenes, video, audio y secuencias de acción en una sola arquitectura transformer, y genera escenas físicas coherentes a partir de un prompt. La versión Cosmos 3 trae dos modos de uso: un Reasoner que toma texto y visión para planear y razonar, y un Generator que produce visión, audio o acción para simulación. Los modelos van de 16B parámetros (Nano) a 64B (Super), con variantes para texto-a-imagen, imagen-a-video y políticas de manipulación robótica.

Los números dan idea de la escala. El generador de video soporta de 5 a 300 cuadros (por defecto 189, unos 7.9 segundos a 24 FPS), resoluciones hasta 720p, y corre en GPUs NVIDIA Ampere, Hopper o Blackwell. El propio NVIDIA es honesto sobre las fallas: en salidas largas o físicamente complejas aparecen inconsistencias temporales, movimiento inestable de cámara, objetos que se deforman y dinámicas físicas poco plausibles. Para aplicaciones críticas de seguridad, advierten que hace falta validación adicional a nivel sistema.

Para qué te sirve

Cuándo lo recomiendo (y cuándo no).

Esto es para equipos de research en robótica, vehículos autónomos o infraestructura inteligente que ya tienen el hardware de GPU para correr modelos de 16B a 64B y necesitan generar data sintética de mundo físico. El caso real es entrenar y validar políticas de control en un entorno simulado antes de arriesgar un robot o un coche en el mundo. Que NVIDIA libere los pesos bajo una licencia abierta (OpenMDW-1.1) lo hace una base seria para un laboratorio o una empresa de Physical AI.

No es para la mayoría de las PYMES, y conviene decirlo claro. Es research-grade y pesado: pide GPUs de gama de centro de datos (Ampere, Hopper, Blackwell), un stack de Python y diffusers, y conocimiento de modelos generativos para sacarle algo útil. No es una herramienta de productividad que instalas un martes en la tarde. Si tu negocio no construye sistemas físicos autónomos, este repo es para entender hacia dónde va la industria, no para usarlo mañana. Y para cualquier despliegue real, las fallas físicas que el propio NVIDIA documenta obligan a una capa de validación encima.

Cómo arrancarlo

En 3 pasos, listo para probar.

  1. 01

    Prepara el entorno con uv

    uv venv --python 3.13 --seed --managed-python
    source .venv/bin/activate
    uv pip install --torch-backend=auto \
      "diffusers @ git+https://github.com/huggingface/diffusers.git" \
      accelerate av cosmos_guardrail huggingface_hub imageio \
      imageio-ffmpeg torch torchvision transformers

    Instala diffusers desde el repo de Hugging Face más las dependencias de Cosmos. Necesitas una GPU NVIDIA Ampere, Hopper o Blackwell con suficiente VRAM para cargar un modelo de 16B o 64B.

  2. 02

    Corre inferencia de texto a video

    import torch
    from diffusers import Cosmos3OmniPipeline
    from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
    from diffusers.utils import export_to_video
    
    pipe = Cosmos3OmniPipeline.from_pretrained(
        "nvidia/Cosmos3-Nano",
        torch_dtype=torch.bfloat16,
        device_map="cuda",
    )
    pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)
    result = pipe(prompt="A mobile robot navigates a warehouse aisle.",
        num_frames=189, height=720, width=1280, fps=24,
        num_inference_steps=35, guidance_scale=6.0)
    export_to_video(result.video, "cosmos3_t2v.mp4", fps=24, macro_block_size=1)

    Carga el modelo Nano de 16B en bf16 y genera un clip de 189 cuadros (7.9 segundos a 24 FPS) en 720p. NVIDIA recomienda prompts de menos de 300 palabras para generación de mundo.

  3. 03

    Itera con prompts de mundo físico

    A partir de aquí cambias el prompt, los cuadros y la resolución según tu caso. Para políticas de robot existe la variante Cosmos3-Nano-Policy-DROID. Recuerda validar la salida: en escenas largas o complejas aparecen artefactos físicos que el modelo no garantiza.

Por qué importa este repo

El problema de la robótica y los vehículos autónomos es la data. Para que un sistema aprenda a actuar en el mundo físico necesita ver millones de situaciones, y capturarlas en la realidad cuesta una fortuna, toma años, y algunas son demasiado peligrosas para grabarlas a propósito. Cosmos genera esa data de forma sintética: describes una escena en texto o partes de una imagen, y el modelo produce video y simulación de mundo coherente.

NVIDIA llama a esto Physical AI: modelos que entienden y generan dinámicas del mundo real para entrenar robots, coches autónomos e infraestructura inteligente. Lo que distingue a Cosmos de una demo cerrada es que los pesos están abiertos bajo licencia OpenMDW-1.1. Puedes descargarlos y correrlos en tu propio hardware.

La familia de modelos

Modelo Tamaño Para qué sirve
Cosmos3-Nano 16B Entendimiento omnimodal compacto, simulación y razonamiento de acción
Cosmos3-Super 64B Entendimiento multimodal avanzado y tareas de Physical AI
Cosmos3-Super-Text2Image 64B Generación de imagen desde texto de alta fidelidad
Cosmos3-Super-Image2Video 64B Video temporalmente coherente desde una imagen
Cosmos3-Nano-Policy-DROID 16B Políticas de manipulación robótica

La plataforma expone dos superficies de uso. El Reasoner toma texto y visión y devuelve texto, para planear y razonar. El Generator toma entrada multimodal y produce visión, audio o acción, para simulación de mundo.

Capacidades técnicas reales

  • Generación de video: de 5 a 300 cuadros, por defecto 189 (unos 7.9 segundos a 24 FPS).
  • Resoluciones: 256p, 480p y 720p (1280×720), con relaciones de aspecto 16:9, 4:3, 1:1, 3:4 y 9:16.
  • Cuadros por segundo: 10, 16, 24 y 30 FPS.
  • GPUs soportadas: arquitecturas NVIDIA Ampere, Hopper y Blackwell.
  • Precisión: probado en BF16.
  • Prompts: se recomienda menos de 300 palabras para generación de mundo.

Limitaciones honestas

NVIDIA documenta las fallas en su propio README, y eso habla bien del proyecto. Cosmos 3 produce artefactos en salidas largas, de alta resolución o físicamente complejas. Los modos de falla comunes incluyen inconsistencia temporal, movimiento inestable de cámara u objetos, mala alineación entre audio y video, inconsistencia en el estado de la acción, objetos que se deforman, estructura 3D inexacta y dinámicas físicas poco plausibles.

La conclusión práctica: para aplicaciones donde la seguridad importa, las salidas del modelo no bastan. Hace falta validación adicional y un análisis de seguridad a nivel sistema antes de confiar en lo que genera.

A esto se suma el costo de entrada. No es un repo que cualquiera corre. Pide GPUs de gama de centro de datos, un stack de Python con diffusers, y suficiente VRAM para cargar modelos de 16B a 64B. Es research-grade en el sentido literal: pensado para laboratorios y equipos con infraestructura seria, no para una laptop.

Mi recomendación

Si tu equipo construye sistemas físicos autónomos (robots, vehículos, infraestructura) y tienes el hardware de GPU para sostenerlo, Cosmos es una de las bases abiertas más serias que hay para generar data de mundo y validar políticas en simulación. Que venga de NVIDIA con pesos abiertos bajo OpenMDW-1.1 le da peso institucional que pocos proyectos de este tipo tienen.

Para todos los demás, lo veo como una ventana al futuro, no como herramienta de hoy. Si tu negocio no toca Physical AI, no hay un caso de uso inmediato. Lo que sí vale es entender que la simulación de mundo está llegando a pesos abiertos: dentro de unos años, la barrera de entrada a la robótica va a ser mucho más baja de lo que es ahora, y este repo es la señal.

De Gabriel Neuman para tu equipo

¿Quieres entender qué significa Physical AI para tu industria?

Si tu empresa explora robótica, simulación o IA aplicada a sistemas físicos y no sabes por dónde empezar, te ayudo a separar lo que sirve hoy de lo que es research a futuro. Una llamada para aterrizarlo a tu caso.