vLLM 0.23: seis modelos nuevos y 20% más velocidad de inferencia
La nueva versión de vLLM suma DeepSeek-V4, Gemma 4 y cuatro modelos más, con ganancias de rendimiento de hasta 20% sin cambiar el hardware.
Qué pasó
vLLM lanzó la versión 0.23.0 con soporte oficial para DeepSeek-V4 y seis modelos nuevos: Step-3.7-Flash, Cosmos3 Reasoner, Gemma 4 Unified, JetBrains Mellum v2, Granite Speech Plus y Cohere Mini Code. Model Runner V2 —con mejor manejo de gráficas CUDA y eliminación de burbujas en pipelines paralelas— es ahora el default para Llama y Mistral. Las optimizaciones CUTLASS entregan hasta 20% más rendimiento en cargas FP8.
Por qué importa para PyMEs LATAM
vLLM es el motor de inferencia open-source más usado en producción. Si tu equipo usa una API de IA distinta a OpenAI —como Groq, Together AI, RunPod o cualquier proveedor con hardware propio— es probable que corra sobre vLLM. Que el motor sea 20% más eficiente significa que los mismos tokens cuestan menos tiempo de cómputo: llamadas más rápidas o más baratas por el mismo presupuesto mensual.
La lectura
El salto de rendimiento no viene de un modelo nuevo sino del motor que los sirve. Para una agencia de 15 personas que gasta $300 al mes en API calls, una mejora de 10-20% en eficiencia puede reducir esa factura sin cambiar una línea de código ni migrar de proveedor.
DeepSeek-V4 es hoy el modelo de razonamiento más competitivo en relación costo/calidad disponible en open-source. Ahora tiene soporte completo en vLLM, con metadata MLA desacoplada y caché de prefijos selectiva para ventanas de contexto largas. Eso importa si alguien en tu equipo técnico evalúa proveedores alternativos o auto-hospeda modelos.
Lo que todavía no es para todos: vLLM requiere GPUs compatibles con NVIDIA, AMD o Intel. Si no tienes infraestructura propia, el beneficio llega de forma indirecta a través de los precios de tu proveedor de API, no porque tú lo instales.
Lo que ya estoy haciendo en GNB Labs
En los sistemas que opera GNB Labs hoy, este tipo de cambio toca cómo se diseñan agentes que aguantan operación real, no demos. Por eso lo cubrimos en Cohort IA Operativa, un programa donde fundadores y operadores aprenden a poner agentes en producción para sus procesos reales, no en una hoja en blanco.
Qué hacer a partir de hoy
- Si usas una API de terceros: pregunta a tu proveedor si ya actualizó a vLLM 0.23. Podrías ver mejoras de latencia en los próximos días sin hacer nada de tu parte.
- Si evalúas DeepSeek-V4: ya puedes probarlo vía cualquier host compatible con vLLM 0.23. Compara contra tu modelo actual con un benchmark de tus propias tareas, no benchmarks genéricos.
- Si auto-hospedas modelos: actualiza vLLM, activa Model Runner V2 en tu configuración y mide la diferencia en throughput. El comando es estándar:
pip install -U vllm. - Si el gasto en IA es un problema: documenta tus costos actuales por tarea y revisa en 30 días si tu proveedor mejoró sus precios o velocidad de respuesta.
Fuente original
v0.23.0 — GitHub · vllm-project/vllm →