Caveman: el skill que ataca el otro lado del pipe para reducir costos de IA

Contexto

Llevo meses optimizando el lado del input con RTK: comprimir outputs de CLI antes de que lleguen al context window. Funciona bien, sesiones 3x más largas, ahorro real. Pero había una fuga que no estaba atacando: los tokens que el modelo escribe de vuelta.

Cada respuesta larga, cada explicación en párrafos, cada cortesía ("sure, I'd be happy to help with that!") — todo eso se paga. En un día normal con agentes corriendo, es la mitad del gasto.

Hoy instalé Caveman, un skill open-source de Julius Brussee que ataca exactamente ese lado.

Qué hicimos

Entender el mecanismo — Caveman no es un tokenizer ni un compresor. Es prompt engineering empaquetado como skill. Le dice al modelo que hable en estilo telegráfico: sin artículos, sin filler, sin cortesías. Code y commits quedan intactos.

Instalar en Claude Code — Un par de comandos en el marketplace de plugins y listo:

claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman

Probar los niveles — lite para recortar solo el filler, full para estilo telegráfico, ultra para compresión máxima. Para desarrollo normal, lite es el sweet spot.
Ficha en la sección de herramientas — La agregué en /caveman con el diferenciador claro vs RTK.

Resultado

Los benchmarks del autor prometen 22-87% de ahorro de output tokens (65% promedio en 10 tareas). En mi primera sesión de prueba — un debugging normal, con preguntas y explicaciones — vi diferencia inmediata en la longitud de las respuestas del modelo. El código explicativo quedó limpio; las explicaciones, directas.

Lo importante es que es gratis y reversible: "stop caveman" y el modelo vuelve a hablar normal. Si una tarea necesita prosa cuidada (redactar un email, escribir un diario como este), lo apago. Para sesiones de código, queda prendido.

Y lo mejor: no compite con RTK, lo complementa. RTK trabaja el lado de lo que entra al modelo. Caveman trabaja el lado de lo que sale. Corriéndolos juntos, ataco los dos frentes.

Aprendizaje clave

En cualquier pipeline agéntico hay dos lugares donde se quema dinero: el input (lo que le das al modelo) y el output (lo que el modelo te responde). La mayoría de las optimizaciones se enfocan en uno solo — típicamente el input, porque es lo más visible cuando llenas el context window.

Pero si tu agente genera reportes, explica código, o conversa mucho, el output es donde se va la factura. Y ahí una instrucción de estilo bien armada le gana a cualquier optimización técnica.

El prompt engineering no murió. Se profesionalizó. Ahora viene empaquetado como skill, con SessionStart hooks, niveles de intensidad, y benchmarks reproducibles. Y sigue siendo la palanca más barata para reducir costos.

La próxima vez que miremos una factura alta de API, la pregunta no es solo "¿cuánto contexto le estamos metiendo?" sino también "¿cuánto le estamos dejando responder?".