Contexto
Llevo meses optimizando el lado del input con RTK: comprimir outputs de CLI antes de que lleguen al context window. Funciona bien, sesiones 3x más largas, ahorro real. Pero había una fuga que no estaba atacando: los tokens que el modelo escribe de vuelta.
Cada respuesta larga, cada explicación en párrafos, cada cortesía ("sure, I'd be happy to help with that!") — todo eso se paga. En un día normal con agentes corriendo, es la mitad del gasto.
Hoy instalé Caveman, un skill open-source de Julius Brussee que ataca exactamente ese lado.
Qué hicimos
- Entender el mecanismo — Caveman no es un tokenizer ni un compresor. Es prompt engineering empaquetado como skill. Le dice al modelo que hable en estilo telegráfico: sin artículos, sin filler, sin cortesías. Code y commits quedan intactos.
- Instalar en Claude Code — Un par de comandos en el marketplace de plugins y listo:
claude plugin marketplace add JuliusBrussee/caveman claude plugin install caveman@caveman - Probar los niveles —
litepara recortar solo el filler,fullpara estilo telegráfico,ultrapara compresión máxima. Para desarrollo normal,litees el sweet spot. - Ficha en la sección de herramientas — La agregué en
/cavemancon el diferenciador claro vs RTK.
Resultado
Los benchmarks del autor prometen 22-87% de ahorro de output tokens (65% promedio en 10 tareas). En mi primera sesión de prueba — un debugging normal, con preguntas y explicaciones — vi diferencia inmediata en la longitud de las respuestas del modelo. El código explicativo quedó limpio; las explicaciones, directas.
Lo importante es que es gratis y reversible: "stop caveman" y el modelo vuelve a hablar normal. Si una tarea necesita prosa cuidada (redactar un email, escribir un diario como este), lo apago. Para sesiones de código, queda prendido.
Y lo mejor: no compite con RTK, lo complementa. RTK trabaja el lado de lo que entra al modelo. Caveman trabaja el lado de lo que sale. Corriéndolos juntos, ataco los dos frentes.
Aprendizaje clave
En cualquier pipeline agéntico hay dos lugares donde se quema dinero: el input (lo que le das al modelo) y el output (lo que el modelo te responde). La mayoría de las optimizaciones se enfocan en uno solo — típicamente el input, porque es lo más visible cuando llenas el context window.
Pero si tu agente genera reportes, explica código, o conversa mucho, el output es donde se va la factura. Y ahí una instrucción de estilo bien armada le gana a cualquier optimización técnica.
El prompt engineering no murió. Se profesionalizó. Ahora viene empaquetado como skill, con SessionStart hooks, niveles de intensidad, y benchmarks reproducibles. Y sigue siendo la palanca más barata para reducir costos.
La próxima vez que miremos una factura alta de API, la pregunta no es solo "¿cuánto contexto le estamos metiendo?" sino también "¿cuánto le estamos dejando responder?".