El antes y el después
El benchmark del autor compara la misma respuesta en modo Claude estándar contra modo caveman. El contenido técnico es idéntico, lo que cambia es la forma.
Claude estándar (69 tokens):
"The reason your React component is re-rendering is likely because you're creating a new object reference on each render cycle. When you pass an inline object as a prop, React's shallow comparison sees it as a different object every time, which triggers a re-render. I'd recommend using useMemo to memoize the object."
Claude en modo caveman (19 tokens):
"New object ref each render. Inline object prop = new ref = re-render. Wrap in
useMemo."
Mismo fix. 75% menos palabras. Y se lee más rápido si ya sabes de qué se habla.
Niveles de grunt
Caveman trae cuatro modos según qué tan agresivo quieras el recorte:
- Lite — solo quita el filler ("sure", "I'd be happy to", "let me explain"). Casi imperceptible, ahorro modesto.
- Full — modo caveman default. ~75% menos tokens, telegrafía mantenida.
- Ultra — aún más comprimido. Solo lo estrictamente necesario.
- Wenyan — chino clásico. El más corto de todos.
Cambias entre modos con un comando. No necesitas reiniciar nada.
Para qué no sirve
Si tu producto final habla con usuarios no técnicos, no le metas caveman. La respuesta correcta para tu CEO no es "bug in auth middleware. Token expiry check use < not <=". Es para uso interno, para devs hablando con su asistente.
Tampoco metas caveman a escritura larga, documentación o copy de marketing. Es para Q&A técnica donde la velocidad de lectura importa más que la prosa.
Mi recomendación
Es de esas herramientas que parecen broma hasta que las usas un par de días. El ahorro de 75% no es trivial cuando pagas por uso. Vale la prueba de una semana antes de descartar.