Gabriel Neuman
Gabriel Neuman
CLAUDE CODE · TOKEN OPTIMIZATION

Un skill que hace hablar a Claude como cavernícola y te ahorra 75% de tokens sin perder precisión técnica.

Si te asustaste con la factura de Claude o Cursor el mes pasado, caveman te explica por qué pagas tanto. Hace que el agente responda telegráfico — corta filler, mantiene el contenido técnico — y la cuenta baja sola.

Estrellas
64k★
Lenguaje
JavaScript
Tokens menos
75%
Revisado
22 may 2026
Lo que ofrece

De un vistazo, lo que vas a obtener si lo instalas.

  • ·
    75% menos tokens

    Misma información técnica, sin la cortesía y el filler que Claude agrega por default.

  • ·
    4 niveles de grunt

    Lite, full, ultra, wenyan. Eliges qué tan agresivo quieres el recorte según el contexto.

  • ·
    30+ clientes

    Funciona con Claude Code, Cursor, Codex, Gemini, Windsurf, Cline, Copilot y más.

  • ·
    Reversible

    Un comando lo instala, otro lo quita. Sin commitments, sin breaking changes al stack.

  • ·
    100% accuracy

    Solo recorta forma, no contenido. Los fixes y explicaciones técnicas siguen completas.

Por qué importa

El contexto detrás del repo.

La mayoría del costo de un agente de coding no se va en pensar, se va en escribir. Frases de cortesía, explicaciones redundantes, "I'd be happy to help you with that". Caveman ataca exactamente ese problema con una idea tonta-en-buen-sentido: hacer que el modelo responda como cavernícola.

El resultado parece chiste hasta que ves los números. Una respuesta normal de Claude de 69 tokens explicando un bug de React baja a 19 tokens en modo caveman — misma información, mismo fix, sin filler. Aplica a todos los modos de razonamiento: explicación de código, debug, fix sugerido.

Funciona como skill de Claude Code, pero también lo soportan Codex, Gemini, Cursor, Windsurf, Cline, Copilot y otros 30+ clientes. Y trae 4 niveles de "grunt": lite (quita filler), full (caveman estándar), ultra (telegráfico), wenyan (chino clásico, todavía más corto).

Para qué te sirve

Cuándo lo recomiendo (y cuándo no).

Lo recomiendo para cualquier equipo que ya esté pagando suscripción de Claude Code, Cursor o similar y vea que la factura crece sin control. El payoff es inmediato y reversible: instalas, ahorra ~75%, lo desinstalas si no te gusta.

No es para producción cara al cliente — no quieres que tu agente le hable en cavernícola a un usuario final. Es para tu equipo de desarrollo cuando trabaja con la IA. Para uso interno, el ahorro y la velocidad valen el chiste.

Cómo arrancarlo

En 3 pasos, listo para probar.

  1. 01

    Instala el skill

    curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

    Una línea. El instalador detecta qué cliente usas (Claude Code, Cursor, etc.) y lo configura solo.

  2. 02

    Activa el modo en tu cliente

    /caveman full

    Cambia "full" por "lite", "ultra" o "wenyan" según qué tan agresivo lo quieras. La diferencia se siente desde el siguiente prompt.

  3. 03

    Listo. Compara la factura del próximo mes.

    El autor publica benchmarks reales. En tareas idénticas, el modo caveman baja ~75% el output de tokens. Si quieres más, también existe caveman-code — un agente de terminal completo construido con la misma filosofía, ~2× más eficiente que Codex.

El antes y el después

El benchmark del autor compara la misma respuesta en modo Claude estándar contra modo caveman. El contenido técnico es idéntico, lo que cambia es la forma.

Claude estándar (69 tokens):

"The reason your React component is re-rendering is likely because you're creating a new object reference on each render cycle. When you pass an inline object as a prop, React's shallow comparison sees it as a different object every time, which triggers a re-render. I'd recommend using useMemo to memoize the object."

Claude en modo caveman (19 tokens):

"New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo."

Mismo fix. 75% menos palabras. Y se lee más rápido si ya sabes de qué se habla.

Niveles de grunt

Caveman trae cuatro modos según qué tan agresivo quieras el recorte:

  • Lite — solo quita el filler ("sure", "I'd be happy to", "let me explain"). Casi imperceptible, ahorro modesto.
  • Full — modo caveman default. ~75% menos tokens, telegrafía mantenida.
  • Ultra — aún más comprimido. Solo lo estrictamente necesario.
  • Wenyan — chino clásico. El más corto de todos.

Cambias entre modos con un comando. No necesitas reiniciar nada.

Para qué no sirve

Si tu producto final habla con usuarios no técnicos, no le metas caveman. La respuesta correcta para tu CEO no es "bug in auth middleware. Token expiry check use < not <=". Es para uso interno, para devs hablando con su asistente.

Tampoco metas caveman a escritura larga, documentación o copy de marketing. Es para Q&A técnica donde la velocidad de lectura importa más que la prosa.

Mi recomendación

Es de esas herramientas que parecen broma hasta que las usas un par de días. El ahorro de 75% no es trivial cuando pagas por uso. Vale la prueba de una semana antes de descartar.

De Gabriel Neuman para tu equipo

¿Tu factura de IA está creciendo sin medida?

Si tu equipo ya gasta más en Claude o Cursor del que esperabas, te ayudo a auditar qué se va en qué y a montar la pila de skills para bajar la factura sin sacrificar capacidad. Una llamada para entender tu caso.