Contexto
Llevo semanas hablando de optimizar el gasto de IA — RTK para el input, Caveman para el output. Pero me di cuenta de algo incómodo: estoy optimizando sin medir bien. Sé que ahorro, pero no tengo un número claro por proyecto, por tipo de tarea, por modelo.
La factura de Anthropic es un bloque. Codex y Cursor, otros bloques. Nada me dice "de las 40 horas que corriste agentes esta semana, el 60% del costo fue edit/test/fix retries en el proyecto X con Opus".
Hoy me topé con CodeBurn y me lo instalé en 30 segundos.
Qué hicimos
- Entender el mecanismo — CodeBurn no es un wrapper, no es un proxy, no pide API keys. Lee directamente los archivos de sesión que cada tool deja en disco:
~/.claude/projects/,~/.codex/sessions/, la SQLite de Cursor,~/.pi/agent/sessions/,~/.copilot/session-state/, OpenCode. Los parsea, clasifica cada mensaje en una de 13 categorías de tarea, y calcula costo con precios de LiteLLM (auto-caché, todos los modelos). - Instalar — Un comando:
Onpm install -g codeburnnpx codeburnsin instalar nada. - Abrir el dashboard —
codeburnsolo. TUI con gradientes, panels responsivos, navegación con teclado. Flechas para switchear Today / 7 Days / 30 Days / Month / All Time.cpara comparar modelos.ppara alternar providers si tienes varios. - Revisar los números — Overview con cost, calls, sessions, cache hit %. Breakdown por proyecto (con avg cost por sesión), por modelo con tokens, por tipo de actividad con one-shot success rate (esto me voló la cabeza: te dice en qué tipo de tarea el modelo acierta a la primera vs. en cuáles quema tokens en ciclos de edit/test/fix). Tools más usadas, servidores MCP, comandos shell.
- Probar
optimize—codeburn optimizeescanea la data y te da fixes copy-paste para reducir waste.-p weekpara limitar scope. - Export —
codeburn exportsaca CSV con hoy, 7 días, 30 días.-f jsonpara JSON. Tambiénreport --format jsonpara pipear ajq.
Resultado
Tres cosas me importaron inmediatamente:
1. Observabilidad por tipo de tarea. Las 13 categorías que clasifica son deterministas (sin llamadas a LLM, puro pattern matching sobre tools y keywords). Puedo ver qué % del costo se fue a debugging, a escribir código nuevo, a testing, a docs. Y cuál de esas categorías tiene mejor o peor one-shot rate.
2. Menubar app en macOS. npx codeburn menubar baja el .app nativo (Swift + SwiftUI, fuente en mac/), lo instala en ~/Applications y lo lanza. Icono de flamita con el costo del día. Refresca con FSEvents + poll cada 15s. Tengo el gasto en la esquina de la pantalla todo el día.
3. Plans. Si estás en Claude Max, Claude Pro o Cursor Pro, le dices el plan y el dashboard te muestra API-equivalent cost vs. precio de suscripción. Es decir: cuánto te saldría esa misma sesión si la estuvieras pagando por API. Es la única manera honesta de saber si tu plan vale la pena.
Bonus: soporta 162 monedas ISO 4217, con exchange rates de Frankfurter (ECB, gratis, cacheados 24h). codeburn currency MXN y todo queda en pesos.
Aprendizaje clave
Llevo meses predicando "optimiza antes de que el gasto explote" y resulta que yo mismo estaba volando a ciegas. Tenía instinto, no datos.
Este es el patrón: en cualquier stack agéntico que uses varias horas al día, el costo se vuelve opaco muy rápido. No sabes qué proyecto consume más, qué tipo de tarea quema más tokens, qué modelo te da mejor one-shot rate. Y si no lo sabes, no puedes decidir dónde aplicar RTK, dónde prender Caveman, dónde cambiar de Opus a Sonnet.
CodeBurn convierte el gasto de IA en una métrica de negocio. Y lo hace sin proxy, sin API keys, sin cambiar tu workflow — solo leyendo lo que tus tools ya dejan en disco.
La próxima iteración obvia: cruzar este data con Harvest. Si tengo horas registradas por proyecto en Harvest y costos de IA por proyecto en CodeBurn, puedo calcular costo real por hora de desarrollo asistido y margen por cliente. Ese número es lo que le falta a cualquiera que esté facturando con agentes en 2026.