Analytics para agentes de código IA: lo que aprendimos en 1.573 sesiones
Los desarrolladores creen que la IA les hace un 20% más productivos. Un estudio riguroso de METR descubrió que desarrolladores experimentados de código abierto eran en realidad un 19% más lentos con asistencia de IA. Lo mejor: después del estudio, esos mismos desarrolladores seguían convencidos de haber sido un 20% más rápidos.
Solo el 29% de las organizaciones puede medir con confianza si sus herramientas de código con IA están dando resultados. El resto va a ciegas.
Nosotros también íbamos a ciegas.
Gastando en IA todos los días sin medir nada
Nuestro equipo usa Claude Code a diario. Seis personas, 37 proyectos, trabajo real en producción. Habíamos apostado por el coding con IA hacía meses.
Pero no podíamos responder preguntas básicas. ¿Estamos mejorando de verdad en el uso de agentes IA? ¿Qué tareas funcionan bien? ¿Cuáles queman tokens sin producir nada? Cuando alguien abandona una sesión a los 30 segundos, ¿por qué?
La industria te da contadores de tokens, números de latencia y dashboards de costes. Vale. Pero nadie estaba midiendo lo que de verdad importa: ¿el agente siguió sus instrucciones? ¿La sesión produjo algo útil? ¿El equipo mejora con el tiempo o solo gasta más?
Nos hacíamos estas preguntas en cada llamada en la que decidíamos qué tareas dar a los agentes y cuáles hacer nosotros. Nadie tenía respuestas. Tomábamos esas decisiones por intuición, y no teníamos forma de saber si nuestra intuición valía para algo.
Las herramientas no existían.
No es solo cosa nuestra. Faros AI estudió a 10.000 desarrolladores en 1.255 equipos y encontró algo incómodo. Los equipos con alta adopción de IA sacaban un 21% más de tareas y un 98% más de pull requests. Suena genial. Pero esos mismos equipos tenían tiempos de revisión de PRs un 91% más largos, un 9% más de bugs por desarrollador y PRs un 154% más grandes. A nivel de organización, no había correlación significativa entre adopción de IA y mejora real.
Más output. Los mismos resultados o peores. Y casi nadie mide la diferencia.
Decidimos dejar de darle vueltas y ponernos a ello.
Los números que encontramos dentro de nuestras sesiones
Construimos una herramienta para capturar y analizar nuestras sesiones de Claude Code. Todas las transcripciones, todos los resultados. Tras 1.573 sesiones, aparecieron patrones que no esperábamos.
4% de uso de skills
Habíamos invertido semanas construyendo skills personalizados para Claude Code. Instrucciones cuidadas, workflows específicos del dominio, todo el montaje. Rudel nos enseñó que solo el 4% de las sesiones los estaba cargando.
El agente no estaba roto. El mecanismo de descubrimiento sí. Los skills en .claude/skills/ usan matching por RAG para descubrirse, y si el agente no busca, no los encuentra. Añadimos un único paso obligatorio de descubrimiento a nuestro CLAUDE.md global. El uso pasó del 4% al 61%.
Un cambio de configuración. Medible en todo el equipo. Sin los datos, jamás lo habríamos encontrado.
26% de abandono en los primeros 60 segundos
No fallos. Abandonos. Una cuarta parte de las sesiones terminaban con el usuario tirando la toalla antes de que el agente arrancase. Eso es mucho contexto y mucho tiempo tirado a la basura. Entender por qué la gente se larga pronto resultó ser más útil que optimizar las sesiones largas.
Dos patrones se repetían. El agente empieza a hacer algo claramente mal en los primeros segundos, y el usuario decide que matar la sesión y reintentar con otro prompt u otro modelo es más rápido que corregirlo. O el agente no carga las herramientas, skills o MCPs correctos, y el usuario se da cuenta al instante de que esa sesión no va a dar lo que necesita.
Los errores tempranos predicen el fallo de la sesión
Si el agente tropieza en los dos primeros minutos y no se autocorrige, la sesión casi nunca se recupera. El patrón era lo bastante consistente como para que empezásemos a tratar los dos primeros minutos como una señal de fiabilidad para la sesión entera. Si algo falla pronto y el agente rectifica, la sesión suele salir bien. Si no, es mejor empezar de cero.
Este hallazgo y el del 26% de abandono son dos caras de la misma moneda. Ambos apuntan a la misma causa raíz: mala configuración. El agente no estaba preparado para funcionar bien desde el principio, así que los usuarios entraban en un bucle de matar sesiones y reintentar hasta que algo encajaba. Arregla la configuración y los dos números mejoran.
10% de aumento en tareas completadas con éxito
Después de aplicar lo que aprendimos de estos patrones, la tasa de finalización de tareas del equipo subió un 10%. Las métricas concretas también mejoraron, pero lo gordo fue el número global. Rudel lo midió analizando los prompts de las conversaciones y el comportamiento de los usuarios entre sesiones. La mejora vino de una combinación de la corrección de skills, mejores flujos de onboarding y eliminar patrones de sesión que ya sabíamos que estaban condenados.
Lo que no se ve en un dashboard: la gente del equipo ahora se siente más segura. Pierden menos tiempo dudando de si el agente está haciendo lo correcto. Tienen mejor relación con el coding asistido por IA en general. Eso es difícil de medir, pero importa tanto como el 10%.
No fueron hallazgos teóricos. Salieron de nuestro trabajo diario, medidos por una herramienta que construimos porque nada en el mercado estaba rastreando esto.
Esa herramienta es rudel.ai.
Cómo funciona rudel.ai
CLI-first. Dos comandos para empezar: rudel login y rudel enable. Nada más.
Rudel se instala como un hook de Claude Code. Cuando termina una sesión, el hook se dispara y sube la transcripción automáticamente. Sin exportaciones manuales, sin copiar y pegar. Tu flujo de trabajo no cambia. Programas como siempre. Los datos aparecen en tu dashboard.
El stack:
- CLI (
/apps/cli), el hook que captura transcripciones al terminar la sesión. - Backend que recibe y procesa transcripciones en analytics estructurados. Bun + TypeScript.
- ClickHouse para almacenar y consultar todos los datos de sesiones. Agregaciones rápidas sobre miles de sesiones, el tipo de carga analítica que llevamos ejecutando a escala desde hace años.
- Dashboard, donde exploras analytics de sesiones, patrones del equipo, uso de modelos y métricas de éxito.
Todo es TypeScript. Un monorepo con Turbo que corre sobre Bun. El repo en GitHub tiene el diagrama completo de arquitectura.
Puedes usar la versión hosted gratuita en rudel.ai o hacer self-host de todo. Ambas opciones están disponibles. El self-hosting fue la preocupación número uno durante el lanzamiento, y lo entendemos de sobra. Tienes que poder decidir dónde viven tus datos de sesión.
Source available y construyendo en público
Hicimos rudel source available por una razón concreta. Le estamos pidiendo a los desarrolladores que nos confíen sus transcripciones de sesión. Deberías poder leer cada línea de código que toca tus datos. Ver exactamente qué se envía, cómo se almacena y qué se analiza. Sin cajas negras.
Si prefieres hacer self-host de todo, adelante. Preferimos que uses Rudel en tu propia infraestructura a que no lo uses.
Pero source available no es solo cuestión de confianza. El producto es joven. Funciona, los datos ya se pagan solos, pero hay una lista larga de cosas que queremos construir. Y preferimos hacerlo con la comunidad que solos.
Tampoco nos limitamos a Claude Code. El soporte para Codex ya está integrado y en fase de pruebas. Hay una PR abierta para soporte de Pi, vamos con todo en cross-platform. Si tu equipo usa más de un agente de código IA, deberías poder compararlos codo con codo con los mismos analytics.
Colaborar es bienvenido. Abre un issue, manda una PR, haz fork, cuéntanos qué métricas te gustaría tener.
Semana de lanzamiento: 190 estrellas y VPs en la bandeja de entrada
Lanzamos la semana del 10 de marzo. Lo publicamos en Hacker News, en LinkedIn y en Twitter. El repo de GitHub salió en abierto.
Esperábamos que unas pocas personas lo probasen. No esperábamos lo que pasó.
144 upvotes en Hacker News. 86 comentarios. 190 estrellas en GitHub en los primeros días. Los registros iban desde desarrolladores en solitario hasta equipos de ingeniería de empresas que nunca habían oído hablar de nosotros. VPs de ingeniería y CTOs nos escriben porque quieren visibilidad sobre cómo sus equipos usan agentes de código IA.
No pagamos distribución. Resolvimos un problema que resultó ser más grande que nuestro equipo, lo construimos en abierto, y la gente lo reconoció.
Lo que más llamó la atención en los comentarios de HN: nadie preguntaba "¿para qué necesito esto?". Preguntaban: "¿Puedo hacer self-host?" y "¿Cuándo daréis soporte a otros agentes?". El dato del 26% de abandono y el bajo uso de skills resonaron con mucha gente. Varios comentaristas compartieron que habían visto patrones parecidos en sus propios equipos pero no tenían forma de cuantificarlos.
La categoría es real. Tanto Datadog como Anthropic lanzaron sus propias funcionalidades de analytics para Claude Code en 2026. Rudel es anterior a ambos. Cuando los incumbentes entran en un espacio que llevas construyendo, sabes que el problema no era inventado.
Inteligencia a nivel de equipo para agentes IA
El lanzamiento validó que este problema existe mucho más allá de nuestro equipo de seis personas. Ahora toca ganarnos la confianza de cada equipo que se ha registrado, entregando rápido.
El dashboard va a tener un rediseño completo. Queremos que cada vez que lo abras, te cuente algo que no sabías sobre cómo trabaja tu equipo con agentes. El dashboard actual funciona. La siguiente versión va a ser algo que quieras abrir cada mañana.
Más allá de eso: análisis de ventana de contexto, tracking multi-modelo, y la visión de fondo. Inteligencia a nivel de equipo. No "cuántos tokens he gastado hoy", sino "¿mi equipo de ingeniería está mejorando de verdad en su trabajo con agentes IA a lo largo del tiempo?". Esa es la pregunta que se hace ahora mismo todo VP de ingeniería, y nadie tiene una buena respuesta todavía.
Trabajamos en ciclos de entrega semanales. Cada bug reportado se arregla en una semana. Las funcionalidades se lanzan según lo que los usuarios necesitan de verdad.
Si algo de esto te resulta útil:
- Pruébalo. rudel.ai, versión hosted gratuita. Se configura en dos minutos.
- Haz self-host. github.com/obsessiondb/rudel, código fuente completo, documentación de self-hosting incluida.
- Construye con nosotros. Abre un issue, manda una PR, cuéntanos qué necesitas.
Seguir Leyendo
Publicado originalmente en ObsessionDB. Lee el artículo original aquí.