Numia Data
Arquitectura de Datos · Ingeniería de Datos · Data Warehouse · Tiempo Real · Bootstrapped · Agentes IA
Cofundé Numia a finales de 2022. El problema era sencillo: los datos de blockchain eran un desastre. Los protocolos querían analíticas pero no conseguían resultados fiables. Los desarrolladores necesitaban APIs pero las opciones existentes eran lentas, caras, o ambas cosas. Decidimos construir la capa de datos que crypto realmente necesitaba.
Hoy somos bootstrapped, rentables, y servimos más de 10M peticiones API al día en más de 30 cadenas. Nuestros clientes incluyen TradingView, CoinGecko, CoinMarketCap, DexScreener y DefiLlama. En el lado de los protocolos: dYdX, Osmosis, Celestia, Stride. Equipo pequeño, sin financiación externa.
Lo que hago aquí
Cuando eres cofundador de una startup, tu puesto es lo que toque hacer esa semana. He escrito indexadores de cadenas, diseñado APIs, construido pipelines de ML, diseñado dashboards de frontend, atendido llamadas de clientes y debuggeado producción a las 2 de la mañana. Eso es el trabajo.
La parte de datos ocupa la mayor parte de mi tiempo. Construir indexadores que procesan miles de millones de eventos sin romperse. Programar transformaciones DBT que convierten datos crudos de cadena en algo útil. Afinar ClickHouse para las consultas que nuestros clientes realmente ejecutan. Asegurar que la capa de API aguante más de 10M peticiones diarias con un p99 por debajo de 100ms.
En el lado de producto, lideré el desarrollo de la API, construí los dashboards de analítica que los equipos de protocolos usan para tomar decisiones. Un CRM onchain que trata las wallets como usuarios en vez de direcciones de email. La capa de IA que se convirtió en NumiaAI. Una interfaz SQL para analistas que quieren acceso directo. Cada uno empezó como un problema de cliente y acabó siendo un producto.
Los productos
Acabamos construyendo una suite de herramientas porque los datos de blockchain tienen problemas diferentes en cada capa.
- Web3 API. Datos on-chain en tiempo real e históricos. Más de 10M peticiones al día, impulsa aplicaciones como TradingView, CoinGecko y DexScreener. El producto principal que he liderado.
- NumiaSQL. Capa de ingesta y distribucion de datos. Cientos de TB de datos de cadenas indexados en BigQuery, alimentando integradores como Dune, Artemis, Token Terminal y Nansen.
- Celestia Data. Plataforma de analítica a medida construida para la Celestia Foundation. Métricas de la capa DA, seguimiento de rollups y tokenomics en más de 50 redes.
- Token Pulse. Seguimiento de tokens en tiempo real con movimientos de ballenas, flujos de exchanges y segmentación de wallets. Latencia sub-segundo para las señales que importan antes de que se mueva el precio.
- Datalenses. Dashboards de analítica para Cosmos Hub, Osmosis, dYdX y Celestia. Los equipos de protocolos e inversores los usan para entender qué pasa en sus cadenas.
- NumiaAI. Haz preguntas sobre datos de blockchain en lenguaje natural. Lanzado con dYdX. Solo funciona porque los datos subyacentes están limpios.
- NumiaEngage. CRM on-chain y plataforma de crecimiento. Segmenta y dirige wallets según su comportamiento, distribuido a través de las wallets Keplr y Leap.
- DEX Anomaly Detection. Detección de patrones de trading inusuales basada en ML con autoencoders. Ayuda a los protocolos a detectar wash trading y manipulación.
Decisiones técnicas
Construimos un modelo de datos agnóstico de cadena desde el principio. Un esquema unificado para más de 30 cadenas. Cada cadena tiene sus peculiaridades: formatos de eventos distintos, estructuras de bloque diferentes, ideas diferentes de lo que es un "evento". Acertar con esa abstracción fue doloroso al principio, pero ahora podemos añadir una cadena nueva en días en vez de semanas.
Para la mayoría de nuestros pipelines, elegimos batch frente a tiempo real. Cuando investigamos lo que los clientes realmente necesitaban, la inmensa mayoría de casos de uso funcionaban perfectamente con latencias de 15 minutos a 1 hora. Reservar la infraestructura en tiempo real para los endpoints que genuinamente necesitan respuestas sub-segundo, como las APIs de DEXes o alertas en tiempo real, nos ahorró meses de ingeniería y mantiene nuestros costes de infraestructura predecibles.
En almacenamiento, nos adaptamos a lo que mejor encaje en cada caso. ClickHouse para consultas analíticas de alto rendimiento, BigQuery para transformaciones batch masivas y acceso SQL, Postgres para servir estado de entidades en vivo, y lo que el stack de cada cliente requiera. Forzar una sola base de datos a hacerlo todo nunca funciona. Elegir la herramienta adecuada para cada capa ahorra quebraderos de cabeza y dinero.
Usamos IA en todo el flujo de trabajo: escribir código, explorar datos, analizar resultados. En el lado de producto, convertimos eso en NumiaAI, donde protocolos e instituciones pueden consultar datos de blockchain en lenguaje natural. Funciona porque la capa de datos subyacente está limpia. Sin eso, solo estás apuntando un modelo de lenguaje al ruido.
Lo que aprendí
Los datos de blockchain son más difíciles de lo que parece. Cada cadena se comporta de forma diferente. La documentación miente. Los edge cases son la mayor parte del trabajo. Las cadenas se bifurcan sin avisar, las APIs devuelven datos distintos según el nodo al que consultes, haciendo que los eventos desaparezcan y reaparezcan. O construyes para eso o te rompes.
Ser bootstrapped obliga a tener claridad. Cuando no puedes tirar dinero a los problemas, aprendes qué problemas realmente importan. Cada decisión de producto tenía que pasar el filtro de "¿esto se paga solo?". Dijimos que no a muchas cosas que habrían molado pero no tenían sentido de negocio. Esa disciplina es la razón por la que somos rentables.
Los equipos pequeños pueden construir infraestructura. La gente asume que necesitas ejércitos de ingenieros para datos a esta escala. Construimos una empresa rentable sirviendo a clientes enterprise con un equipo pequeño porque automatizamos agresivamente y optimizamos desde el día uno (todo el mérito al equipo por hacerse dueños de cada pieza de software). Menos gente significa menos sobrecarga de coordinación, y resulta que eso importa más que el número de cabezas.