Numia Data
Arquitectura de Datos · Ingeniería de Datos · Data Warehouse · Tiempo Real · Bootstrapped · Agentes IA
Cofundé Numia a finales de 2022. El problema era claro: los datos de blockchain eran un caos. Los protocolos querían analíticas pero no conseguían números fiables. Los desarrolladores necesitaban APIs, pero las opciones disponibles eran lentas, caras o las dos cosas. Decidimos construir la capa de datos que crypto de verdad necesitaba.
Hoy somos rentables, sin inversión externa, y servimos más de 10M de peticiones API al día en más de 30 cadenas. Entre nuestros clientes están TradingView, CoinGecko, CoinMarketCap, DexScreener y DefiLlama. Del lado de protocolos: dYdX, Osmosis, Celestia, Stride. Equipo pequeño, cero financiación externa.
Lo que hago aquí
En una startup como cofundador, tu puesto es lo que haga falta esa semana. He escrito indexadores de cadenas, diseñado APIs, montado pipelines de ML, desarrollado dashboards, atendido llamadas con clientes y depurado producción a las 2 de la mañana. De eso va el trabajo.
Los datos me ocupan la mayor parte del tiempo. Montar indexadores que procesan miles de millones de eventos sin caerse. Diseñar transformaciones en DBT que convierten datos crudos de la cadena en algo aprovechable. Ajustar ClickHouse para las consultas que nuestros clientes realmente lanzan. Garantizar que la capa de API soporte más de 10M de peticiones diarias con p99 por debajo de 100ms.
En producto, lideré el desarrollo de la API y los dashboards de analítica que usan los equipos de protocolos para tomar decisiones. Un CRM onchain que trata wallets como usuarios en lugar de direcciones de email. La capa de IA que acabó siendo NumiaAI. Una interfaz SQL para analistas que quieren acceso directo. Cada producto nació de un problema real de un cliente.
Los productos
Terminamos montando un conjunto de herramientas porque los datos blockchain plantean problemas distintos en cada capa.
- Web3 API. Datos on-chain en tiempo real e históricos. Más de 10M de peticiones al día; alimenta aplicaciones como TradingView, CoinGecko y DexScreener. El producto principal que he liderado.
- NumiaSQL. Capa de ingesta y distribución de datos. Cientos de TB de datos indexados en BigQuery, sirviendo a integradores como Dune, Artemis, Token Terminal y Nansen.
- Celestia Data. Plataforma de analítica a medida para la Celestia Foundation. Métricas de la capa DA, seguimiento de rollups y tokenomics en más de 50 redes.
- Token Pulse. Seguimiento de tokens en tiempo real: movimientos de ballenas, flujos de exchanges y segmentación de wallets. Latencia sub-segundo para las señales que importan antes de que se mueva el precio.
- Datalenses. Dashboards analíticos para Cosmos Hub, Osmosis, dYdX y Celestia. Equipos de protocolos e inversores los usan para entender qué ocurre en sus cadenas.
- NumiaAI. Pregunta sobre datos blockchain en lenguaje natural. Lanzado con dYdX. Solo funciona porque los datos subyacentes están limpios.
- NumiaEngage. CRM on-chain y plataforma de crecimiento. Segmenta wallets según su comportamiento y llega a ellas a través de Keplr y Leap.
- DEX Anomaly Detection. Detección de patrones de trading anómalos con ML y autoencoders. Permite a los protocolos identificar wash trading y manipulación.
Decisiones técnicas
Desde el principio apostamos por un modelo de datos agnóstico de cadena. Un esquema unificado para más de 30 cadenas. Cada una tiene sus manías: formatos de eventos distintos, estructuras de bloque diferentes, concepciones propias de lo que es un "evento". Acertar con esa abstracción dolió al principio, pero ahora añadimos una cadena nueva en días, no en semanas.
En la mayoría de pipelines, elegimos batch frente a tiempo real. Al analizar lo que los clientes realmente necesitaban, casi todos los casos de uso funcionaban de sobra con latencias de 15 minutos a 1 hora. Reservar la infraestructura en tiempo real para los endpoints que de verdad exigen respuestas sub-segundo, como las APIs de DEXes o las alertas en vivo, nos ahorró meses de ingeniería y mantiene los costes de infraestructura predecibles.
En almacenamiento, usamos lo que mejor encaje en cada caso. ClickHouse para consultas analíticas de alto rendimiento, BigQuery para transformaciones batch masivas y acceso SQL, Postgres para servir estado de entidades en vivo, y lo que pida el stack de cada cliente. Empeñarse en que una sola base de datos lo haga todo nunca sale bien. Elegir la herramienta adecuada para cada capa ahorra dolores de cabeza y dinero.
Usamos IA en todo el flujo: escribir código, explorar datos, analizar resultados. En producto, eso se materializó en NumiaAI, donde protocolos e instituciones consultan datos blockchain en lenguaje natural. Funciona porque la capa de datos subyacente está limpia. Sin eso, solo estás apuntando un modelo de lenguaje al ruido.
Lo que aprendí
Los datos blockchain son más difíciles de lo que parece. Cada cadena va a su aire. La documentación miente. Los edge cases son la mayor parte del trabajo. Las cadenas se bifurcan sin avisar, las APIs devuelven datos distintos según el nodo que consultes; los eventos aparecen y desaparecen. O construyes pensando en eso o revientas.
Crecer sin inversión te obliga a tener las ideas claras. Cuando no puedes tirar dinero a los problemas, aprendes cuáles importan de verdad. Cada decisión de producto tenía que pasar el filtro de "¿esto se paga solo?". Dijimos que no a muchas cosas que habrían molado pero no tenían sentido de negocio. Esa disciplina explica por qué somos rentables.
Los equipos pequeños sí pueden construir infraestructura. Todo el mundo asume que necesitas ejércitos de ingenieros para datos a esta escala. Montamos una empresa rentable que sirve a clientes enterprise con un equipo reducido porque automatizamos a fondo y optimizamos desde el día uno (todo el mérito al equipo por apropiarse de cada pieza de software). Menos gente implica menos fricción de coordinación, y resulta que eso pesa más que el número de cabezas.