NumiaSQL
SQL Analytics · Data Warehouse · BigQuery · DBT
Los datos blockchain solo valen si la gente puede acceder a ellos. La mayoría de cadenas generan toneladas de actividad on-chain, pero esos datos se quedan atrapados en endpoints RPC de nodos que nadie diseñó para analítica. Si eres Dune o Token Terminal e intentas dar soporte a una nueva cadena, necesitas a alguien que ya haya hecho el trabajo de ingesta.
Eso es NumiaSQL. Ingestamos datos on-chain en bruto de más de 30 cadenas, los transformamos en tablas limpias y los servimos a través de BigQuery. Cientos de terabytes de datos blockchain indexados, en actualización continua.
El producto
Ejecutamos indexadores que extraen datos en bruto de cada cadena, gestionan el caos (reorgs, cambios de schema, transacciones fallidas, upgrades de cadena que rompen todo) y lo canalizan a BigQuery mediante modelos DBT que normalizan todo en tablas consistentes. Cada cadena estructura sus datos a su manera. Una transferencia de tokens en Cosmos no tiene nada que ver con una en un L2 de Ethereum. Nuestros modelos se encargan de esa traducción: convierten formatos de eventos específicos de cada cadena en un schema unificado que funciona igual sin importar qué cadena consultes. Transacciones, movimientos de tokens, posiciones de staking, actividad de governance, interacciones DeFi.
Quién paga depende de la cadena. A veces una fundación como Celestia o dYdX financia la indexación de su ecosistema, y entonces cualquiera puede consultarlo. Otras veces un integrador como Dune, Artemis, Token Terminal o Nansen paga por acceso a las cadenas que necesita. En ambos casos, los datos acaban siendo consultables, con analítica de governance, seguimiento de tesorería, métricas de crecimiento del ecosistema y los modelos personalizados que requiera cada caso de uso. Acceso SQL directo, sin APIs, sin rate limits.
Arquitectura
BigQuery como warehouse. La integración con el ecosistema fue el factor decisivo: los analistas ya trabajan en Google Sheets y Looker Studio, los drivers de Python funcionan sin configurar nada. Nos conectamos a flujos de trabajo que ya existen.
DBT gestiona toda la transformación. Los modelos parsean las transacciones en bruto en tablas organizadas por tipo de evento: todos los swaps en una tabla, todas las transferencias en otra, eventos de staking en otra, y así. Misma estructura sin importar de qué cadena vengan los datos. También montamos modelos ad-hoc cuando un caso de uso necesita algo distinto. Particionamos por tiempo y clusterizamos por los campos que la gente realmente usa para filtrar, porque BigQuery cobra por datos escaneados. La diferencia entre una consulta de 50 $ y una de 0,50 $ es diseño de tablas, y eso lo resolvemos de antemano.
Lo que aprendí
Invertimos mucha energía inicial en la ingesta: hacer que los pipelines funcionasen bien, gestionar edge cases, conseguir indexadores fiables. Trabajo necesario, pero el valor real resultó estar en la distribución. Datasets públicos de los que las grandes plataformas puedan depender, datasets privados en los que las fundaciones confíen para su propio reporting. La ingesta es lo difícil, pero la distribución es el producto.
La estandarización entre cadenas nos llevó más tiempo que cualquier otra cosa. Cada cadena se cree especial, y arquitectónicamente lo son. Pero quien consulta los datos solo quiere que "muéstrame transferencias por encima de 10k $" funcione en todas partes. Convenciones de nombres, schemas consistentes, cubrir los casos donde las cadenas no encajan limpiamente en el modelo estándar. Ahí está el moat, no en la infraestructura.
Podríamos haber construido nuestra propia plataforma analítica e intentar que todo el mundo viniera a nosotros. En vez de eso, nos convertimos en la capa de datos que alimenta las plataformas que la gente ya usa. Dune recibe nuestros datos, Artemis recibe nuestros datos, Token Terminal recibe nuestros datos. Somos infraestructura, no un producto compitiendo con nuestros propios clientes. Ese posicionamiento explica por qué el negocio funciona.