NumiaSQL
SQL Analytics · Data Warehouse · BigQuery · DBT
Los datos de blockchain solo son utiles si la gente puede acceder a ellos. La mayoria de cadenas generan toneladas de actividad on-chain, pero esos datos quedan atrapados en endpoints RPC de nodos que no fueron disenados para analitica. Si eres Dune o Token Terminal intentando dar soporte a una nueva cadena, necesitas a alguien que ya haya hecho el trabajo de ingesta.
Eso es NumiaSQL. Ingestamos datos raw on-chain de mas de 30 cadenas, los transformamos en tablas limpias, y los hacemos disponibles a traves de BigQuery. Cientos de terabytes de datos blockchain indexados, actualizados continuamente.
El producto
Corremos indexadores que extraen datos raw de cada cadena, gestionan el caos (reorgs, cambios de schema, transacciones fallidas, actualizaciones de cadena que rompen todo), y lo canalizan a BigQuery a traves de modelos DBT que normalizan todo en tablas consistentes. Cada cadena estructura sus datos de forma diferente. Una transferencia de tokens en Cosmos no se parece en nada a una en un L2 de Ethereum. Nuestros modelos manejan esa traduccion, convirtiendo formatos de eventos especificos de cada cadena en un schema unificado que funciona igual independientemente de que cadena consultes. Transacciones, movimientos de tokens, posiciones de staking, actividad de governance, interacciones DeFi.
Quien paga depende de la cadena. A veces una fundacion como Celestia o dYdX financia la indexacion de su ecosistema, y entonces cualquiera puede consultarlo. A veces un integrador como Dune, Artemis, Token Terminal o Nansen paga por acceso a las cadenas que necesita. En cualquier caso, los datos acaban siendo consultables, con analitica de governance, seguimiento de tesoreria, metricas de crecimiento del ecosistema, y los modelos personalizados que el caso de uso requiera. Acceso SQL directo, sin APIs, sin rate limits.
Arquitectura
BigQuery como warehouse. La integracion con el ecosistema fue el factor decisivo: los analistas ya trabajan en Google Sheets y Looker Studio, los drivers de Python funcionan directamente. Nos enchufamos a flujos de trabajo que ya existen.
DBT gestiona toda la transformacion. Los modelos parsean las transacciones raw en tablas organizadas por tipo de evento: todos los swaps en una tabla, todas las transferencias en otra, eventos de staking en otra, y asi sucesivamente. Misma estructura independientemente de que cadena vengan los datos. Tambien construimos modelos ad-hoc cuando un caso de uso necesita algo diferente. Particionamos por tiempo y clusterizamos por los campos por los que la gente realmente filtra porque BigQuery cobra por datos escaneados. La diferencia entre una consulta de 50$ y una de 0,50$ es diseno de tablas, y lo resolvemos de antemano.
Lo que aprendi
Dedicamos mucha energia inicial a la ingesta: hacer que los pipelines funcionaran bien, manejar edge cases, hacer los indexadores fiables. Trabajo necesario, pero el valor real resulto estar en la distribucion. Datasets publicos de los que las grandes plataformas puedan depender, datasets privados en los que las fundaciones confien para su propio reporting. La ingesta es dificil, pero la distribucion es el producto.
La estandarizacion entre cadenas llevo mas tiempo que cualquier otra cosa. Cada cadena se cree especial, y arquitectonicamente lo son. Pero la gente que consulta los datos solo quiere que "muestrame transferencias por encima de 10k$" funcione en todas partes. Convenciones de nombres, schemas consistentes, manejar los casos donde las cadenas no encajan limpiamente en el modelo estandar. Eso es el moat, no la infraestructura.
Podriamos haber construido nuestra propia plataforma de analitica e intentar que todo el mundo viniera a nosotros. En su lugar, nos convertimos en la capa de datos que alimenta las plataformas que la gente ya usa. Dune obtiene nuestros datos, Artemis obtiene nuestros datos, Token Terminal obtiene nuestros datos. Somos infraestructura, no un producto compitiendo con nuestros propios clientes. Ese posicionamiento es por lo que el negocio funciona.