Celestia Data
Data Analytics · Data Engineering · BigQuery · DBT
La Celestia Foundation necesitaba respuestas sobre su propia red que ninguna herramienta existente podía dar. Habían construido la DA layer de referencia, los rollups publicaban datos a diario, pero nadie podía contestar fácilmente a preguntas básicas. ¿Cuántos datos se están publicando? ¿Qué rollups son los mayores consumidores? ¿Cómo van las métricas del token? Conseguir esas respuestas requería construir infraestructura a medida, y no querían desviar a su equipo de ingeniería del trabajo en el protocolo.
El problema
Los exploradores blockchain genéricos están pensados para consultas a nivel de transacción en cadenas monolíticas. Celestia es una DA layer, un modelo de datos completamente distinto. Rollups publicando blobs, pagando en TIA, con una economía que gira en torno al volumen de datos y no al número de transacciones. Ninguna herramienta existente entendía esa arquitectura, y adaptarlas habría supuesto pelear contra sus abstracciones todo el rato.
El producto
Diseñamos el dashboard alrededor de las preguntas concretas que la Foundation se hacía en reuniones, calculaba a mano en hojas de cálculo, o le llegaban de inversores. La economía de una DA layer gira en torno al volumen de datos y la eficiencia de costes. A cada rollup le importa cuánto cuesta publicar datos aquí frente a las alternativas. Pusimos esa comparación en primer plano.
Tres áreas de enfoque:
- Economía de la DA layer. Datos totales publicados por rollup, ingresos en TIA por envío de blobs, comparativas de coste frente a alternativas. Ahora mismo rastreamos 3,6 TB en 51 redes.
- Salud de los rollups. Cada red tiene su propio perfil: tendencias de volumen de datos, actividad de transacciones, TVS. Mapas de calor para comparaciones entre rollups porque la Foundation quería ver la salud del ecosistema de un vistazo, no ir gráfico por gráfico.
- Dinámica del token. Distribución de staking, tasa de inflación, APR, y la relación entre ingresos por fees de DA y recompensas de inflación. No solo las cifras sueltas, sino cómo encaja todo.
La arquitectura
La base de datos parte de NumiaSQL, nuestro data warehouse de blockchain indexado que ya gestiona la ingesta, el manejo de reorgs y la normalización para más de 30 cadenas, incluida Celestia. En vez de construir pipelines de datos desde cero, montamos modelos de transformación con DBT sobre las tablas limpias de NumiaSQL, añadiendo agregaciones específicas de Celestia: métricas de envío de blobs, desglose de costes por rollup, cálculos de economía del token.
BigQuery se encarga de las transformaciones pesadas con modelos incrementales. El ecosistema sigue creciendo. 51 redes ahora, con más sumándose regularmente, y las actualizaciones incrementales mantienen los costes predecibles en lugar de escalar linealmente con el volumen de datos. Eso importa cuando procesas terabytes.
Para la capa de servicio, sincronizamos los datos procesados en Postgres. BigQuery va bien para transformaciones por lotes, pero es demasiado lento para un dashboard que necesita respuestas en menos de un segundo. Postgres nos da un p99 por debajo de 150ms en todas las vistas. Cada capa hace lo que mejor se le da.
Resultados
El dashboard es completamente público en celestiadata.com. Cualquiera puede consultar las métricas de DA de Celestia sin montar infraestructura ni escribir una sola query.
El equipo de Celestia lo usa como su fuente principal para la salud del ecosistema. Reuniones internas, actualizaciones para inversores, informes públicos, todo tirando de los mismos datos. Una fuente de verdad en lugar de hojas de cálculo dispersas y consultas ad-hoc.
Los rollups que construyen sobre Celestia lo usan para compararse con el resto del ecosistema: volumen de datos, costes, tendencias de actividad. Se convirtió en el punto de referencia para equipos que deciden dónde publicar sus datos.
Lo que aprendí
Las herramientas a medida ganan a las soluciones genéricas cuando el dominio es lo bastante diferente. Podríamos haber pasado meses personalizando un explorador blockchain genérico para que más o menos funcionase con una DA layer. En su lugar, nos sentamos con la Foundation hasta entender sus preguntas reales: qué surgía una y otra vez en reuniones, qué calculaban a mano, qué les preguntaban los inversores constantemente. Y construimos exactamente eso. Las mejores funcionalidades no fueron las que imaginamos, sino las que resolvían problemas que habíamos escuchado de primera mano.
Construir sobre la capa de datos de NumiaSQL hizo viable el proyecto dentro del plazo. Las partes difíciles de los datos de blockchain (ingesta, reorgs, cambios de esquema) ya estaban resueltas. Dedicamos el tiempo a los modelos específicos de Celestia y al dashboard en sí, no a fontanería de datos.
Cuando la Foundation empezó a usar el dashboard para presentaciones a inversores e informes públicos, la precisión dejó de ser opcional. Cada número tenía que ser correcto, cada métrica consistente, cada actualización fiable. Montamos comprobaciones de reconciliación y detección de anomalías sobre nuestros propios resultados. Ser la fuente canónica de las métricas de un ecosistema significa que la confianza se gana con corrección aburrida e implacable.