Anomalías en DEX
Pipeline de ML en GCP que detecta anomalías de trading en tiempo real en Osmosis, estima impacto y alerta en milisegundos para anticipar movimientos de precio.
ML en streaming sobre GCP con Pub/Sub, Cloud Functions, BigQuery y Vertex AI; modelos no supervisados (autoencoder denso, OCSVM, Isolation Forest) evaluados con Silhouette y Mann-Whitney; latencia extremo-a-extremo <1 s.
Duración
Introducción
Construí un pipeline de ML en tiempo real para detectar anomalías de trading on‑chain en Osmosis, estimar su impacto de mercado y disparar alertas en milisegundos, elevando la señal antes de que los movimientos sean evidentes. El sistema usa ingesta en streaming con Pub/Sub y Cloud Functions, BigQuery + Vertex AI para entrenamiento/serving, y modelos no supervisados validados con Silhouette y pruebas de Mann–Whitney.
Desafío
El reto fue separar la señal del ruido en un flujo continuo de millones de transacciones. Además de trabajar sin etiquetas (no supervisado) y con patrones que derivan en el tiempo, la infraestructura debía operar con latencia sub-segundo para convertir el dato en una señal realmente accionable.
Solución y Enfoque
La solución fue una plataforma de investigación end-to-end que combina modelos no supervisados con una infraestructura en tiempo real, diseñada para ser fiable y eficiente:
Investigación de Modelos ML/DL
- Autoencoder denso, One-Class SVM e Isolation Forest como modelos principales.
- K-Means y enfoques baseline para contraste; ratio de outliers fijado en 5% para pruebas.
- Ingeniería de variables: patrones de gas, clustering de wallets, actividad cross-chain.
- Evaluación sin etiquetas con Silhouette Score y comparación entre poblaciones.
Infraestructura Tiempo Real (GCP)
- Pub/Sub para ingesta desde nodos blockchain.
- Cloud Functions procesando transacciones con latencia <1 s.
- Firestore para alertas en tiempo real a dashboards.
- BigQuery para histórico y entrenamiento.
MLOps y Automatización
- Vertex AI para entrenamiento y despliegue automatizados.
- CI/CD para modelos sin tiempo de inactividad.
- A/B testing entre versiones de modelo.
- Monitorización de precisión y latencia.
Resultados e Impacto
La plataforma identificó patrones accionables de forma consistente: el autoencoder denso alcanzó Silhouette 0.909, las alertas se generaron en <5 s desde la confirmación y se detectó acumulación de ballenas previa a rallies. El procesamiento sub-segundo y los despliegues automatizados convirtieron la investigación en inteligencia repetible apta para detección de anomalías en producción.
Hallazgos de Investigación
- Silhouette 0.909 con autoencoder denso; mejores resultados frente a SVM e Isolation Forest.
- Alerta en <5s desde la confirmación de la transacción.
- Patrones de acumulación de ballenas previos a rallies detectados consistentemente.
- Tests de Mann-Whitney con diferencias significativas en volatilidad, precio y volumen.
Logro Técnico
- Pipeline ML de extremo a extremo con latencia sub-segundo.
- Despliegues automatizados: de horas a minutos por actualización.
- Arquitectura GCP eficiente para millones de transacciones.
- Framework reutilizable para investigación ML on-chain.
El proyecto demuestra que el análisis on-chain en tiempo real puede anticipar inteligencia de mercado accionable. Aunque centrado en investigación, la infraestructura y los modelos son aplicables a entornos productivos para detectar movimientos significativos antes de su reconocimiento generalizado.