Saltar al contenido principal

Anomalías en DEX

Pipeline de ML en GCP que detecta anomalías de trading en tiempo real en Osmosis, estima impacto y alerta en milisegundos para anticipar movimientos de precio.

ML en streaming sobre GCP con Pub/Sub, Cloud Functions, BigQuery y Vertex AI; modelos no supervisados (autoencoder denso, OCSVM, Isolation Forest) evaluados con Silhouette y Mann-Whitney; latencia extremo-a-extremo <1 s.

Detección de AnomalíasAnálisis On-ChainDeFiMLOpsSistemas en Tiempo Real
Silhouette 0.909Latencia < 1s de tx a alerta+10M txs/díaValidado con Mann-Whitney
GCPPub/SubCloud FunctionsBigQueryPythonFirestoreTensorFlowscikit-learn

Duración

Introducción

Construí un pipeline de ML en tiempo real para detectar anomalías de trading on‑chain en Osmosis, estimar su impacto de mercado y disparar alertas en milisegundos, elevando la señal antes de que los movimientos sean evidentes. El sistema usa ingesta en streaming con Pub/Sub y Cloud Functions, BigQuery + Vertex AI para entrenamiento/serving, y modelos no supervisados validados con Silhouette y pruebas de Mann–Whitney.

Arquitectura del pipeline en GCP

Desafío

El reto fue separar la señal del ruido en un flujo continuo de millones de transacciones. Además de trabajar sin etiquetas (no supervisado) y con patrones que derivan en el tiempo, la infraestructura debía operar con latencia sub-segundo para convertir el dato en una señal realmente accionable.

Solución y Enfoque

La solución fue una plataforma de investigación end-to-end que combina modelos no supervisados con una infraestructura en tiempo real, diseñada para ser fiable y eficiente:

Investigación de Modelos ML/DL

  • Autoencoder denso, One-Class SVM e Isolation Forest como modelos principales.
  • K-Means y enfoques baseline para contraste; ratio de outliers fijado en 5% para pruebas.
  • Ingeniería de variables: patrones de gas, clustering de wallets, actividad cross-chain.
  • Evaluación sin etiquetas con Silhouette Score y comparación entre poblaciones.

Infraestructura Tiempo Real (GCP)

  • Pub/Sub para ingesta desde nodos blockchain.
  • Cloud Functions procesando transacciones con latencia <1 s.
  • Firestore para alertas en tiempo real a dashboards.
  • BigQuery para histórico y entrenamiento.

MLOps y Automatización

  • Vertex AI para entrenamiento y despliegue automatizados.
  • CI/CD para modelos sin tiempo de inactividad.
  • A/B testing entre versiones de modelo.
  • Monitorización de precisión y latencia.
Funcionamiento de una pool de liquidez
Distribucion del precio de OSMO
Distribución de la cantidad de OSMO por trade
Diagrama de autoencoder denso

Resultados e Impacto

La plataforma identificó patrones accionables de forma consistente: el autoencoder denso alcanzó Silhouette 0.909, las alertas se generaron en <5 s desde la confirmación y se detectó acumulación de ballenas previa a rallies. El procesamiento sub-segundo y los despliegues automatizados convirtieron la investigación en inteligencia repetible apta para detección de anomalías en producción.

Hallazgos de Investigación

  • Silhouette 0.909 con autoencoder denso; mejores resultados frente a SVM e Isolation Forest.
  • Alerta en <5s desde la confirmación de la transacción.
  • Patrones de acumulación de ballenas previos a rallies detectados consistentemente.
  • Tests de Mann-Whitney con diferencias significativas en volatilidad, precio y volumen.

Logro Técnico

  • Pipeline ML de extremo a extremo con latencia sub-segundo.
  • Despliegues automatizados: de horas a minutos por actualización.
  • Arquitectura GCP eficiente para millones de transacciones.
  • Framework reutilizable para investigación ML on-chain.

El proyecto demuestra que el análisis on-chain en tiempo real puede anticipar inteligencia de mercado accionable. Aunque centrado en investigación, la infraestructura y los modelos son aplicables a entornos productivos para detectar movimientos significativos antes de su reconocimiento generalizado.